Nature Medicine a publié cette semaine un éditorial intitulé « Show us the evidence for the value of medical AI », pis le cadrage est plus dur que ce que le journal pousse habituellement. Les éditeurs soutiennent que la preuve que les outils IA créent de la valeur pour les patients, fournisseurs ou systèmes de santé « reste rare » — ce qui veut dire que le domaine ship des déploiements plus vite qu'il produit les données d'essais qui les justifieraient. Les échecs spécifiques qu'ils cataloguent sont pas les polis. Une étude JAMA Medicine a trouvé que les modèles IA frontaliers produisent des diagnostics incorrects plus de 80 % du temps quand on leur présente des symptômes ambigus — exactement le cas où l'aide à la décision est censée aider. Les modèles hallucinent des trouvailles cliniques détaillées à partir d'images qu'on leur a jamais montrées. Ils se font régulièrement berner par des maladies fabriquées que les chercheurs inventent spécifiquement pour les tester. Des données médicales inexactes générées par LLM coulent maintenant dans la littérature révisée par les pairs elle-même.
La demande centrale de l'éditorial est procédurale plutôt qu'idéologique : un « cadre pour comment les technologies IA médicales devraient être évaluées, par quelles métriques pis contre quels benchmarks ». Ça sonne bureaucratique mais c'est le point où la plupart des revendications actuelles des vendeurs d'IA médicale s'effondrent. Un modèle peut avoir une sensibilité pis une spécificité impressionnantes sur un set de test retenu pis être quand même inutile ou nuisible en déploiement, parce que le set de test reflète pas le shift de distribution, le workflow, ou la population que le système rencontre vraiment en production. Sans un cadre standardisé — l'équivalent du chemin 510(k) de la FDA ou des exigences d'essais cliniques de l'EMA adapté pour le ML — les vendeurs sont libres de publier n'importe quel sous-ensemble favorable de métriques qu'ils veulent pis l'appeler validé. Plusieurs chercheurs externes, incluant Jamie Robertson à Harvard Medical School pis Almira Osmanovic Thunström à l'Université de Göteborg, font des variantes de cet argument depuis un an ; l'éditorial, c'est la littérature médicale établie qui rattrape.
Les problèmes techniques derrière l'éditorial sont réels pis valent la peine d'être nommés clairement. L'hallucination en milieu clinique, c'est une bête différente de l'hallucination en milieu chatbot, parce que l'utilisateur est un clinicien occupé sous pression de temps pis le coût d'une réponse confiamment fausse se mesure en résultats patients, pas en satisfaction client. Le mode d'échec « berné par des fausses maladies » veut dire que les modèles font de la correspondance de patterns sur des entrées qui sonnent plausibles sans garde-fous épistémiques — ils vont retourner un diagnostic confiant pour une condition qui existe pas si la syntaxe d'entrée a l'air assez médicale. Le taux de manqué de 80 % sur les symptômes ambigus, c'est l'échec qui fait le plus mal : la présentation ambiguë, c'est le cas où les humains ont besoin d'aide, pis le cas où le modèle est le moins fiable. Les diagnostics faciles ont pas besoin d'IA ; les difficiles exposent les vraies limites de la technologie.
Pour les développeurs qui travaillent sur des produits IA médicaux, l'éditorial est un resserrement utile plutôt qu'un signal d'arrêt. Le chemin honnête en avant implique trois affaires que le domaine évite. Les essais cliniques prospectifs, pas les victoires de benchmark rétrospectives, c'est ça qui produit la preuve que les régulateurs pis Nature Medicine demandent. L'évaluation intégrée au workflow — l'outil change-t-il vraiment le comportement du clinicien en production, pis ce changement améliore-t-il les résultats — est plus dure que les métriques offline mais c'est la seule chose qui compte pour l'adoption. Pis le rétrécissement honnête de portée : un modèle qui trie les images dermatologiques, validé pis déployé pour cette tâche-là, est plus utile pis plus défendable qu'un chatbot médical général dont le budget d'erreur est illimité. Le cycle de l'IA médicale va se consolider autour des produits qui peuvent vraiment passer ces tests, pis l'éditorial vient de clarifier que les journaux acceptent plus d'applaudir ceux qui peuvent pas.
