À WIRED Health Londres le 16 avril, Reid Hoffman — cofondateur de LinkedIn, membre du conseil OpenAI, fondateur de la startup de découverte de drogues anticancer Manas AI — a dit que n'importe quel docteur qui utilise pas un ou plusieurs frontier models comme deuxième opinion « frôle la commission d'une faute professionnelle ». Son argument, c'est que les LLM frontier ont ingéré des trillions de mots d'information médicale pis peuvent flagger des possibilités qu'un clinicien pourrait manquer ; l'humain garde l'autorité de décision mais perd une erreur évitable. Hoffman a reconnu que des études précédentes ont montré que les LLM donnent de l'information inexacte pis changeante aux utilisateurs grand public qui cherchent des conseils médicaux, mais son cadrage, c'est que le mode d'échec, c'est « outsourcer la pensée critique » plutôt que « l'augmenter ». Il a aussi pointé la crise de personnel du NHS UK comme la raison structurelle pour laquelle cet argument compte maintenant : il y a pas assez de docteurs, des assistants médicaux LLM gratuits sur chaque smartphone pourraient fonctionner comme triage, pis refuser l'augmentation, c'est, selon lui, laisser les patients moins bien servis. Le cadrage « malpractice », c'est rhétoriquement agressif — la plupart des cliniciens vont rejeter le langage même s'ils acceptent une version de la prétention sous-jacente — mais ça cristallise une question que les builders en médecine AI esquivent depuis deux ans.
L'évidence de la recherche clinique en dessous de l'argument de Hoffman est plus mixte que ce que la phrase choc suggère. Les frontier models ont produit à la fois des performances impressionnantes en case-write-up (des études récentes montrent les systèmes de classe GPT qui surpassent les résidents sur des vignettes de raisonnement diagnostic) pis des modes d'échec bien documentés (interactions médicamenteuses hallucinées, diagnostics confidentement faux pour des maladies rares, incapacité de gérer des signaux cliniques contradictoires). L'étude de réplication Centaur de l'Université de Zhejiang que j'ai couverte hier — les chercheurs ont remplacé les prompts de tâches cognitives avec « Choisis s'il-vous-plaît l'option A » pis ont regardé le modèle continuer à sortir les réponses canoniques des données d'entraînement — c'est exactement le mode d'échec qui devrait rendre n'importe quel clinicien nerveux à propos d'un usage non-critique de deuxième opinion. Le modèle raisonne pas sur ton patient spécifique. Il pattern-matche la description du cas à la chose la plus proche dans sa distribution d'entraînement pis produit la réponse modale correcte pour ce pattern-là. Des fois c'est mieux qu'un résident fatigué à 3h du matin. Des fois ça récupère confidentement une réponse à une question différente de celle que le patient présente actually. La prétention de Hoffman que le cadrage de deuxième opinion résout ça est en partie correcte — l'humain est supposé intégrer — mais assume que le clinicien a le temps pis le scepticisme calibré pour overrider une sortie LLM qui sonne confidente, ce que la littérature empirique sur le biais d'automatisation suggère qu'ils vont souvent pas faire.
Le problème d'architecture de déploiement que ça soulève, c'est la partie que les builders en AI médicale doivent résoudre, pis ça rime avec le pattern cross-domain dont j'ai écrit toute la semaine. Le cadrage détection-vs-autorisation du papier bot Thales, le cadrage provenance-et-processus du papier détection-AI-sur-étudiants, pis le cadrage instruction-substitution du papier Centaur convergent tous ici. La « deuxième opinion » de Hoffman fonctionne juste comme modèle de déploiement si le workflow capture trois affaires dans un format structuré pis auditable : ce que le clinicien a vu pis conclu ; ce que le modèle a produit pis sur quel input ; pis la décision d'override ou de concurrence avec le raisonnement du clinicien attaché. Aucune des interfaces de chat de qualité grand public que le personnel médical utilise off-the-shelf aujourd'hui produit cet artefact. La question produit pour les 18 prochains mois d'AI médicale, c'est pas « le modèle est-il assez bon? » mais « le workflow est-il assez bon pour que quand le patient est blessé, tu puisses reconstruire qui a raisonné sur quoi, quand? ». Sans ça, « deuxième opinion » s'effondre en « j'ai demandé à ChatGPT pis je suis allé avec ce qu'il a dit » — qui est exactement l'exposition à la malpractice que le cadrage de Hoffman essaie d'éviter. L'architecture compte plus que la précision du modèle.
Trois takeaways pour les builders. Un, si tu bâtis n'importe quoi en AI clinique — diagnostic-support, triage, EHR-summarization, vérification d'interactions médicamenteuses — la question produit, c'est pas le modèle. C'est l'artefact de chaîne-de-raisonnement que ton outil produit. Les compagnies qui vont gagner la prochaine décennie en AI médicale, ça va être celles qui rendent le raisonnement clinicien visible pis overridable comme une sortie first-class, pas un afterthought. Bâtis pour la déposition de l'avocat de la malpractice dans six ans, pas pour la démo. Deux, surveille les régulateurs, pas juste les cliniciens. La FDA, MHRA, EMA pis les ordres professionnels nationaux sont tous présentement silencieux sur si « a consulté un LLM » fait partie du standard of care, mais le cadrage de Hoffman pousse la question à l'air libre. Le premier gros cas de malpractice où l'argument du plaignant, c'est « le clinicien aurait dû utiliser les outils LLM disponibles pis l'a pas fait » reframe la conversation réglementaire, pis ce cas-là s'en vient, probablement dans 18 mois. Trois, le pitch « assistant médical smartphone gratuit » style NHS que Hoffman fait, c'est le canari pour quels régimes réglementaires acceptent le triage assisté par LLM comme augmentation plutôt que pratique-de-médecine-sans-licence. UK, Singapour, UAE pis l'Estonie sont les plus susceptibles de donner le feu vert ; les boards médicaux d'États US sont les plus susceptibles de pousser back. L'opportunité produit est réelle, mais la friction juridictionnelle va définir quels builders shippent à grande échelle pis lesquels restent coincés en pilotes.
