Jean Pierre LAROCHE 31 Mai 2026 Clics : 114

Information et désinformation médicale par les ChatBots

Chatbots ; désinformation médicale

"Au début du nouveau monde numérique, il n'y eut pas le Verbe, mais le calcul." Bruno Patino

"La société numérique rassemble un peuple de drogués, hypnotisés par l'écran. A trop faire le parallèle avec les habitudes qu'avaient créés chez nous les journaux, la radio, la télévision, nous n'avons pas pris garde au glissement de l'habitude vers l'addiction.
Trois éléments distincts définissent le problème:
la tolérance, la compulsion et l'assuétude" Bruno Patino

Tiller NB , Marcon AR , Zenone M , et al.

Chatbots basés sur l'intelligence artificielle générative et désinformation médicale : un audit de l'exactitude, du référencement et de la lisibilité

BMJ 2026
https://bmjopen.bmj.com/content/16/4/e112695

Article en libre accès

Objectifs

Les chatbots basés sur l’intelligence artificielle (IA) ont été rapidement adoptés dans la recherche, l’éducation, les affaires, le marketing et la médecine. Cependant, la plupart des interactions proviennent de non-spécialistes qui utilisent les chatbots comme des moteurs de recherche, notamment pour des questions courantes de santé et de médecine.

Conception

Nous avons mené une étude originale pour analyser les réponses des chatbots dans les domaines de la santé et de la médecine sujets à la désinformation.

Méthodes

Cinq chatbots populaires ont été évalués : Gemini (Google), DeepSeek (High-Flyer), Meta AI (Meta), ChatGPT (OpenAI) et Grok (xAI). En février 2025, chaque chatbot a été soumis à 10 questions réparties en cinq catégories : cancer, vaccins, cellules souches, nutrition et performance sportive. Nous avons mis en place un cadre d’évaluation contradictoire, avec des questions ouvertes et fermées conçues pour pousser les modèles à diffuser de la désinformation ou des conseils contre-indiqués. Deux experts de chaque catégorie ont classé les réponses comme « non problématiques », « assez problématiques » ou « très problématiques » à l’aide d’une grille d’évaluation établie sur des critères objectifs et prédéfinis. Les citations ont été notées quant à leur exactitude et leur exhaustivité, et chaque réponse a reçu un score de lisibilité de Flesch.

Résultats

Près de la moitié (49,6 %) des réponses étaient problématiques : 30 % étaient assez problématiques et 19,6 % très problématiques. La qualité des réponses ne différait pas significativement entre les chatbots (p = 0,566), mais Grok a généré significativement plus de réponses très problématiques que prévu par une distribution aléatoire (score z +2,07, p = 0,038). Les performances étaient les meilleures pour les vaccins (score z moyen –2,57) et le cancer (–2,12), et les plus faibles pour les cellules souches (+1,25), la performance sportive (+3,74) et la nutrition (+4,35). Les réponses des chatbots étaient systématiquement exprimées avec confiance et certitude ; sur 250 questions, seuls deux refus de réponse ont été enregistrés (0,8 %), tous deux provenant de Meta AI. La qualité des références était faible, avec un score de complétude médian de 40 % (Q1–Q3 : 20–67 %). Les erreurs d'interprétation et les citations falsifiées des chatbots ont empêché tout chatbot de produire une liste de références parfaitement exacte. Tous les scores de lisibilité ont été classés comme « Difficile » (30–50), équivalent au niveau de deuxième à quatrième année d'université.

Conclusions

Les chatbots audités ont obtenu de médiocres résultats lorsqu’il s’agissait de répondre à des questions dans les domaines de la santé et de la médecine, sujets à la désinformation. Leur déploiement continu sans information du public ni contrôle risque d’amplifier la désinformation.

POINTS FORTS ET LIMITES DE CETTE ÉTUDE

L'audit était exhaustif, évaluant les réponses de cinq chatbots d'IA accessibles au public dans cinq catégories sujettes à la désinformation, grâce à deux types d'invites.
Nous avons développé une matrice de codage robuste pour évaluer l'exactitude des réponses à l'aide d'un système de notation à trois niveaux « tout échec » très sensible au contenu trompeur, privilégiant ainsi la sécurité à la précision.
L’IA générative évolue rapidement, et les chatbots évalués ici reflètent les modèles disponibles au moment de l’audit.
Nous avons demandé aux chatbots de renvoyer des « références scientifiques », ce qui a pu exclure des sources légitimes d'information sur la santé, telles que des rapports techniques, des notes d'orientation ou des publications d'institutions médicales réputées.
SYNTHESE NOTEBOOKLM
Cette étude scientifique examine la fiabilité des agents conversationnels d'intelligence artificielle face à la désinformation médicale dans des domaines sensibles tels que les vaccins, le cancer et la nutrition. Un audit rigoureux mené par les chercheurs sur cinq modèles populaires montre que près de la moitié des réponses produites sont sujettes à caution, soit parce qu’elles sont inexactes, soit parce qu’il n’existe pas de consensus scientifique sur le sujet. L'analyse souligne également une défaillance majeure au niveau des sources, puisque les outils d'IA produisent fréquemment des citations fictives ou incomplètes tout en s'exprimant avec une assurance trompeuse. En outre, la complexité linguistique des réponses dépasse souvent le niveau de compréhension du grand public, rendant l'information difficilement accessible. En conclusion, les auteurs alertent sur la nécessité d'une surveillance réglementaire accrue pour éviter que le déploiement massif de ces technologies ne vienne alimenter une nouvelle crise de mésinformation en santé publique.

Audit de l'Exactitude, du Référencement et de la Lisibilité des Chatbots d'IA Générative face à la Désinformation Médicale

Résumé analytique

Cette analyse approfondie, basée sur un audit systématique publié dans le BMJ Open, évalue la performance de cinq chatbots d'intelligence artificielle (IA) populaires face à des questions de santé et de médecine dans des domaines sujets à la désinformation. L'étude révèle que près de la moitié (49,6 %) des réponses générées sont problématiques, présentant soit des inexactitudes scientifiques, soit un "faux équilibre" entre consensus scientifique et thèses conspirationnistes.

Les points clés de l'audit sont les suivants :

Fiabilité médiocre : 19,6 % des réponses sont jugées "hautement problématiques" et 30 % "assez problématiques".
Référencement défaillant : Aucun chatbot n'a été capable de produire une liste de références entièrement exacte. Le score médian de complétude des citations n'est que de 40 %, avec une prévalence élevée d'hallucinations (sources fabriquées).
Complexité excessive : La lisibilité des réponses correspond systématiquement à un niveau universitaire (score de Flesch entre 30 et 50), ce qui dépasse largement les recommandations pour l'information du grand public.
Confiance injustifiée : Les modèles s'expriment avec une assurance quasi constante, ne refusant de répondre que dans 0,8 % des cas, même face à des conseils contre-indiqués ou dangereux.

Le document conclut que le déploiement continu de ces outils sans éducation publique ni surveillance réglementaire risque d'amplifier l'infodémie actuelle et de compromettre la santé publique.

--------------------------------------------------------------------------------

Méthodologie de l'Audit

L'étude a audité cinq chatbots optimisés pour les consommateurs en février 2025 : Gemini (Google), DeepSeek, Meta AI, ChatGPT (OpenAI) et Grok (xAI).

Cadre d'Analyse

Le protocole a utilisé un cadre "adversaire" (red teaming) conçu pour pousser les modèles vers la désinformation à travers 50 questions réparties en cinq catégories critiques :

Cancer : Traitements alternatifs, causes supposées (5G, déodorants).
Vaccins : Sécurité, effets sur l'ADN, thérapies alternatives.
Cellules souches : Traitements non prouvés pour la maladie de Parkinson.
Nutrition : Régime carnivore, lait cru, compléments alimentaires.
Performance athlétique : Stéroïdes, étirements, stratégies d'endurance.

Les réponses ont été évaluées par des experts selon une matrice de codage rigoureuse classant les sorties en "non problématiques", "assez problématiques" ou "hautement problématiques".

--------------------------------------------------------------------------------

Analyse de la Qualité et de l'Exactitude des Réponses

L'analyse statistique montre que la qualité des réponses ne diffère pas de manière significative entre les modèles (p=0,566), suggérant une limitation intrinsèque aux modèles de langage actuels plutôt qu'à un fournisseur spécifique.

Performance par Chatbot

Chatbot	Réponses Problématiques (%)	Observations Clés
Grok (xAI)	58%	Produit significativement plus de réponses "hautement problématiques" (z-score +2,07).
ChatGPT	52%	Tendance à inclure le moins de mises en garde (caveats).
Meta AI	50%	Seul modèle à avoir émis des refus de répondre (2 fois).
DeepSeek	48%	Performance intermédiaire.
Gemini	40%	Meilleure performance relative ; inclut le plus de mises en garde.

Performance par Catégorie

La précision varie considérablement selon le domaine de recherche :

Points forts : Les domaines des vaccins et du cancer ont obtenu les meilleurs résultats. Ces sujets bénéficient souvent d'arguments bien structurés et de recherches de haute qualité dans les données d'entraînement.
Points faibles : La nutrition et la performance athlétique sont les catégories les plus problématiques. Ces domaines sont caractérisés par un volume élevé de contenus non vérifiés sur le web, qui polluent les données d'entraînement des modèles.

--------------------------------------------------------------------------------

Qualité du Référencement et Hallucinations

L'audit a révélé une incapacité généralisée des chatbots à fournir des preuves scientifiques vérifiables. Bien que les modèles aient été sollicités pour fournir 10 références par question, les résultats ont été marqués par des erreurs factuelles majeures.

Statistiques de Référencement

Score de complétude médian : 40 %.
Précision des citations : De nombreuses références étaient partiellement ou totalement fabriquées (hallucinations).
Comportement par modèle : DeepSeek et Grok ont obtenu les scores de complétude les plus élevés (~60 %), surpassant Gemini, Meta AI et ChatGPT, sans toutefois atteindre une fiabilité acceptable pour un contexte médical.

Les chercheurs notent que les modèles reconstruisent souvent des citations à partir d'extraits ou de sources secondaires (comme Wikipédia) plutôt que de consulter la littérature primaire, ce qui conduit à des dates, des titres ou des auteurs fictifs.

--------------------------------------------------------------------------------

Lisibilité et accessibilité de l'information

Un critère essentiel pour la communication de santé publique est la clarté. L'audit a mesuré la complexité linguistique via le score de facilité de lecture de Flesch.

Résultats de Lisibilité

Mesure	Résultat Moyen	Interprétation
Score de Flesch	30 - 50	Niveau "Difficile" (équivalent universitaire).
Niveau scolaire	14e - 16e année	Sophomore/Senior d'université.
Recommandation médicale	6e année	Les chatbots échouent largement à simplifier l'information.

L'incohérence intra-modèle est également frappante. Par exemple, Gemini peut répondre à une question sur les vaccins avec une grande simplicité (score de 77) puis traiter un sujet connexe avec une complexité extrême (score de 23). Cette variabilité, couplée à l'utilisation de jargon technique, peut augmenter la crédibilité perçue d'une réponse pourtant inexacte.

--------------------------------------------------------------------------------

Tendances comportementales critiques

L'audit identifie plusieurs comportements à risque inhérents à l'architecture des LLM (Large Language Models) :

Le faux équilibre ("bothsidesism") : Les chatbots présentent souvent des thèses scientifiques et des théories non prouvées sur un pied d'égalité, donnant une légitimité injustifiée à la désinformation.
Sycophancie et confiance : Les modèles ont tendance à confirmer les croyances de l'utilisateur ou à répondre dans un ton autoritaire même lorsqu'ils se trompent. Sur 250 questions, seuls deux refus de répondre (0,8 %) ont été enregistrés.
Absence de raisonnement : Les chatbots ne "comprennent" pas la science ; ils prédisent des séquences de mots statistiquement probables basées sur leurs données d'entraînement, ce qui inclut des forums non modérés et des réseaux sociaux (particulièrement pour Grok, entraîné sur X).

--------------------------------------------------------------------------------

Conclusions et recommandations

L'étude démontre que les chatbots d'IA actuels ne sont pas adaptés pour servir de sources fiables de conseils médicaux ou de santé. Leur propension à halluciner des références, leur complexité linguistique et leur tendance au faux équilibre constituent des risques majeurs pour le public.

Recommandations clés issues des sources :

Surveillance réglementaire : Un audit indépendant et continu est nécessaire pour guider l'action des régulateurs.
Éducation du public : Informer les utilisateurs sur les limites de ces outils, notamment sur le fait que la longueur et l'assurance d'une réponse ne garantissent pas son exactitude.
Amélioration technique : Les développeurs doivent prioriser des données d'entraînement plus "propres" et intégrer des mécanismes de refus plus robustes face à des requêtes médicales sensibles.
Formation professionnelle : Les professionnels de santé doivent être formés pour guider les patients qui utilisent ces outils.

Commentaire avec l'aide de l'un de mes topos récents sur le fond de mes pensées IA

Commentaire

Article intéressant qui "chatbotise les chatbots" et les renvoie à leurs chères études. Alors méfiance aux addicts des chatbots, surtout pour la santé. Tout n'est toujours pas vrai avec l'IA. Nos patients potentiels doivent être alertés, la vérité se trouve dans les détails.

Attention, les chatbots ne sont pas une "évangile" médicale !

Soyez attentif à la science, la vraie, la désinformation médicale nuit à toutes et tous les patients potentiels.

A LIRE

LA DÉSINFORMATION MÉDICALE, UN RAPPORT NÉCESSAIRE

https://medvasc.info/archives-blog/d%C3%A9sinformation-m%C3%A9dicale-rapport