Une étude des données médicales montre que les modèles d’IA peuvent facilement diffuser des informations erronées, même avec un minimum de fausses données. 2025
Patates chaudes. Une nouvelle étude de l’Université de New York souligne en outre la vulnérabilité des grands modèles de langage à la désinformation. L’étude montre que même une petite quantité de fausses données dans l’ensemble de formation LLM peut conduire à la propagation d’informations inexactes, ce qui constitue une préoccupation pour l’IA. fiabilité des contenus créés, notamment dans des domaines sensibles comme la médecine.
L’étude qui concentré sur les informations médicales, montre que lorsque la désinformation représente 0,001 % des données de formation, le LLM qui en résulte change. Cette découverte a des implications considérables non seulement pour l’empoisonnement intentionnel des modèles d’IA, mais également pour un grand nombre de LLM existants et non intentionnels. de désinformation dans les ensembles de formation de .
L’équipe de recherche a utilisé la base de données The Pile, couramment utilisée pour la formation LLM, comme base pour ses expériences. Elle s’est concentrée sur trois domaines médicaux : la médecine générale, la neurochirurgie et la médecine, en sélectionnant 20 sujets dans chacun pour un total de 60 sujets contenant plus de 20 sujets. 14 millions de références à ces sujets, ce qui représente environ 4,5 pour cent de tous les documents qu’il contient.
Pour tester l’effet de la désinformation, les chercheurs ont utilisé GPT 3.5 pour générer des informations médicales erronées de « haute qualité », qui ont ensuite été placées dans des versions modifiées de The Pile. Ils ont créé des versions dans lesquelles 0,5 ou 1 % des informations pertinentes se trouvaient sur l’une des versions. trois sujets ont été remplacés par de la désinformation.
Le résultat était alarmant. Les modèles résultants étaient non seulement plus susceptibles de produire des informations erronées sur des sujets ciblés, mais produisaient également un contenu plus préjudiciable sur des sujets médicaux sans rapport.
Dans le but de trouver une limite inférieure à l’effet nocif, les chercheurs ont progressivement réduit le pourcentage de désinformation dans les données de formation. Cependant, même à 0,001 pour cent, plus de 7 pour cent des réponses obtenues par LLM contenaient des informations incorrectes. la désinformation à des niveaux aussi bas concerne particulièrement la facilité avec laquelle de fausses informations peuvent être introduites dans les données de formation.
“Une attaque similaire contre les 70 milliards de paramètres LLaMA 2 LLM, formés sur 2 000 milliards de jetons, nécessiterait 40 000 articles d’une valeur inférieure à 100,00 dollars”, notent les chercheurs. Cela met en évidence le potentiel de mauvais acteurs de manipuler les systèmes d’IA à un coût relativement faible.
L’étude a également révélé que les tests de performance médicaux standard LLM n’ont pas réussi à détecter les modèles compromis. « Les performances des modèles compromis étaient comparables à celles des modèles témoins », a rapporté l’équipe. Ce manque de méthodes de détection constitue un défi important posé par l’IA pour garantir la fiabilité des données médicales. information.
Les tentatives visant à améliorer le modèle après la formation à l’aide de diverses méthodes, notamment l’ingénierie rapide et le réglage des instructions, se sont révélées inefficaces pour atténuer les effets des données empoisonnées.
L’équipe de recherche a développé une solution possible : ils ont conçu un algorithme capable de reconnaître la terminologie médicale dans les résultats du LLM et de croiser les phrases avec un graphique de connaissances biomédicales validé. Bien que cette méthode n’était pas parfaite, elle a montré un pourcentage élevé de désinformation médicale : suggérant. une voie prometteuse pour la validation future des LLM à base médicale.
Les implications de cette étude vont au-delà de l’empoisonnement délibéré des données. Les chercheurs reconnaissent le problème de l’empoisonnement « accidentel » des données en raison de la désinformation largement répandue en ligne.
De plus, même les bases de données médicales établies telles que PubMed ne sont pas à l’abri de la désinformation. La littérature médicale contient des traitements et des tests obsolètes qui ont été remplacés par des approches davantage fondées sur des preuves.