
L’IA sbaglia oltre l’80% delle diagnosi iniziali dei pazienti
Secondo un nuovo studio, i modelli linguistici di IA non forniscono una diagnosi precoce corretta in oltre l’80% dei casi, e non sono ancora sicuri per un uso clinico senza supervisione.
Lo riferiscono i ricercatori di Mass General Brigham, una rete non profit di ospedali e centri di ricerca con sede a Boston e uno dei maggiori sistemi sanitari degli Stati Uniti.
I risultati dello studio, pubblicato sulla rivista medica ad accesso aperto JAMA Network Open (fonte in inglese), indicano che i modelli linguistici di grandi dimensioni (LLM) non raggiungono il livello di ragionamento richiesto per l’uso clinico.
«Nonostante i continui progressi, i modelli linguistici di grandi dimensioni pronti all’uso non sono pronti per un impiego clinico, senza supervisione, di livello professionale», ha dichiarato Marc Succi, coautore dello studio.
Il team di ricerca ha analizzato il funzionamento di 21 LLM, comprese le versioni più recenti di Claude, DeepSeek, Gemini, GPT e Grok.
Susana Manso García, membro del gruppo di lavoro su Intelligenza artificiale e salute digitale della Società spagnola di medicina di famiglia e comunitaria, che non ha partecipato allo studio, ha affermato che i risultati contengono un messaggio chiaro per il pubblico.
«Lo studio stesso ribadisce che questi modelli linguistici non dovrebbero essere usati per prendere decisioni cliniche senza supervisione. Pertanto, sebbene l’intelligenza artificiale rappresenti uno strumento promettente, il giudizio clinico umano resta indispensabile», ha dichiarato.
«La raccomandazione per il pubblico è di usare queste tecnologie con prudenza e, in presenza di qualsiasi problema di salute, rivolgersi sempre a un professionista sanitario».



