ChatGPT, un’intelligenza artificiale in grado di elaborare e generare linguaggio simile a quello umano, è già stata studiata nell’ambito dell’educazione e dell’assistenza medica, ma il suo potenziale nella diagnosi istopatologica era ancora inesplorato. Questo studio, pubblicato sull’European Journal of Pathology, valuta l’affidabilità di ChatGPT nel rispondere a domande diagnostiche relative alla patologia in dieci sottospecialità, e la sua capacità di fornire riferimenti scientifici.
La struttura dell’indagine
I ricercatori, capeggiati dallo specializzando in Anatomia Patologica presso l’Istituto Clinico Humanitas Vincenzo Guastafierro, hanno elaborato cinque scenari clinico-patologici per ciascuna sottospecialità. In ognuna di queste hanno simulato l’utilizzo di ChatGPT da parte di un patologo per affinare le diagnosi differenziali. Ogni scenario, allineato alle linee guida diagnostiche più recenti e validato da patologi esperti, è stato formulato come domanda a risposta aperta o a scelta multipla, talvolta con richiesta di riferimenti scientifici e talvolta senza. Successivamente, sei patologi hanno valutato le risposte in base a due criteri: l’utilità nel supportare la diagnosi e il numero assoluto di errori. Abbiamo utilizzato grafi aciclici diretti e modelli causali strutturali per determinare l’effetto del tipo di scenario, del campo di riferimento, della modalità di domanda e della valutazione dei patologi.
Le evidenze emerse
In totale l’intelligenza artificiale ha prodotto 894 valutazioni. L’AI ha fornito risposte utili nel 62,2% dei casi e risposte completamente prive di errori nel 32,1% dei casi, mentre le restanti contenevano almeno un errore. ChatGPT ha fornito 214 riferimenti bibliografici, di cui il 70,1% corretti, il 12,1% imprecisi e il 17,8% inesistenti. Quest’ultimo dato ha stupito molto i ricercatori. L’AI aveva costruito completamente una realtà inesistente, citando fonti che in realtà non esistono ma sono così ben costruite da sembrare reali. Fra gli errori più eclatanti rilevati, ChatGPT ha sbagliato una diagnosi di carcinoma alla pelle e in un altro ha diagnosticato un tipo di tumore al seno differente da quello reale, producendo anche due fonti bibliografiche sbagliate. La variabilità degli scenari ha avuto il maggiore impatto sui punteggi, mentre la conoscenza latente tra i diversi campi ha mostrato variazioni minime.
La discussione dei risultati
Sebbene ChatGPT abbia fornito risposte utili in circa un terzo dei casi, la frequenza degli errori e la variabilità dei risultati evidenziano la sua inadeguatezza per un uso diagnostico di routine e sottolineano la necessità di impiegarlo con prudenza come strumento di supporto. L’imprecisione nei riferimenti bibliografici suggerisce inoltre cautela nel suo utilizzo come strumento di autoapprendimento. È fondamentale riconoscere l’insostituibile ruolo degli esperti umani nel sintetizzare immagini, dati clinici ed esperienza per il complesso compito della diagnosi istopatologica.
