L’AI clinica da 12 miliardi che perde contro ChatGPT

Uno studio indipendente del NYU Langone, pubblicato su Nature Medicine, ha messo gli strumenti di intelligenza artificiale specializzati contro i modelli generalisti. Hanno perso su tutta la linea e, soprattutto, nessuno fuori dalle aziende che li vendono può sapere perché
Uno studio indipendente del NYU Langone, pubblicato su Nature Medicine, ha messo gli strumenti di intelligenza artificiale «specializzati» per la medicina contro i modelli generalisti. Hanno perso su tutta la linea. E il problema più grosso non è che abbiano perso: è che nessuno, fuori dalle aziende che li vendono, può sapere perché

Articolo a cura dell’Avv. Alberto Bozzo, DPO, Chief Artificial Intelligence e Coordinatore dell’Osservatorio AI in Sanità del Network B-Sanità

OpenEvidence vale dodici miliardi di dollari. È gratis per ogni medico americano verificato. La usano ogni giorno per decidere cosa fare con pazienti veri. In un test indipendente pubblicato su Nature Medicine ha totalizzato 62,6 su 100. Lo stesso test, ChatGPT lo ha chiuso a 88. La differenza non è un dettaglio da addetti ai lavori. È la distanza tra ciò che un prodotto promette quando raccoglie capitali e ciò che fa quando qualcuno, finalmente, lo misura senza chiedere il permesso.

«Specializzato» è diventato sinonimo di «migliore». Questo studio dimostra che, per ora, è solo sinonimo di «più difficile da contestare».

Cosa hanno misurato davvero (e perché stavolta conta)

I ricercatori del NYU Langone Health e dell’Università del Texas ad Austin hanno fatto una cosa semplice e fastidiosa: hanno preso due strumenti di AI clinica (OpenEvidence e UpToDate Expert AI) e li hanno messi contro tre modelli generalisti di frontiera, GPT-5.2, Gemini 3.1 Pro e Claude Opus 4.6. Come spettatore d’eccezione hanno aggiunto persino la AI Overview di Google, quel riquadro grigio che compare sopra i risultati di ricerca, «perché i medici la usano comunque».

«Serve un approccio umano alla regolazione e formazione anche per i pazienti. L’AI può alleggerire il lavoro clinico e migliorare l’efficienza del sistema» spiega Alberto Bozzo
Alberto Bozzo, coordinatore Osservatorio AI in Sanità

Tre prove. Cinquecento domande in stile esame di abilitazione americano per misurare le conoscenze (MedQA). Cinquecento quesiti per misurare quanto le risposte siano allineate al giudizio dei clinici (HealthBench). E poi la prova che conta: cento domande cliniche reali, anonimizzate, poste da medici veri durante il lavoro di reparto. Dodici clinici le hanno valutate alla cieca, senza sapere quale modello avesse risposto, producendo milleottocento giudizi indipendenti.

È quest’ultima prova (la chiamano RCQ: Real Clinical Queries) a rendere lo studio diverso dal solito. Le domande arrivano dalla corsia, non da un dataset pubblico che i modelli potrebbero aver già «studiato» in addestramento. Niente trucchi. Solo medici, domande vere e un voto in cieco.

Il verdetto: i generalisti vincono su tutto

Sulle conoscenze pure, Gemini ha raggiunto il 97,4% di risposte corrette, GPT il 94,2%, Claude il 90,2%. I due strumenti clinici? OpenEvidence 89,6%, UpToDate 88,4%. Ultimi. Sull’allineamento al giudizio dei clinici il distacco diventa una voragine: GPT 88 su 100, mentre i due prodotti specializzati restano inchiodati a 62,6 e 61,3.

Ma è nella prova sul campo che la narrazione crolla. Sono emersi due gironi netti. In alto i modelli generalisti. Sotto, gli strumenti clinici. E il dato che dovrebbe togliere il sonno a chi firma i contratti: i generalisti hanno vinto non «in media», ma sulla maggior parte delle singole domande. Non una vittoria statistica da far digerire con un grafico. Una vittoria caso per caso.

Scomponendo i giudizi nelle quattro dimensioni valutate dai clinici (correttezza, completezza, sicurezza e chiarezza) la gerarchia regge ovunque. I modelli divergono di più sulla chiarezza e di meno sulla correttezza: sul sapere il distacco si assottiglia, ma sul saper comunicare resta netto. E tutti e dodici i clinici, ciascuno per conto proprio, hanno messo i generalisti sopra gli strumenti clinici. Nessuna voce fuori dal coro.

Lo schiaffo più sonoro arriva da Google: gli strumenti di AI clinica hanno fatto la stessa figura della AI Overview gratuita di Google Search. Un prodotto da circa 700 dollari l’anno valutato come la scatola grigia che chiunque trova gratis sopra una ricerca qualsiasi.

Il dettaglio che non entra nella brochure

UpToDate Expert AI ha rifiutato di rispondere al 19% delle domande. Quasi una su cinque. Gli altri modelli stavano tra l’1 e il 3%. Uno strumento che, davanti al medico, alza le spalle un quinto delle volte non è prudente: è semplicemente meno utile, e lo è a pagamento.

OpenEvidence ha pagato il conto più salato sulla chiarezza e sulla completezza. Nell’analisi degli errori, i clinici le hanno contestato la maggior parte delle omissioni rilevanti per la sicurezza e delle risposte disorganizzate. Tradotto: il problema non era sapere, era comunicare e non dimenticare pezzi che contano. In medicina, ciò che ometti pesa quanto ciò che dici.

Va detto, perché l’onestà è un dovere anche quando si fa polemica: sul fronte del danno diretto e delle «allucinazioni», ovvero le invenzioni a tavolino, nessun modello è risultato significativamente più pericoloso degli altri. Nessuno di questi sistemi è una bomba a orologeria. Ma «non fa danni evidenti» è un’asticella indegna di un prodotto che si vende come superiore.

E c’è il capitolo prezzi, che ribalta ogni intuizione. Lo strumento peggiore sulla chiarezza è gratis; quello che rifiuta una domanda su cinque costa circa 700 dollari l’anno:

StrumentoAccessoCosto
GPT-5.2API1,75 / 14 $ per 1M token (in/out)
Gemini 3.1 ProAPI2,00 / 12 $ per 1M token (in/out)
Claude Opus 4.6API5,00 / 25 $ per 1M token (in/out)
OpenEvidenceBrowserGratis per medici USA (con pubblicità)
UpToDate Expert AIBrowser~699 $/anno (Pro Plus)
Google AI OverviewBrowserGratis (dentro Google Search)

Confrontare un abbonamento con un prezzo a token è approssimativo, ma il senso resta: qui si paga di più per avere di meno.

La scatola nera è il vero prodotto

Ed eccoci al cuore. Le architetture di questi strumenti clinici, i modelli su cui sono costruiti, le pipeline di addestramento: tutto segreto. Non esiste un’API pubblica. I ricercatori, per testarli, hanno dovuto interrogarli a mano dal browser, come farebbe un qualsiasi medico. Chi vende promette prestazioni cliniche superiori, ma non mostra nulla che permetta di verificarlo.

Questo ribalta l’onere della prova. Un ospedale può discutere un risultato di ChatGPT, confrontarlo, riprodurlo. Davanti allo strumento clinico col bollino, invece, deve fidarsi. Gli stessi autori lo scrivono: i benchmark costruiti dalle aziende tendono a favorire i prodotti delle aziende che li costruiscono. La conoscenza che dovrebbe rassicurarci è esattamente quella che ci viene negata.

Il prodotto non è il modello. Il prodotto è la fiducia che vi chiedono di concedere senza ricevuta.

Il vantaggio in casa (che gli autori confessano)

Va riconosciuto, perché distingue questo studio da un comunicato stampa: gli autori segnalano da soli i propri punti deboli. Il principale riguarda HealthBench, una delle tre prove. È un test sviluppato da OpenAI e corretto da una giuria di modelli AI. Il sospetto, legittimo, è che GPT-5.2 giochi in casa. Per questo i ricercatori trattano la valutazione in cieco dei medici — la prova sul campo, immune da contaminazioni — come prova regina, e declassano HealthBench a indizio di supporto. Hanno vinto i generalisti, ma gli autori ci dicono su quale risultato fidarci di più.

È il motivo per cui diffidare di ogni classifica: chi scrive il test tende a favorire chi l’ha costruito. Vale per OpenAI sul proprio benchmark, e a maggior ragione per i test che i venditori di AI clinica si fanno in casa e non mostrano a nessuno. La differenza è una sola: qui qualcuno lo ha messo nero su bianco. Lì, no.

A ciascuno la sua colpa

Quando un’aspettativa collettiva si sgonfia, è comodo cercare un colpevole unico. Qui non c’è. Ci sono responsabilità distinte, e ognuna ha un nome.

Ai venditori spetta la prima: hanno trasformato la parola «specializzato» in una garanzia, senza pubblicare un solo numero che la sostenga. Hanno raccolto miliardi sulla promessa, non sulla prova.

Al management sanitario spetta la seconda, ed è la più scomoda: comprare il bollino per non dover scegliere. Acquistare «l’AI fatta per la medicina» è la scorciatoia perfetta per delegare una decisione e sentirsi coperti. Si chiama pigrizia, travestita da prudenza.

Agli esperti da palcoscenico (quelli che su LinkedIn ripetono che il modello specializzato batte sempre il generalista come fosse una legge di natura) spetta la terza: hanno spacciato un’intuizione plausibile per un fatto, e nessuno ha chiesto le fonti.

Al tecno-fatalismo la quarta: l’idea che «tanto l’AI medica è inevitabile» serve solo a non porsi la domanda giusta, cioè quale, come e con quali prove.

E infine al greenwashing reputazionale: «sicuro per l’uso di routine» e «legittimità istituzionale» sono diventati scudi che proteggono il fornitore, non il paziente. Lo studio è chiaro: questi strumenti possono pure essere ragionevolmente sicuri da usare, ma non sono superiori per conoscenza, comunicazione o allineamento clinico. La sicurezza percepita non è qualità dimostrata.

E l’Europa? Sta firmando contratti al buio

Qui la faccenda smette di essere una curiosità americana e diventa un problema europeo molto concreto. Un sistema di AI che supporta diagnosi o terapie ricade, secondo l’AI Act (Regolamento UE 2024/1689), tra i sistemi ad alto rischio, soprattutto quando l’AI è componente di un dispositivo medico ai sensi del Regolamento MDR 2017/745. Alto rischio significa obblighi pesanti: gestione del rischio, governance dei dati, documentazione tecnica, trasparenza, sorveglianza umana, accuratezza, monitoraggio dopo l’immissione sul mercato.

Tutto questo presuppone una cosa sola: prove verificabili. Ed è esattamente ciò che lo studio del NYU Langone dimostra mancare. Se le architetture sono segrete e i benchmark li scrivono i produttori, la «conformità» rischia di ridursi a un’autocertificazione elegante. L’AI Act chiede evidenza indipendente; il mercato, finora, offre brochure.

In Italia il quadro si fa ancora più nitido con la Legge 132/2025, che cala i principi europei nel nostro ordinamento e insiste su trasparenza, tracciabilità e supervisione umana in sanità. Ma una legge vale quanto la sua verifica. Una direzione sanitaria che acquista uno strumento che non può auditare non sta gestendo un rischio: lo sta firmando. E lo sta firmando per conto di pazienti che non hanno visto il contratto.

La domanda che ogni responsabile acquisti dovrebbe mettere a verbale: «Se non posso ispezionare il modello, su quali prove indipendenti sto basando la mia valutazione di conformità e sicurezza?» Se la risposta è «quelle del fornitore», la valutazione non esiste.

Il ponte

Gli autori non dicono affatto di usare solo i modelli generici. Dicono qualcosa di più sofisticato e più scomodo per tutti: la strada promettente sono modelli costruiti sui dati del singolo ospedale, affiancati ai modelli di frontiera per i compiti meno sensibili. Specializzato non come etichetta commerciale, ma come radicamento nel contesto reale di cura.

E poi c’è il non-detto che rende lo studio credibile proprio perché lo indebolisce: tra gli autori c’è chi dichiara un rapporto di consulenza con Google. Lo scrivono loro stessi. È il tipo di trasparenza che ai prodotti clinici del confronto manca del tutto e che dovremmo pretendere da chiunque, vincitori compresi. Anche questa è una responsabilità, e gli autori se la sono presa.

Lo studio è onesto anche su ciò che non ha misurato: i tempi di risposta e la qualità delle citazioni, due cose che al letto del paziente pesano. E richiama un avvertimento (il framework NOHARM) secondo cui i test di pura conoscenza non catturano tutto il rischio clinico reale. Anche i vincitori, insomma, vanno guardati con lo stesso sospetto. Soprattutto loro.

Resta una verità che vale oggi e che potrebbe non valere domani: questi numeri sono una fotografia di un panorama che si muove in fretta, non una classifica eterna. Se i guadagni dei modelli giganti rallenteranno, l’adattamento specifico e la cura del dato locale torneranno a contare. Ma intanto, oggi, paghiamo di più per avere di meno, e lo chiamiamo innovazione.

La prossima volta che un fornitore vi dice che il suo sistema è addestrato per la medicina, fategli una sola domanda: non quanto è bravo, ma di mostrarvi i numeri di qualcun altro.

Iscriviti alla newsletter di Bees Sanità Magazine e aggiungi beesanitamagazine.it tra le tue fonti preferite di Google

Facebook
X
LinkedIn
WhatsApp

Ti potrebbe anche interessare:

di Redazione Bees Sanità

ARTICOLI CORRELATI

Vedi tutti gli articoli della sezione:

Banner MAG 600x600px_Tavola disegno 1

Vuoi contribuire alla discussione?

Cosa ne pensi di questo tema? Quali sono le tue esperienze in materia? Come possono divenire spunto di miglioramento? Scrivi qui ed entra a far parte di B-Sanità: una comunità libera di esperti ed esperte che mettono assieme le loro idee per portare le cure universali nel futuro.

Cerca

Compila il form per scaricare il Libro bianco

ISCRIVITI