L’AI clinica da 12 miliardi che perde contro ChatGPT

Uno studio indipendente del NYU Langone, pubblicato su Nature Medicine, ha messo gli strumenti di intelligenza artificiale specializzati contro i modelli generalisti. Hanno perso su tutta la linea e, soprattutto, nessuno fuori dalle aziende che li vendono può sapere perché

Articolo a cura dell’Avv. Alberto Bozzo, DPO, Chief Artificial Intelligence e Coordinatore dell’Osservatorio AI in Sanità del Network B-Sanità

OpenEvidence vale dodici miliardi di dollari. È gratis per ogni medico americano verificato. La usano ogni giorno per decidere cosa fare con pazienti veri. In un test indipendente pubblicato su Nature Medicine ha totalizzato 62,6 su 100. Lo stesso test, ChatGPT lo ha chiuso a 88. La differenza non è un dettaglio da addetti ai lavori. È la distanza tra ciò che un prodotto promette quando raccoglie capitali e ciò che fa quando qualcuno, finalmente, lo misura senza chiedere il permesso.

«Specializzato» è diventato sinonimo di «migliore». Questo studio dimostra che, per ora, è solo sinonimo di «più difficile da contestare».

Cosa hanno misurato davvero (e perché stavolta conta)

I ricercatori del NYU Langone Health e dell’Università del Texas ad Austin hanno fatto una cosa semplice e fastidiosa: hanno preso due strumenti di AI clinica (OpenEvidence e UpToDate Expert AI) e li hanno messi contro tre modelli generalisti di frontiera, GPT-5.2, Gemini 3.1 Pro e Claude Opus 4.6. Come spettatore d’eccezione hanno aggiunto persino la AI Overview di Google, quel riquadro grigio che compare sopra i risultati di ricerca, «perché i medici la usano comunque».

«Serve un approccio umano alla regolazione e formazione anche per i pazienti. L’AI può alleggerire il lavoro clinico e migliorare l’efficienza del sistema» spiega Alberto Bozzo — **Alberto Bozzo, coordinatore Osservatorio AI in Sanità**

Tre prove. Cinquecento domande in stile esame di abilitazione americano per misurare le conoscenze (MedQA). Cinquecento quesiti per misurare quanto le risposte siano allineate al giudizio dei clinici (HealthBench). E poi la prova che conta: cento domande cliniche reali, anonimizzate, poste da medici veri durante il lavoro di reparto. Dodici clinici le hanno valutate alla cieca, senza sapere quale modello avesse risposto, producendo milleottocento giudizi indipendenti.

È quest’ultima prova (la chiamano RCQ: Real Clinical Queries) a rendere lo studio diverso dal solito. Le domande arrivano dalla corsia, non da un dataset pubblico che i modelli potrebbero aver già «studiato» in addestramento. Niente trucchi. Solo medici, domande vere e un voto in cieco.

Il verdetto: i generalisti vincono su tutto

Sulle conoscenze pure, Gemini ha raggiunto il 97,4% di risposte corrette, GPT il 94,2%, Claude il 90,2%. I due strumenti clinici? OpenEvidence 89,6%, UpToDate 88,4%. Ultimi. Sull’allineamento al giudizio dei clinici il distacco diventa una voragine: GPT 88 su 100, mentre i due prodotti specializzati restano inchiodati a 62,6 e 61,3.

Ma è nella prova sul campo che la narrazione crolla. Sono emersi due gironi netti. In alto i modelli generalisti. Sotto, gli strumenti clinici. E il dato che dovrebbe togliere il sonno a chi firma i contratti: i generalisti hanno vinto non «in media», ma sulla maggior parte delle singole domande. Non una vittoria statistica da far digerire con un grafico. Una vittoria caso per caso.

Scomponendo i giudizi nelle quattro dimensioni valutate dai clinici (correttezza, completezza, sicurezza e chiarezza) la gerarchia regge ovunque. I modelli divergono di più sulla chiarezza e di meno sulla correttezza: sul sapere il distacco si assottiglia, ma sul saper comunicare resta netto. E tutti e dodici i clinici, ciascuno per conto proprio, hanno messo i generalisti sopra gli strumenti clinici. Nessuna voce fuori dal coro.

Lo schiaffo più sonoro arriva da Google: gli strumenti di AI clinica hanno fatto la stessa figura della AI Overview gratuita di Google Search. Un prodotto da circa 700 dollari l’anno valutato come la scatola grigia che chiunque trova gratis sopra una ricerca qualsiasi.

Il dettaglio che non entra nella brochure

UpToDate Expert AI ha rifiutato di rispondere al 19% delle domande. Quasi una su cinque. Gli altri modelli stavano tra l’1 e il 3%. Uno strumento che, davanti al medico, alza le spalle un quinto delle volte non è prudente: è semplicemente meno utile, e lo è a pagamento.

OpenEvidence ha pagato il conto più salato sulla chiarezza e sulla completezza. Nell’analisi degli errori, i clinici le hanno contestato la maggior parte delle omissioni rilevanti per la sicurezza e delle risposte disorganizzate. Tradotto: il problema non era sapere, era comunicare e non dimenticare pezzi che contano. In medicina, ciò che ometti pesa quanto ciò che dici.

Va detto, perché l’onestà è un dovere anche quando si fa polemica: sul fronte del danno diretto e delle «allucinazioni», ovvero le invenzioni a tavolino, nessun modello è risultato significativamente più pericoloso degli altri. Nessuno di questi sistemi è una bomba a orologeria. Ma «non fa danni evidenti» è un’asticella indegna di un prodotto che si vende come superiore.

E c’è il capitolo prezzi, che ribalta ogni intuizione. Lo strumento peggiore sulla chiarezza è gratis; quello che rifiuta una domanda su cinque costa circa 700 dollari l’anno:

Strumento	Accesso	Costo
GPT-5.2	API	1,75 / 14 $ per 1M token (in/out)
Gemini 3.1 Pro	API	2,00 / 12 $ per 1M token (in/out)
Claude Opus 4.6	API	5,00 / 25 $ per 1M token (in/out)
OpenEvidence	Browser	Gratis per medici USA (con pubblicità)
UpToDate Expert AI	Browser	~699 $/anno (Pro Plus)
Google AI Overview	Browser	Gratis (dentro Google Search)

Confrontare un abbonamento con un prezzo a token è approssimativo, ma il senso resta: qui si paga di più per avere di meno.

La scatola nera è il vero prodotto

Ed eccoci al cuore. Le architetture di questi strumenti clinici, i modelli su cui sono costruiti, le pipeline di addestramento: tutto segreto. Non esiste un’API pubblica. I ricercatori, per testarli, hanno dovuto interrogarli a mano dal browser, come farebbe un qualsiasi medico. Chi vende promette prestazioni cliniche superiori, ma non mostra nulla che permetta di verificarlo.

Questo ribalta l’onere della prova. Un ospedale può discutere un risultato di ChatGPT, confrontarlo, riprodurlo. Davanti allo strumento clinico col bollino, invece, deve fidarsi. Gli stessi autori lo scrivono: i benchmark costruiti dalle aziende tendono a favorire i prodotti delle aziende che li costruiscono. La conoscenza che dovrebbe rassicurarci è esattamente quella che ci viene negata.

Il prodotto non è il modello. Il prodotto è la fiducia che vi chiedono di concedere senza ricevuta.

Il vantaggio in casa (che gli autori confessano)

Va riconosciuto, perché distingue questo studio da un comunicato stampa: gli autori segnalano da soli i propri punti deboli. Il principale riguarda HealthBench, una delle tre prove. È un test sviluppato da OpenAI e corretto da una giuria di modelli AI. Il sospetto, legittimo, è che GPT-5.2 giochi in casa. Per questo i ricercatori trattano la valutazione in cieco dei medici — la prova sul campo, immune da contaminazioni — come prova regina, e declassano HealthBench a indizio di supporto. Hanno vinto i generalisti, ma gli autori ci dicono su quale risultato fidarci di più.

È il motivo per cui diffidare di ogni classifica: chi scrive il test tende a favorire chi l’ha costruito. Vale per OpenAI sul proprio benchmark, e a maggior ragione per i test che i venditori di AI clinica si fanno in casa e non mostrano a nessuno. La differenza è una sola: qui qualcuno lo ha messo nero su bianco. Lì, no.

A ciascuno la sua colpa

Quando un’aspettativa collettiva si sgonfia, è comodo cercare un colpevole unico. Qui non c’è. Ci sono responsabilità distinte, e ognuna ha un nome.

Ai venditori spetta la prima: hanno trasformato la parola «specializzato» in una garanzia, senza pubblicare un solo numero che la sostenga. Hanno raccolto miliardi sulla promessa, non sulla prova.

Al management sanitario spetta la seconda, ed è la più scomoda: comprare il bollino per non dover scegliere. Acquistare «l’AI fatta per la medicina» è la scorciatoia perfetta per delegare una decisione e sentirsi coperti. Si chiama pigrizia, travestita da prudenza.

Agli esperti da palcoscenico (quelli che su LinkedIn ripetono che il modello specializzato batte sempre il generalista come fosse una legge di natura) spetta la terza: hanno spacciato un’intuizione plausibile per un fatto, e nessuno ha chiesto le fonti.

Al tecno-fatalismo la quarta: l’idea che «tanto l’AI medica è inevitabile» serve solo a non porsi la domanda giusta, cioè quale, come e con quali prove.

E infine al greenwashing reputazionale: «sicuro per l’uso di routine» e «legittimità istituzionale» sono diventati scudi che proteggono il fornitore, non il paziente. Lo studio è chiaro: questi strumenti possono pure essere ragionevolmente sicuri da usare, ma non sono superiori per conoscenza, comunicazione o allineamento clinico. La sicurezza percepita non è qualità dimostrata.

E l’Europa? Sta firmando contratti al buio

Qui la faccenda smette di essere una curiosità americana e diventa un problema europeo molto concreto. Un sistema di AI che supporta diagnosi o terapie ricade, secondo l’AI Act (Regolamento UE 2024/1689), tra i sistemi ad alto rischio, soprattutto quando l’AI è componente di un dispositivo medico ai sensi del Regolamento MDR 2017/745. Alto rischio significa obblighi pesanti: gestione del rischio, governance dei dati, documentazione tecnica, trasparenza, sorveglianza umana, accuratezza, monitoraggio dopo l’immissione sul mercato.

Tutto questo presuppone una cosa sola: prove verificabili. Ed è esattamente ciò che lo studio del NYU Langone dimostra mancare. Se le architetture sono segrete e i benchmark li scrivono i produttori, la «conformità» rischia di ridursi a un’autocertificazione elegante. L’AI Act chiede evidenza indipendente; il mercato, finora, offre brochure.

In Italia il quadro si fa ancora più nitido con la Legge 132/2025, che cala i principi europei nel nostro ordinamento e insiste su trasparenza, tracciabilità e supervisione umana in sanità. Ma una legge vale quanto la sua verifica. Una direzione sanitaria che acquista uno strumento che non può auditare non sta gestendo un rischio: lo sta firmando. E lo sta firmando per conto di pazienti che non hanno visto il contratto.

La domanda che ogni responsabile acquisti dovrebbe mettere a verbale: «Se non posso ispezionare il modello, su quali prove indipendenti sto basando la mia valutazione di conformità e sicurezza?» Se la risposta è «quelle del fornitore», la valutazione non esiste.

Il ponte

Gli autori non dicono affatto di usare solo i modelli generici. Dicono qualcosa di più sofisticato e più scomodo per tutti: la strada promettente sono modelli costruiti sui dati del singolo ospedale, affiancati ai modelli di frontiera per i compiti meno sensibili. Specializzato non come etichetta commerciale, ma come radicamento nel contesto reale di cura.

E poi c’è il non-detto che rende lo studio credibile proprio perché lo indebolisce: tra gli autori c’è chi dichiara un rapporto di consulenza con Google. Lo scrivono loro stessi. È il tipo di trasparenza che ai prodotti clinici del confronto manca del tutto e che dovremmo pretendere da chiunque, vincitori compresi. Anche questa è una responsabilità, e gli autori se la sono presa.

Lo studio è onesto anche su ciò che non ha misurato: i tempi di risposta e la qualità delle citazioni, due cose che al letto del paziente pesano. E richiama un avvertimento (il framework NOHARM) secondo cui i test di pura conoscenza non catturano tutto il rischio clinico reale. Anche i vincitori, insomma, vanno guardati con lo stesso sospetto. Soprattutto loro.

Resta una verità che vale oggi e che potrebbe non valere domani: questi numeri sono una fotografia di un panorama che si muove in fretta, non una classifica eterna. Se i guadagni dei modelli giganti rallenteranno, l’adattamento specifico e la cura del dato locale torneranno a contare. Ma intanto, oggi, paghiamo di più per avere di meno, e lo chiamiamo innovazione.

La prossima volta che un fornitore vi dice che il suo sistema è addestrato per la medicina, fategli una sola domanda: non quanto è bravo, ma di mostrarvi i numeri di qualcun altro.

Iscriviti alla newsletter di Bees Sanità Magazine e aggiungi beesanitamagazine.it tra le tue fonti preferite di Google

Cosa cambia con i nuovi decreti attuativi per l’intelligenza artificiale in sanità

Giugno 23, 2026

Abbiamo l’intelligenza artificiale, ma mancano i dati, le competenze e una strategia

Giugno 22, 2026

Alberto Bozzo (ENIA): «L’AI è un valore e potenzia l’analisi dei dati»

Novembre 11, 2025

di Redazione Bees Sanità

24 Giugno, 2026

#InEvidenza #Tecnologie

Cosa cambia con i nuovi decreti attuativi per l’intelligenza artificiale in sanità

Giugno 23, 2026

Abbiamo l’intelligenza artificiale, ma mancano i dati, le competenze e una strategia

Giugno 22, 2026

La cardiologia ha cambiato passo

Giugno 3, 2026

La due giorni per capire come l’AI come sta cambiando la sanità

Maggio 26, 2026

Vedi tutti gli articoli della sezione:

Tecnologia Sanitaria

VIDEO

Sulla disforia di genere l’Italia ascolta ancora troppo poco

Giugno 10, 2026

Welfair ha chiuso la sesta edizione con numeri in crescita

Giugno 5, 2026

Invecchiare attivamente significa essere utili a sè stessi e alla collettività

Giugno 4, 2026

PODCAST

Sicurezza delle cure: l’importanza di trasparenza e ascolto nel rapporto con il paziente

Giugno 24, 2026

La gestione del rischio è un impegno collettivo

Maggio 28, 2026

Linee guida e buone pratiche: la bussola del medico tra autonomia e responsabilità nella Gelli-Bianco

Maggio 13, 2026

Vuoi contribuire alla discussione?

Cosa ne pensi di questo tema? Quali sono le tue esperienze in materia? Come possono divenire spunto di miglioramento? Scrivi qui ed entra a far parte di B-Sanità: una comunità libera di esperti ed esperte che mettono assieme le loro idee per portare le cure universali nel futuro.

L’AI clinica da 12 miliardi che perde contro ChatGPT

Cosa hanno misurato davvero (e perché stavolta conta)

Il verdetto: i generalisti vincono su tutto

Il dettaglio che non entra nella brochure

La scatola nera è il vero prodotto

Il vantaggio in casa (che gli autori confessano)

A ciascuno la sua colpa

E l’Europa? Sta firmando contratti al buio

Il ponte

Ti potrebbe anche interessare:

Cosa cambia con i nuovi decreti attuativi per l’intelligenza artificiale in sanità

Abbiamo l’intelligenza artificiale, ma mancano i dati, le competenze e una strategia

Alberto Bozzo (ENIA): «L’AI è un valore e potenzia l’analisi dei dati»

ARTICOLI CORRELATI

Cosa cambia con i nuovi decreti attuativi per l’intelligenza artificiale in sanità

Abbiamo l’intelligenza artificiale, ma mancano i dati, le competenze e una strategia

La cardiologia ha cambiato passo

La due giorni per capire come l’AI come sta cambiando la sanità

VIDEO

Sulla disforia di genere l’Italia ascolta ancora troppo poco

Welfair ha chiuso la sesta edizione con numeri in crescita

Invecchiare attivamente significa essere utili a sè stessi e alla collettività

PODCAST

Sicurezza delle cure: l’importanza di trasparenza e ascolto nel rapporto con il paziente

La gestione del rischio è un impegno collettivo

Linee guida e buone pratiche: la bussola del medico tra autonomia e responsabilità nella Gelli-Bianco

Vuoi contribuire alla discussione?

Iscriviti al network B-Sanità

Chi siamo

verticali

Sezioni

Link utili

Compila il form per scaricare il Libro bianco

L’AI clinica da 12 miliardi che perde contro ChatGPT

Cosa hanno misurato davvero (e perché stavolta conta)

Il verdetto: i generalisti vincono su tutto

Il dettaglio che non entra nella brochure

La scatola nera è il vero prodotto

Il vantaggio in casa (che gli autori confessano)

A ciascuno la sua colpa

E l’Europa? Sta firmando contratti al buio

Il ponte

Ti potrebbe anche interessare:

ARTICOLI CORRELATI

Vuoi contribuire alla discussione?

Iscriviti al network B-Sanità

Chi siamo

verticali

Sezioni

Link utili

Compila il form per scaricare il Libro bianco

ISCRIVITI