L’intelligenza artificiale ha più occhio clinico dei medici

16 Aprile 2024 Off Di La Redazione

Il più famoso e diffuso modello di intelligenza artificiale generativa (large language model; LLM), GPT-4, ha mostrato di essere superiore ai medici in termini di ragionamento clinico nel trattamento di casi medici simulati, in uno studio appena pubblicato su JAMA Internal Medicine da Stephanie Cabral, del Beth Israel Deaconess Medical Center a Boston, e colleghi. I ricercatori hanno confrontato le capacità di ragionamento di GPT4 con quelle di medici in formazione e medici senior in due centri medici accademici a Boston.

Lo studio si è concentrato sulla valutazione delle capacità dell’intelligenza artificiale di sintetizzare i dati emersi durante la visita, una competenza critica nella diagnosi medica che finora era rimasta inesplorata nelle capacità degli LLM. I risultati hanno mostrato che il chatbot GPT-4 ha ottenuto punteggi mediani R-IDEA (un sistema di valutazione del ragionamento clinico) superiori rispetto sia ai medici senior sia ai medici in formazione, evidenziando una maggiore probabilità di raggiungere punteggi elevati nella gestione di 20 diversi casi clinici.

Nonostante l’elevato grado di precisione nell’inclusione di diagnosi cruciali e corrette nella valutazione clinica, il chatbot ha commesso più errori di ragionamento clinico rispetto ai medici in formazione, ma in numero simile ai medici senior, sottolineando l’importanza di una valutazione sfaccettata delle capacità dell’LLM prima della loro integrazione nei flussi di lavoro clinici.

Secondo Adam Rodman, ultimo autore dello studio, nonostante i limiti legati all’uso di casi simulati e alla mancanza di interazione diretta con pazienti reali, i risultati dimostrano una superiorità dell’LLM nel processamento dei dati medici e nel ragionamento clinico utilizzando quadri di riferimento riconoscibili.