Notebookcheck Logo

Gli esseri umani possono facilmente superare l'intelligenza artificiale, secondo lo studio finanziato da Apple

Umani contro IA (Fonte immagine: generato utilizzando DALL-E 3)
Umani contro IA (Fonte immagine: generato utilizzando DALL-E 3)
Sebbene spesso forniscano risultati impressionanti, i motori di intelligenza artificiale come quelli di Meta e OpenAI, che utilizzano modelli linguistici di grandi dimensioni, mancano ancora di capacità di ragionamento di base. Un gruppo sostenuto da Apple ha proposto un nuovo benchmark, che ha già rivelato che anche i minimi cambiamenti di formulazione in una query possono portare a risposte completamente diverse.

All'inizio di questo mese, un team di sei scienziati di AI sostenuti da Apple ha pubblicato uno studio in cui ha introdotto GSM-Symbolic, un nuovo benchmark di AI che "consente valutazioni più controllabili, fornendo approfondimenti chiave e metriche più affidabili per misurare le capacità di ragionamento dei modelli" Purtroppo, sembra che gli LLM siano ancora fortemente limitati e che manchino delle capacità di ragionamento più basilari, hanno rivelato i test iniziali condotti utilizzando GSM-Symbolic con i motori AI di icone del settore come Meta e OpenAI.

Il problema dei modelli esistenti, come emerso dai suddetti test, risiede nella mancanza di affidabilità dei LLM quando vengono sottoposti a richieste simili. Lo studio ha concluso che lievi modifiche di formulazione che non altererebbero il significato di una query per un essere umano, spesso portano a risposte diverse da parte dei bot AI. La ricerca non ha evidenziato alcun modello che si distingua.

"In particolare, le prestazioni di tutti i modelli diminuiscono [anche] quando vengono modificati solo i valori numerici della domanda nel benchmark GSM-Symbolic"

ha concluso la ricerca, scoprendo anche che

"la fragilità del ragionamento matematico in questi modelli [dimostra] che le loro prestazioni peggiorano significativamente con l'aumento del numero di clausole in una domanda"

Lo studio, che conta 22 pagine, può essere consultato su qui (file PDF). Le ultime due pagine contengono problemi con l'aggiunta di alcune informazioni irrilevanti alla fine, che non dovrebbero alterare il risultato finale per un umano che lo risolve. Tuttavia, i modelli AI utilizzati hanno preso in considerazione anche queste parti, fornendo così risposte sbagliate.

In conclusione, i modelli di AI non sono ancora in grado di andare oltre il riconoscimento dei modelli e mancano ancora di capacità generalizzabili di risoluzione dei problemi. Quest'anno sono stati presentati diversi LLM, tra cui Llama 3.1 di Meta AINemotron-4 di Nvidia, Claude 3 di Anthropic, il giapponese Fugaku-LLM (il più grande modello mai addestrato esclusivamente sulla potenza della CPU), e Novadi Rubik's AI, una famiglia di LLM che è stata presentata all'inizio di questo mese.

Domani, O'Reilly rilascerà la prima edizione di Hands-On Large Language Models: Language Understanding and Generation, di Jay Alammar e Maarten Grootendorst. Il prezzo è di 48,99 dollari (Kindle) o 59,13 dollari (brossura).

Fonte(i)

Please share our article, every link counts!
> Recensioni e prove di notebook, tablets e smartphones > News > Newsarchive 2024 10 > Gli esseri umani possono facilmente superare l'intelligenza artificiale, secondo lo studio finanziato da Apple
Codrut Nistor, 2024-10-14 (Update: 2024-10-14)