Gli esseri umani possono facilmente superare l'intelligenza artificiale, secondo lo studio finanziato da Apple
All'inizio di questo mese, un team di sei scienziati di AI sostenuti da Apple ha pubblicato uno studio in cui ha introdotto GSM-Symbolic, un nuovo benchmark di AI che "consente valutazioni più controllabili, fornendo approfondimenti chiave e metriche più affidabili per misurare le capacità di ragionamento dei modelli" Purtroppo, sembra che gli LLM siano ancora fortemente limitati e che manchino delle capacità di ragionamento più basilari, hanno rivelato i test iniziali condotti utilizzando GSM-Symbolic con i motori AI di icone del settore come Meta e OpenAI.
Il problema dei modelli esistenti, come emerso dai suddetti test, risiede nella mancanza di affidabilità dei LLM quando vengono sottoposti a richieste simili. Lo studio ha concluso che lievi modifiche di formulazione che non altererebbero il significato di una query per un essere umano, spesso portano a risposte diverse da parte dei bot AI. La ricerca non ha evidenziato alcun modello che si distingua.
"In particolare, le prestazioni di tutti i modelli diminuiscono [anche] quando vengono modificati solo i valori numerici della domanda nel benchmark GSM-Symbolic"
ha concluso la ricerca, scoprendo anche che
"la fragilità del ragionamento matematico in questi modelli [dimostra] che le loro prestazioni peggiorano significativamente con l'aumento del numero di clausole in una domanda"
Lo studio, che conta 22 pagine, può essere consultato su qui (file PDF). Le ultime due pagine contengono problemi con l'aggiunta di alcune informazioni irrilevanti alla fine, che non dovrebbero alterare il risultato finale per un umano che lo risolve. Tuttavia, i modelli AI utilizzati hanno preso in considerazione anche queste parti, fornendo così risposte sbagliate.
In conclusione, i modelli di AI non sono ancora in grado di andare oltre il riconoscimento dei modelli e mancano ancora di capacità generalizzabili di risoluzione dei problemi. Quest'anno sono stati presentati diversi LLM, tra cui Llama 3.1 di Meta AINemotron-4 di Nvidia, Claude 3 di Anthropic, il giapponese Fugaku-LLM (il più grande modello mai addestrato esclusivamente sulla potenza della CPU), e Novadi Rubik's AI, una famiglia di LLM che è stata presentata all'inizio di questo mese.
Domani, O'Reilly rilascerà la prima edizione di Hands-On Large Language Models: Language Understanding and Generation, di Jay Alammar e Maarten Grootendorst. Il prezzo è di 48,99 dollari (Kindle) o 59,13 dollari (brossura).
Fonte(i)
I nostri Top 10
» Top 10 Portatili Multimedia
» Top 10 Portatili Gaming
» Top 10 Portatili Gaming Leggeri
» Top 10 Portatili da Ufficio e Business economici
» Top 10 Portatili Premium da Ufficio/Business
» Top 10 Portatili sotto i 300 Euro
» Top 10 Portatili sotto i 500 Euro
» Top 10 dei Portatili Workstation
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Convertibili
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Smartphones