OpenAI o1 e o1-mini arrivano come AI che gestiscono le domande STEM meglio dei modelli precedenti

Arrivano OpenAI o1 e o1-mini - AI che ragionano meglio sulle domande STEM rispetto ai modelli precedenti. (Fonte immagine: generato dall'AI, Dall-E 3)

Sono arrivati OpenAI o1 e o1-mini, e questi LLM AI hanno prestazioni molto migliori nei problemi e nei compiti di codifica, matematica e scienza rispetto ai modelli precedenti, come GPT-4o, perché impiegano più tempo a pensare. I modelli OpenAI o1 non sono in grado di navigare sul web o di accettare file e immagini caricati, in quanto sono le loro principali limitazioni.

David Chien (traduzione a cura di Ninh Duy), Pubblicato 09/16/2024 🇺🇸 🇫🇷 ...

AI Software

OpenAI o1 e o1-mini sono arrivati. Queste AI LLM hanno prestazioni molto migliori nei problemi e nei compiti di codifica, matematica e scienza rispetto ai modelli precedenti, come GPT-4o, perché impiegano più tempo a pensare.

I problemi complessi in ambito STEM tendono a richiedere più di una rapida ricerca online delle risposte corrette. Dando all'AI o1 più tempo per pensare, l'AI può ragionare in modo più attento e preciso. Il modello o1-mini è stato messo a punto specificamente per rispondere alle domande STEM con una velocità maggiore e una minore richiesta di risorse informatiche, ed è notevolmente migliore nella codifica rispetto al modello o1.

In una serie di esami AP standardizzati e di test STEM per i LLM, i modelli o1 hanno ottenuto un'elevata precisione. In particolare, nei test AP Calculus, AP Chemistry, AP Physics 2, LSAT e SAT evidence-based reading & writing, i modelli o1 hanno prestazioni pari o superiori al livello B (~80% o superiore). I modelli rispondono in modo accurato al livello A sulle domande di fisica di livello PhD, al livello B sulle domande di matematica dell'American Invitational Mathematics Examination 2024 e al livello B elevato sui problemi di codifica di Codeforces. Poiché o1 è stato messo a punto per rispondere alle domande STEM, le sue prestazioni su Lingua Inglese AP e Letteratura Inglese AP sono al livello C o inferiore.

È interessante notare che, mentre il GPT-4o è rimasto a bocca aperta di fronte alla sfida crittografica di decodificare "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz" quando gli è stato dato il suggerimento "oyfjdnisdr rtqwainr acxz mynzbhhx", che significa "Pensa passo dopo passo", l'o1 non ha avuto problemi a riflettere sul problema per arrivare alla risposta corretta "Ci sono tre r nella fragola". Questo nuovo potere farà la gioia dei crittografi per hobby a casa e dell'NSA.

I malintenzionati vorranno sapere che, mentre i modelli o1 non censurati sono in grado di fornire risposte preoccupanti, OpenAI ha sterilizzato questi modelli per il rilascio. I modelli o1 sono stati testati per resistere alle domande sulla fabbricazione di armi biologiche, sulla produzione di immagini sconce, sul jailbreak, sulle molestie e sulle minacce. Sfortunatamente, i modelli OpenAI o1, nonostante gli sforzi di messa a punto, rimangono prevenuti rispetto al genere e alla razza quando vengono testati.

Gli utenti di ChatGPT Plus e Team, insieme agli sviluppatori del livello 5 di utilizzo delle API, hanno accesso ai modelli o1 immediatamente, mentre gli utenti di ChatGPT Edu ed Enterprise otterranno l'accesso nella settimana del 16 settembre. Gli utenti di ChatGPT Free avranno accesso a o1-mini nel prossimo futuro. I modelli o1 non possono navigare sul web o accettare file e immagini caricati per rispondere alle domande, quindi OpenAI raccomanda agli utenti di continuare a usare i loro modelli GPT-4o per le domande generali.

Gli utenti che desiderano porre domande di AI hanno ora a disposizione un'ampia gamma di modelli LLM capaci con cui interagire, oltre a quelli di OpenAItra cui Claude Antropica, Microsoft CoPilot, Google Geminie X Grok. Ogni AI presenta vantaggi specifici, per cui vale la pena di testare diversi modelli di AI per trovare quello più adatto alle esigenze individuali. Alcune di queste IA sono integrate in occhiali intelligenti (come questi su Amazon) e registratori vocali (come questo su Amazon), e alcuni robot umanoidi autonomi di prossima uscita utilizzano AI proprietarie per cucinare e pulire.

Sia OpenAI o1 che o1-mini hanno prestazioni leggermente peggiori nei compiti di scrittura rispetto a GPT-4o, ma molto migliori nei compiti tecnici come la matematica o la programmazione. (Fonte: OpenAI)

La serie OpenAI o1 è in grado di rispondere correttamente alle domande più difficili che il GPT-4o non è in grado di fare, ma solo impiegando molto più tempo per rispondere. (Fonte: OpenAI)

Programmando OpenAI o1 per pensare più a lungo prima di rispondere, l'AI LLM è in grado di rispondere a domande difficili meglio dei modelli precedenti, incluso GPT-4o. (Fonte: OpenAI)

Prima di essere castrato per il rilascio, OpenAI o1-preview-pre-mitigation amava essere cattivo. (Fonte: OpenAI)

I modelli OpenAI o1 rimangono prevenuti dal punto di vista del genere e della razza anche dopo la messa a punto. (Fonte: OpenAI)

Sebbene la serie OpenAI o1 sia molto più adatta a creare istruzioni per i rischi biologici, le versioni di rilascio hanno sterilizzato tali funzionalità. (Fonte immagine: OpenAI)

OpenAI ostacola i cacciatori di posti di lavoro che utilizzano l'AI durante i colloqui con i programmatori, riducendo la capacità di o1-mini e o1-preview di superare al primo tentativo una serie di domande di Research Engineer del colloquio OpenAI. (Fonte: OpenAI)

Fonte(i)

Modelli OpenAI o1 Comunicato stampa OpenAI o1

▶ ▼ Comunicato stampa

12 settembre 2024

Presentazione di OpenAI o1-preview

Una nuova serie di modelli di ragionamento per risolvere problemi difficili. Disponibile dal 9.12

Abbiamo sviluppato una nuova serie di modelli AI progettati per dedicare più tempo a pensare prima di rispondere. Sono in grado di ragionare su compiti complessi e di risolvere problemi più difficili rispetto ai precedenti modelli di scienza, codifica e matematica.

Oggi, rilasciamo il primo di questa serie in ChatGPT e nella nostra API. Si tratta di un'anteprima e ci aspettiamo aggiornamenti e miglioramenti regolari. Insieme a questo rilascio, includiamo anche le valutazioni per il prossimo aggiornamento, attualmente in fase di sviluppo.

Come funziona

Abbiamo addestrato questi modelli a dedicare più tempo a riflettere sui problemi prima di rispondere, proprio come farebbe una persona. Attraverso l'addestramento, imparano a perfezionare il loro processo di pensiero, a provare diverse strategie e a riconoscere i loro errori.

Nei nostri test, il prossimo aggiornamento del modello ha ottenuto risultati simili a quelli degli studenti di dottorato in compiti di riferimento impegnativi in fisica, chimica e biologia. Abbiamo anche scoperto che eccelle in matematica e codifica. In un esame di qualificazione per le Olimpiadi Internazionali di Matematica (IMO), GPT-4o ha risolto correttamente solo il 13% dei problemi, mentre il modello di ragionamento ha ottenuto l'83%. Le loro capacità di codifica sono state valutate in concorsi e hanno raggiunto l'89° percentile nelle competizioni di Codeforces. Può leggere di più su questo argomento nel nostro post sulla ricerca tecnica.

Essendo un modello iniziale, non dispone ancora di molte delle funzioni che rendono utile ChatGPT, come la navigazione sul web alla ricerca di informazioni e il caricamento di file e immagini. Per molti casi comuni, GPT-4o sarà più capace nel prossimo futuro.

Ma per i compiti di ragionamento complessi questo è un progresso significativo e rappresenta un nuovo livello di capacità dell'AI. Per questo motivo, azzeriamo il contatore a 1 e nominiamo questa serie OpenAI o1.

Sicurezza

Nell'ambito dello sviluppo di questi nuovi modelli, abbiamo ideato un nuovo approccio di formazione sulla sicurezza che sfrutta le loro capacità di ragionamento per farli aderire alle linee guida di sicurezza e allineamento. Essendo in grado di ragionare sulle nostre regole di sicurezza nel contesto, può applicarle in modo più efficace.

Un modo in cui misuriamo la sicurezza è testare quanto il nostro modello continua a seguire le sue regole di sicurezza se un utente cerca di aggirarle (noto come "jailbreak"). In uno dei nostri test di jailbreak più difficili, GPT-4o ha ottenuto un punteggio di 22 (su una scala da 0 a 100), mentre il nostro modello o1-preview ha ottenuto 84. Può leggere di più su questo aspetto nella scheda di sistema e nel nostro post di ricerca.

Per soddisfare le nuove capacità di questi modelli, abbiamo rafforzato il nostro lavoro sulla sicurezza, la governance interna e la collaborazione con il governo federale. Questo include test e valutazioni rigorosi utilizzando il nostro Preparedness Framework (si apre in una nuova finestra), il red teaming migliore della categoria e i processi di revisione a livello di consiglio di amministrazione, anche da parte del nostro Safety & Security Committee.

Per portare avanti il nostro impegno per la sicurezza dell'AI, abbiamo recentemente formalizzato degli accordi con gli Istituti per la sicurezza dell'AI degli Stati Uniti e del Regno Unito. Abbiamo iniziato a rendere operativi questi accordi, anche concedendo agli istituti l'accesso anticipato a una versione di ricerca di questo modello. Questo è stato un primo passo importante della nostra partnership, che ha aiutato a stabilire un processo di ricerca, valutazione e test dei modelli futuri prima e dopo il loro rilascio pubblico.

A chi è rivolto

Queste capacità di ragionamento avanzate possono essere particolarmente utili se sta affrontando problemi complessi nel campo della scienza, della codifica, della matematica e in campi simili. Ad esempio, o1 può essere utilizzato dai ricercatori sanitari per annotare i dati del sequenziamento cellulare, dai fisici per generare complicate formule matematiche necessarie per l'ottica quantistica e dagli sviluppatori di tutti i settori per costruire ed eseguire flussi di lavoro in più fasi.

OpenAI o1-mini

La serie o1 eccelle nella generazione accurata e nel debug di codici complessi. Per offrire una soluzione più efficiente agli sviluppatori, stiamo rilasciando anche OpenAI o1-mini, un modello di ragionamento più veloce ed economico, particolarmente efficace nella codifica. Come modello più piccolo, o1-mini è più economico dell'80% rispetto a o1-preview, il che lo rende un modello potente e conveniente per le applicazioni che richiedono il ragionamento ma non un'ampia conoscenza del mondo.

Come utilizzare OpenAI o1

Gli utenti di ChatGPT Plus e Team potranno accedere ai modelli o1 in ChatGPT a partire da oggi. Sia o1-preview che o1-mini possono essere selezionati manualmente nel selezionatore di modelli e, al momento del lancio, i limiti di frequenza settimanale saranno di 30 messaggi per o1-preview e 50 per o1-mini. Stiamo lavorando per aumentare queste tariffe e per consentire a ChatGPT di scegliere automaticamente il modello giusto per una determinata richiesta.

Un'immagine del nuovo menu a tendina di ChatGPT che mostra la nuova opzione del modello "o1-preview" su uno sfondo astratto giallo e blu brillante

Gli utenti di ChatGPT Enterprise ed Edu avranno accesso ad entrambi i modelli a partire dalla prossima settimana.

Gli sviluppatori che si qualificano per il livello di utilizzo dell'API 5 (si apre in una nuova finestra) possono iniziare oggi a prototipare con entrambi i modelli nell'API con un limite di velocità di 20 RPM. Stiamo lavorando per aumentare questi limiti dopo ulteriori test. L'API per questi modelli non include attualmente la chiamata di funzioni, lo streaming, il supporto per i messaggi di sistema e altre caratteristiche. Per iniziare, consulti la documentazione dell'API (si apre in una nuova finestra).

Stiamo anche pianificando di portare l'accesso a o1-mini a tutti gli utenti di ChatGPT Free.

Cosa succederà

Questa è una prima anteprima di questi modelli di ragionamento in ChatGPT e dell'API. Oltre agli aggiornamenti dei modelli, prevediamo di aggiungere la navigazione, il caricamento di file e immagini e altre funzioni per renderli più utili a tutti.

Prevediamo anche di continuare a sviluppare e rilasciare modelli della nostra serie GPT, oltre alla nuova serie OpenAI o1.