OpenAI o1 e o1-mini arrivano come AI che gestiscono le domande STEM meglio dei modelli precedenti
OpenAI o1 e o1-mini sono arrivati. Queste AI LLM hanno prestazioni molto migliori nei problemi e nei compiti di codifica, matematica e scienza rispetto ai modelli precedenti, come GPT-4o, perché impiegano più tempo a pensare.
I problemi complessi in ambito STEM tendono a richiedere più di una rapida ricerca online delle risposte corrette. Dando all'AI o1 più tempo per pensare, l'AI può ragionare in modo più attento e preciso. Il modello o1-mini è stato messo a punto specificamente per rispondere alle domande STEM con una velocità maggiore e una minore richiesta di risorse informatiche, ed è notevolmente migliore nella codifica rispetto al modello o1.
In una serie di esami AP standardizzati e di test STEM per i LLM, i modelli o1 hanno ottenuto un'elevata precisione. In particolare, nei test AP Calculus, AP Chemistry, AP Physics 2, LSAT e SAT evidence-based reading & writing, i modelli o1 hanno prestazioni pari o superiori al livello B (~80% o superiore). I modelli rispondono in modo accurato al livello A sulle domande di fisica di livello PhD, al livello B sulle domande di matematica dell'American Invitational Mathematics Examination 2024 e al livello B elevato sui problemi di codifica di Codeforces. Poiché o1 è stato messo a punto per rispondere alle domande STEM, le sue prestazioni su Lingua Inglese AP e Letteratura Inglese AP sono al livello C o inferiore.
È interessante notare che, mentre il GPT-4o è rimasto a bocca aperta di fronte alla sfida crittografica di decodificare "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz" quando gli è stato dato il suggerimento "oyfjdnisdr rtqwainr acxz mynzbhhx", che significa "Pensa passo dopo passo", l'o1 non ha avuto problemi a riflettere sul problema per arrivare alla risposta corretta "Ci sono tre r nella fragola". Questo nuovo potere farà la gioia dei crittografi per hobby a casa e dell'NSA.
I malintenzionati vorranno sapere che, mentre i modelli o1 non censurati sono in grado di fornire risposte preoccupanti, OpenAI ha sterilizzato questi modelli per il rilascio. I modelli o1 sono stati testati per resistere alle domande sulla fabbricazione di armi biologiche, sulla produzione di immagini sconce, sul jailbreak, sulle molestie e sulle minacce. Sfortunatamente, i modelli OpenAI o1, nonostante gli sforzi di messa a punto, rimangono prevenuti rispetto al genere e alla razza quando vengono testati.
Gli utenti di ChatGPT Plus e Team, insieme agli sviluppatori del livello 5 di utilizzo delle API, hanno accesso ai modelli o1 immediatamente, mentre gli utenti di ChatGPT Edu ed Enterprise otterranno l'accesso nella settimana del 16 settembre. Gli utenti di ChatGPT Free avranno accesso a o1-mini nel prossimo futuro. I modelli o1 non possono navigare sul web o accettare file e immagini caricati per rispondere alle domande, quindi OpenAI raccomanda agli utenti di continuare a usare i loro modelli GPT-4o per le domande generali.
Gli utenti che desiderano porre domande di AI hanno ora a disposizione un'ampia gamma di modelli LLM capaci con cui interagire, oltre a quelli di OpenAItra cui Claude Antropica, Microsoft CoPilot, Google Geminie X Grok. Ogni AI presenta vantaggi specifici, per cui vale la pena di testare diversi modelli di AI per trovare quello più adatto alle esigenze individuali. Alcune di queste IA sono integrate in occhiali intelligenti(come questi su Amazon) e registratori vocali(come questo su Amazon), e alcuni robot umanoidi autonomi di prossima uscita utilizzano AI proprietarie per cucinare e pulire.
12 settembre 2024
Presentazione di OpenAI o1-preview
Una nuova serie di modelli di ragionamento per risolvere problemi difficili. Disponibile dal 9.12
Abbiamo sviluppato una nuova serie di modelli AI progettati per dedicare più tempo a pensare prima di rispondere. Sono in grado di ragionare su compiti complessi e di risolvere problemi più difficili rispetto ai precedenti modelli di scienza, codifica e matematica.
Oggi, rilasciamo il primo di questa serie in ChatGPT e nella nostra API. Si tratta di un'anteprima e ci aspettiamo aggiornamenti e miglioramenti regolari. Insieme a questo rilascio, includiamo anche le valutazioni per il prossimo aggiornamento, attualmente in fase di sviluppo.
Come funziona
Abbiamo addestrato questi modelli a dedicare più tempo a riflettere sui problemi prima di rispondere, proprio come farebbe una persona. Attraverso l'addestramento, imparano a perfezionare il loro processo di pensiero, a provare diverse strategie e a riconoscere i loro errori.
Nei nostri test, il prossimo aggiornamento del modello ha ottenuto risultati simili a quelli degli studenti di dottorato in compiti di riferimento impegnativi in fisica, chimica e biologia. Abbiamo anche scoperto che eccelle in matematica e codifica. In un esame di qualificazione per le Olimpiadi Internazionali di Matematica (IMO), GPT-4o ha risolto correttamente solo il 13% dei problemi, mentre il modello di ragionamento ha ottenuto l'83%. Le loro capacità di codifica sono state valutate in concorsi e hanno raggiunto l'89° percentile nelle competizioni di Codeforces. Può leggere di più su questo argomento nel nostro post sulla ricerca tecnica.
Essendo un modello iniziale, non dispone ancora di molte delle funzioni che rendono utile ChatGPT, come la navigazione sul web alla ricerca di informazioni e il caricamento di file e immagini. Per molti casi comuni, GPT-4o sarà più capace nel prossimo futuro.
Ma per i compiti di ragionamento complessi questo è un progresso significativo e rappresenta un nuovo livello di capacità dell'AI. Per questo motivo, azzeriamo il contatore a 1 e nominiamo questa serie OpenAI o1.
Sicurezza
Nell'ambito dello sviluppo di questi nuovi modelli, abbiamo ideato un nuovo approccio di formazione sulla sicurezza che sfrutta le loro capacità di ragionamento per farli aderire alle linee guida di sicurezza e allineamento. Essendo in grado di ragionare sulle nostre regole di sicurezza nel contesto, può applicarle in modo più efficace.
Un modo in cui misuriamo la sicurezza è testare quanto il nostro modello continua a seguire le sue regole di sicurezza se un utente cerca di aggirarle (noto come "jailbreak"). In uno dei nostri test di jailbreak più difficili, GPT-4o ha ottenuto un punteggio di 22 (su una scala da 0 a 100), mentre il nostro modello o1-preview ha ottenuto 84. Può leggere di più su questo aspetto nella scheda di sistema e nel nostro post di ricerca.
Per soddisfare le nuove capacità di questi modelli, abbiamo rafforzato il nostro lavoro sulla sicurezza, la governance interna e la collaborazione con il governo federale. Questo include test e valutazioni rigorosi utilizzando il nostro Preparedness Framework (si apre in una nuova finestra), il red teaming migliore della categoria e i processi di revisione a livello di consiglio di amministrazione, anche da parte del nostro Safety & Security Committee.
Per portare avanti il nostro impegno per la sicurezza dell'AI, abbiamo recentemente formalizzato degli accordi con gli Istituti per la sicurezza dell'AI degli Stati Uniti e del Regno Unito. Abbiamo iniziato a rendere operativi questi accordi, anche concedendo agli istituti l'accesso anticipato a una versione di ricerca di questo modello. Questo è stato un primo passo importante della nostra partnership, che ha aiutato a stabilire un processo di ricerca, valutazione e test dei modelli futuri prima e dopo il loro rilascio pubblico.
A chi è rivolto
Queste capacità di ragionamento avanzate possono essere particolarmente utili se sta affrontando problemi complessi nel campo della scienza, della codifica, della matematica e in campi simili. Ad esempio, o1 può essere utilizzato dai ricercatori sanitari per annotare i dati del sequenziamento cellulare, dai fisici per generare complicate formule matematiche necessarie per l'ottica quantistica e dagli sviluppatori di tutti i settori per costruire ed eseguire flussi di lavoro in più fasi.
OpenAI o1-mini
La serie o1 eccelle nella generazione accurata e nel debug di codici complessi. Per offrire una soluzione più efficiente agli sviluppatori, stiamo rilasciando anche OpenAI o1-mini, un modello di ragionamento più veloce ed economico, particolarmente efficace nella codifica. Come modello più piccolo, o1-mini è più economico dell'80% rispetto a o1-preview, il che lo rende un modello potente e conveniente per le applicazioni che richiedono il ragionamento ma non un'ampia conoscenza del mondo.
Come utilizzare OpenAI o1
Gli utenti di ChatGPT Plus e Team potranno accedere ai modelli o1 in ChatGPT a partire da oggi. Sia o1-preview che o1-mini possono essere selezionati manualmente nel selezionatore di modelli e, al momento del lancio, i limiti di frequenza settimanale saranno di 30 messaggi per o1-preview e 50 per o1-mini. Stiamo lavorando per aumentare queste tariffe e per consentire a ChatGPT di scegliere automaticamente il modello giusto per una determinata richiesta.
Un'immagine del nuovo menu a tendina di ChatGPT che mostra la nuova opzione del modello "o1-preview" su uno sfondo astratto giallo e blu brillante
Gli utenti di ChatGPT Enterprise ed Edu avranno accesso ad entrambi i modelli a partire dalla prossima settimana.
Gli sviluppatori che si qualificano per il livello di utilizzo dell'API 5 (si apre in una nuova finestra) possono iniziare oggi a prototipare con entrambi i modelli nell'API con un limite di velocità di 20 RPM. Stiamo lavorando per aumentare questi limiti dopo ulteriori test. L'API per questi modelli non include attualmente la chiamata di funzioni, lo streaming, il supporto per i messaggi di sistema e altre caratteristiche. Per iniziare, consulti la documentazione dell'API (si apre in una nuova finestra).
Stiamo anche pianificando di portare l'accesso a o1-mini a tutti gli utenti di ChatGPT Free.
Cosa succederà
Questa è una prima anteprima di questi modelli di ragionamento in ChatGPT e dell'API. Oltre agli aggiornamenti dei modelli, prevediamo di aggiungere la navigazione, il caricamento di file e immagini e altre funzioni per renderli più utili a tutti.
Prevediamo anche di continuare a sviluppare e rilasciare modelli della nostra serie GPT, oltre alla nuova serie OpenAI o1.
I nostri Top 10
» Top 10 Portatili Multimedia
» Top 10 Portatili Gaming
» Top 10 Portatili Gaming Leggeri
» Top 10 Portatili da Ufficio e Business economici
» Top 10 Portatili Premium da Ufficio/Business
» Top 10 Portatili sotto i 300 Euro
» Top 10 Portatili sotto i 500 Euro
» Top 10 dei Portatili Workstation
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Convertibili
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Smartphones