xAI rilascia Grok-2 e Grok-2 mini beta AI LLM su ???? con API aziendali in arrivo alla fine del mese
xAI ha rilasciato Grok-2 e Grok-2 mini beta di modelli AI a linguaggio esteso (LLM) su X, con l'API aziendale in arrivo alla fine del mese. Le capacità di generazione di immagini di Grok-2 sono state ampliate con l'integrazione di FLUX.1 AI di Black Forest Labs. La seconda versione arriva quasi nove mesi dopo il rilascio iniziale, nel novembre 2023, ed è immediatamente disponibile per gli abbonati Premium e Premium+ X come beta test. L'accesso API agli LLM Grok-2 arriverà alla fine del mese.
xAI è una startup focalizzata sullo sviluppo dell'AI, lanciata da Elon Musk, proprietario di X (ex Twitter). L'azienda ha rilasciato il suo primo LLM nel 2023, che è stato integrato nel servizio X per fornire funzionalità AI. Grok-1 è stato progettato per non essere così sveglio, censurato o noioso come gli LLM concorrenti, come GPT-4o di OpenAI. Tali pregiudizi influenzano le risposte di tutti i LLM AI utilizzati oggi per i servizi di chatbot, con il risultato di pregiudizi razziali o addirittura risposte assurde. È significativo che Grok-1 sia stato rilasciato come download gratuito di 296 GBuno dei pochi LLM con prestazioni elevate rilasciati come software open-source.
Nell'ultimo anno, si sono verificati progressi significativi nelle prestazioni degli LLM. Le ultime versioni, come OpenAI GPT-4o e Anthropic Claude 3.5 Sonnetsono dotate di conoscenze ampliate e di prestazioni più elevate. I lettori che amano utilizzare l'AI possono indossare Occhiali AI(come questi su Amazon) mentre pianificano la giornata I robot umanoidi AI si occuperanno delle faccende domestiche.
Secondo i test interni di xAI, Grok-2 e Grok-2 mini beta si collocano entrambi ai primi posti tra tutti gli LLM a livello mondiale. xAI non ha fornito dei benchmark dell'ultima versione di Grok rispetto agli ultimi LLM concorrenti. Tuttavia, Grok-2 si è classificato come uno dei quattro LLM più potenti nella classifica dei chatbot di LMSYS e tra i primi sei in una serie di benchmark di AI standardizzati.
In particolare, una versione di agosto di OpenAI GPT-4o supera una prima versione di Grok-2 nella classifica, mentre Anthropic Claude 3.5 Sonnet, di data sconosciuta, si colloca dietro Grok-2. In otto benchmark standardizzati di AI, la versione più vecchia di maggio di GPT-4o batte Grok-2 quattro volte su otto, mentre Claude 3.5 Sonnet batte Grok-2 sei volte su otto.
Fonte(i)
13 agosto 2024
Grok-2 Beta Release
Grok-2 è il nostro modello linguistico di frontiera con capacità di ragionamento all'avanguardia. Questa versione include due membri della famiglia Grok: Grok-2 e Grok-2 mini. Entrambi i modelli vengono ora rilasciati agli utenti di Grok sulla piattaforma X.
Siamo entusiasti di rilasciare un'anteprima di Grok-2, un significativo passo avanti rispetto al nostro modello precedente Grok-1.5, con capacità di frontiera nella chat, nella codifica e nel ragionamento. Allo stesso tempo, stiamo introducendo Grok-2 mini, un fratello piccolo ma capace di Grok-2. Una prima versione di Grok-2 è stata testata nella classifica di LMSYS con il nome di "sus-column-r" Al momento di questo blog post, sta superando sia Claude 3.5 Sonnet che GPT-4-Turbo.
Grok-2 e Grok-2 mini sono attualmente in beta su X, e stiamo anche rendendo disponibili entrambi i modelli attraverso la nostra API aziendale alla fine di questo mese.
Modello linguistico di Grok-2 e capacità di chat
Abbiamo introdotto una prima versione di Grok-2 con il nome "sus-column-r" nell'arena dei chatbot LMSYS, un popolare benchmark di modelli linguistici competitivi. Ha superato sia Claude che GPT-4 nella classifica di LMSYS in termini di punteggio Elo complessivo.
Internamente, impieghiamo un processo analogo per valutare i nostri modelli. I nostri tutor di intelligenza artificiale si impegnano con i nostri modelli in una serie di compiti che riflettono le interazioni del mondo reale con Grok. Durante ogni interazione, agli AI Tutor vengono presentate due risposte generate da Grok. Selezionano la risposta migliore in base a criteri specifici delineati nelle nostre linee guida. Ci siamo concentrati sulla valutazione delle capacità del modello in due aree chiave: seguire le istruzioni e fornire informazioni accurate e concrete. Grok-2 ha mostrato miglioramenti significativi nel ragionamento con i contenuti recuperati e nelle sue capacità di utilizzo degli strumenti, come l'identificazione corretta delle informazioni mancanti, il ragionamento attraverso le sequenze di eventi e lo scarto dei messaggi irrilevanti.
Parametri di riferimento
Abbiamo valutato i modelli Grok-2 attraverso una serie di parametri accademici che includevano il ragionamento, la comprensione della lettura, la matematica, la scienza e la codifica. Sia Grok-2 che Grok-2 mini dimostrano miglioramenti significativi rispetto al nostro modello Grok-1.5 precedente. Raggiungono livelli di performance competitivi rispetto ad altri modelli di frontiera in aree come le conoscenze scientifiche di livello universitario (GPQA), le conoscenze generali (MMLU, MMLU-Pro) e i problemi di competizione matematica (MATH). Inoltre, Grok-2 eccelle nei compiti basati sulla visione, offrendo prestazioni all'avanguardia nel ragionamento matematico visivo (MathVista) e nella risposta a domande basate su documenti (DocVQA).
Benchmark Grok-1.5 Grok-2 mini‡ Grok-2‡ GPT-4 Turbo* Claude 3 Opus† Gemini Pro 1.5 Llama 3 405B GPT-4o* Claude 3.5 Sonnet†
GPQA
35.9% 51.0% 56.0% 48,0% 50,4% 46,2% 51,1% 53,6% 59,6%
MMLU
81,3% 86,2% 87,5% 86,5% 85,7% 85,9% 88,6% 88,7% 88,3%
MMLU-Pro
51,0% 72,0% 75,5% 63.7% 68,5% 69,0% 73,3% 72,6% 76,1%
MATH§
50,6% 73,0% 76,1% 72,6% 60,1% 67,7% 73,8% 76,6% 71,1%
HumanEval¶
74,1% 85,7% 88,4% 87,1% 84,9% 71,9% 89,7% 87.1% 84,9% 71,9% 89,0% 90,2% 92,0%
MMMU
53,6% 63,2% 66,1% 63,1% 59,4% 62,2% 64,5% 69,1% 68,3%
MathVista
52,8% 68,1% 69,0% 58,1% 50.5% 63,9% - 63,8% 67,7%
DocVQA
85,6% 93,2% 93,6% 87,2% 89,3% 93,1% 92,2% 92,8% 95,2%
* I punteggi GPT-4-Turbo e GPT-4o provengono dalla release di maggio 2024.
† I punteggi di Claude 3 Opus e Claude 3.5 Sonnet provengono dalla versione di giugno 2024.
‡ Grok-2 MMLU, MMLU-Pro, MMMU e MathVista sono stati valutati utilizzando CoT a 0 colpi.
§ Per MATH, presentiamo risultati maj@1.
¶ Per HumanEval, riportiamo i punteggi del benchmark pass@1.
Sperimenti Grok con informazioni in tempo reale su X
Negli ultimi mesi, abbiamo migliorato continuamente Grok sulla piattaforma X. Oggi presentiamo la prossima versione di Grok con informazioni in tempo reale. Oggi presentiamo la prossima evoluzione dell'esperienza Grok, con un'interfaccia ridisegnata e nuove funzionalità.
Logo Black Forest Labs.
Gli utenti X Premium e Premium+ avranno accesso a due nuovi modelli: Grok-2 e Grok-2 mini. Grok-2 è il nostro assistente AI all'avanguardia con capacità avanzate di comprensione del testo e della visione, che integra informazioni in tempo reale dalla piattaforma X, accessibile tramite la scheda Grok nell'app X. Grok-2 mini è il nostro modello piccolo ma capace, che offre un equilibrio tra velocità e qualità delle risposte. Rispetto al suo predecessore, Grok-2 è più intuitivo, orientabile e versatile in un'ampia gamma di attività, sia che stia cercando risposte, collaborando alla scrittura o risolvendo compiti di codifica. In collaborazione con Black Forest Labs, stiamo sperimentando il loro modello FLUX.1 per espandere le capacità di Grok su X. Se è abbonato a Premium o Premium+, si assicuri di aggiornare all'ultima versione dell'app X; per poter testare Grok-2 in versione beta.
Costruisca con Grok utilizzando l'API aziendale
Alla fine di questo mese, inoltre, rilasceremo Grok-2 e Grok-2 mini agli sviluppatori attraverso la nostra nuova piattaforma API aziendale. La nostra prossima API è costruita su un nuovo stack tecnologico su misura che consente distribuzioni di inferenze multiregionali per un accesso a bassa latenza in tutto il mondo. Offriamo funzioni di sicurezza migliorate, come l'autenticazione obbligatoria a più fattori (ad esempio, utilizzando Yubikey, Apple TouchID o TOTP), statistiche di traffico ricche e analisi di fatturazione avanzate (incluse esportazioni di dati dettagliate). Offriamo inoltre un'API di gestione che le consente di integrare la gestione dei team, degli utenti e della fatturazione nei suoi strumenti e servizi interni esistenti. Si iscriva alla nostra newsletter per essere avvisato del lancio alla fine del mese.
Quali sono le prossime novità?
Grok-2 e Grok-2 mini sono in fase di lancio su X. Siamo molto entusiasti delle loro applicazioni a una serie di funzionalità basate sull'intelligenza artificiale, come le funzionalità di ricerca migliorate, l'approfondimento dei post di X e le funzioni di risposta migliorate, tutte alimentate da Grok. Presto rilasceremo un'anteprima della comprensione multimodale come parte integrante dell'esperienza Grok su X e API.
Dall'annuncio di Grok-1 nel novembre 2023, xAI si è mossa a un ritmo straordinario, guidata da un piccolo team con la massima densità di talenti. Abbiamo introdotto Grok-2, posizionandoci all'avanguardia nello sviluppo dell'AI. La nostra attenzione si concentra sull'avanzamento delle capacità di ragionamento di base con il nostro nuovo cluster di calcolo. Avremo molti altri sviluppi da condividere nei prossimi mesi. Stiamo cercando persone che si uniscano al nostro piccolo team focalizzato e dedicato alla costruzione delle innovazioni di maggior impatto per il futuro dell'umanità. Si candidi alle nostre posizioni qui.
I nostri Top 10
» Top 10 Portatili Multimedia
» Top 10 Portatili Gaming
» Top 10 Portatili Gaming Leggeri
» Top 10 Portatili da Ufficio e Business economici
» Top 10 Portatili Premium da Ufficio/Business
» Top 10 Portatili sotto i 300 Euro
» Top 10 Portatili sotto i 500 Euro
» Top 10 dei Portatili Workstation
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Convertibili
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Smartphones