Mistral ha lanciato un nuovo prodotto chiamato Mistral OCR, un'API di riconoscimento ottico dei caratteri alimentata dall'intelligenza artificiale e progettata per eccellere nella conversione di documenti stampati in file digitali.
Esistono milioni di documenti stampati e file PDF non modificabili, tra cui vecchi registri di nascita e libri. Il software di riconoscimento ottico dei caratteri converte il testo e il layout di questi materiali di partenza in file digitali modificabili. Sebbene i software OCR convertano facilmente e con precisione i documenti di testo semplice, spesso hanno problemi con tabelle e grafici complessi e con le lingue straniere.
Mistral OCR è stato creato appositamente per la conversione di documenti complessi e multilingue. L'accuratezza di Mistral nella conversione del testo in 11 lingue varia da un minimo del 97,00% a un massimo del 99,54%, migliore delle prestazioni delle offerte OCR AI di Microsoft e Google. La sua precisione è superiore a quella dei concorrenti testati per le conversioni di documenti complessi, come quelli che coinvolgono la matematica o le tabelle.
L'API OCR di Mistral è attualmente limitata ai documenti caricati di dimensioni inferiori a 50 MB e di lunghezza inferiore a 1.000 pagine. I documenti stampati devono essere prima digitalizzati da scanner come questo su Amazon, mentre i file PDF, le immagini e i siti web possono essere elaborati direttamente.
Mistral OCR
Presenta la migliore API al mondo per la comprensione dei documenti.
Ricerca
6 marzo 2025
Team Mistral AI
Nel corso della storia, i progressi nell'astrazione e nel recupero delle informazioni hanno guidato il progresso umano. Dai geroglifici ai papiri, dalla stampa alla digitalizzazione, ogni salto ha reso la conoscenza umana più accessibile e fruibile, alimentando ulteriori innovazioni.
Oggi, siamo all'apice del prossimo grande salto: sbloccare l'intelligenza collettiva di tutte le informazioni digitalizzate. Circa il 90% dei dati organizzativi del mondo sono archiviati sotto forma di documenti e, per sfruttare questo potenziale, stiamo introducendo Mistral OCR.
Mistral OCR è un'API di riconoscimento ottico dei caratteri che stabilisce un nuovo standard nella comprensione dei documenti. A differenza di altri modelli, Mistral OCR comprende ogni elemento dei documenti - media, testo, tabelle, equazioni - con una precisione e una cognizione senza precedenti. Prende in input immagini e PDF ed estrae il contenuto in un'ordinata combinazione di testo e immagini.
Di conseguenza, Mistral OCR è un modello ideale da utilizzare in combinazione con un sistema RAG che prende in ingresso documenti multimodali (come diapositive o PDF complessi).
Abbiamo reso Mistral OCR il modello predefinito per la comprensione dei documenti di milioni di utenti su Le Chat, e stiamo rilasciando l'API mistral-ocr-latest a 1000 pagine / $ (e circa il doppio delle pagine per dollaro con l'inferenza batch). L'API è disponibile da oggi sulla nostra suite per sviluppatori la Plateforme, e sarà presto disponibile per i nostri partner cloud e di inferenza, oltre che on-premises.
Punti di forza
Comprensione all'avanguardia di documenti complessi
Nativamente multilingue e multimodale
Parametri di riferimento di alto livello
Il più veloce nella sua categoria
Output strutturato, come un prompt, per i documenti
Disponibile selettivamente in self-host per le organizzazioni che trattano informazioni altamente sensibili o classificate
Approfondiamo i singoli aspetti.
Comprensione all'avanguardia di documenti complessi
Mistral OCR eccelle nella comprensione di elementi complessi dei documenti, tra cui immagini interlacciate, espressioni matematiche, tabelle e layout avanzati come la formattazione LaTeX. Il modello consente una comprensione più approfondita di documenti ricchi, come i documenti scientifici con grafici, diagrammi, equazioni e figure.
Di seguito un esempio del modello che estrae il testo e le immagini da un determinato PDF in un file markdown. Può accedere al notebook qui.
Qui di seguito abbiamo un confronto fianco a fianco tra i PDF e i rispettivi risultati dell'OCR. Muova il cursore per passare dall'input all'output.
Tabelle + Figure
3 Esempi
Risultato OCR
3 Ocr
Matematica
4 Esempio
Risultato OCR
4 Ocr
Hindi
5 Esempi
Risultato OCR
Hindi Ocr
Documento
6 Esempio
Risultato OCR
6 Ocr
Arabo
7 Esempio
Risultato OCR
OCR arabo
Parametri di riferimento di alto livello
Mistral OCR ha costantemente superato altri modelli OCR leader in rigorosi test di benchmark. La sua superiore accuratezza in molteplici aspetti dell'analisi dei documenti è illustrata di seguito. Estraiamo le immagini incorporate nei documenti insieme al testo. Gli altri LLM confrontati di seguito non hanno questa capacità. Per un confronto equo, li valutiamo sul nostro set di test interno di "solo testo", contenente vari documenti di pubblicazione e PDF dal web; di seguito:
Modello Complessivo Matematico Multilingua Scannerizzato Tabelle
Google Document AI 83,42 80,29 86,42 92,77 78,16
Azure OCR 89,52 85,72 87,52 94,65 89,52
Gemini-1.5-Flash-002 90,23 89,11 86,76 94,87 90,48
Gemini-1.5-Pro-002 89,92 88,48 86,33 96,15 89,71
Gemini-2.0-Flash-001 88,69 84,18 85,80 95,11 91,46
GPT-4o-2024-11-20 89,77 87,55 86,00 94,58 91,70
Mistral OCR 2503 94,89 94,29 89,55 98,96 96,12
Nativamente multilingue
Sin dalla fondazione di Mistral, abbiamo aspirato a servire il mondo con i nostri modelli e, di conseguenza, abbiamo cercato di ottenere funzionalità multilingue in tutte le nostre offerte. Mistral OCR porta questo aspetto a un nuovo livello, essendo in grado di analizzare, comprendere e trascrivere migliaia di scritture, caratteri e lingue in tutti i continenti. Questa versatilità è fondamentale sia per le organizzazioni globali che gestiscono documenti con background linguistici diversi, sia per le aziende iperlocali che servono mercati di nicchia.
Modello Fuzzy Match nella generazione
Google-Document-AI 95,88
Gemini-2.0-Flash-001 96,53
Azure OCR 97,31
Mistral OCR 2503 99,02
Benchmark per lingua:
Lingua Azure OCR Google Doc AI Gemini-2.0-Flash-001 Mistral OCR 2503
ru 97,35 95,56 96,58 99,09
fr 97,50 96,36 97,06 99,20
hi 96,45 95,65 94,99 97,55
zh 91,40 90,89 91,85 97,11
pt 97,96 96,24 97,25 99,42
de 98,39 97,09 97,19 99,51
es 98,54 97,52 97,75 99,54
tr 95,91 93,85 94,66 97,00
uk 97,81 96,24 96,70 99,29
it 98,31 97,69 97,68 99,42
ro 96,45 95,14 95,88 98,79
Il più veloce della sua categoria
Essendo più leggero della maggior parte dei modelli della categoria, Mistral OCR ha prestazioni significativamente più veloci rispetto ai suoi colleghi, elaborando fino a 2000 pagine al minuto su un singolo nodo. La capacità di elaborare rapidamente i documenti garantisce un apprendimento e un miglioramento continui anche per gli ambienti ad alta produttività.
Doc-as-prompt, output strutturato
Mistral OCR introduce anche l'uso dei documenti come prompt, consentendo istruzioni più potenti e precise. Questa funzionalità consente agli utenti di estrarre informazioni specifiche dai documenti e di formattarle in output strutturati, come JSON. Gli utenti possono concatenare gli output estratti in chiamate di funzioni a valle e costruire agenti. Veda questo esempio di notebook.
Disponibile per l'auto-host su base selettiva
Per le organizzazioni con severi requisiti di privacy dei dati, Mistral OCR offre un'opzione di self-hosting. Ciò garantisce che le informazioni sensibili o classificate rimangano al sicuro all'interno della sua infrastruttura, garantendo la conformità agli standard normativi e di sicurezza. Se desidera esplorare l'auto-impiego con noi, ce lo faccia sapere.
Casi d'uso
Stiamo dando ai nostri clienti beta la possibilità di elevare la loro conoscenza organizzativa, trasformando i loro ampi archivi di documenti in azioni e soluzioni. Alcuni dei casi d'uso chiave in cui la nostra tecnologia sta avendo un impatto significativo sono:
Digitalizzazione della ricerca scientifica: I principali istituti di ricerca hanno sperimentato l'OCR Mistral per convertire documenti e riviste scientifiche in formati pronti per l'AI, rendendoli accessibili ai motori di intelligenza a valle. Questo ha facilitato la collaborazione in modo misurabilmente più rapido e ha accelerato i flussi di lavoro scientifici.
Preservare il patrimonio storico e culturale: Le organizzazioni e le organizzazioni non profit che sono custodi del patrimonio culturale hanno utilizzato Mistral OCR per digitalizzare documenti e manufatti storici, garantendone la conservazione e rendendoli accessibili a un pubblico più vasto.
Semplificare il servizio clienti: I reparti di assistenza clienti stanno esplorando Mistral OCR per trasformare la documentazione e i manuali in conoscenza indicizzata, riducendo i tempi di risposta e migliorando la soddisfazione dei clienti.
Rendere la letteratura di design, educativa, legale, ecc. Pronta per l'AI: Mistral OCR ha anche aiutato le aziende a convertire la letteratura tecnica, i disegni di ingegneria, gli appunti delle lezioni, le presentazioni, i documenti normativi e molto altro ancora in formati indicizzati e pronti per le risposte, sbloccando l'intelligenza e la produttività di milioni di documenti.
Lo provi oggi
Le funzionalità OCR di Mistral possono essere provate gratuitamente su le Chat. Per provare l'API, vada su la Plateforme. Saremo lieti di ricevere il suo feedback; ci aspettiamo che il modello continui a migliorare nelle settimane a venire. Nell'ambito dei nostri programmi di coinvolgimento strategico, offriremo anche un'implementazione on-premise su base selettiva.
I nostri Top 10
» Top 10 Portatili Multimedia
» Top 10 Portatili Gaming
» Top 10 Portatili Gaming Leggeri
» Top 10 Portatili da Ufficio e Business economici
» Top 10 Portatili Premium da Ufficio/Business
» Top 10 Portatili sotto i 300 Euro
» Top 10 Portatili sotto i 500 Euro
» Top 10 dei Portatili Workstation
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Convertibili
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Smartphones