Notebookcheck Logo

Mistral OCR converte accuratamente documenti complessi in file modificabili con l'intelligenza artificiale

Mistral OCR utilizza l'intelligenza artificiale per convertire accuratamente i documenti stampati e PDF in file modificabili. (Fonte immagine: Mistral)
Mistral OCR utilizza l'intelligenza artificiale per convertire accuratamente i documenti stampati e PDF in file modificabili. (Fonte immagine: Mistral)
Mistral ha presentato la sua API per il riconoscimento ottico dei caratteri, che può essere utilizzata dalle aziende per convertire grandi quantità di documenti in file digitali modificabili in modo rapido e preciso.

Mistral ha lanciato un nuovo prodotto chiamato Mistral OCR, un'API di riconoscimento ottico dei caratteri alimentata dall'intelligenza artificiale e progettata per eccellere nella conversione di documenti stampati in file digitali.

Esistono milioni di documenti stampati e file PDF non modificabili, tra cui vecchi registri di nascita e libri. Il software di riconoscimento ottico dei caratteri converte il testo e il layout di questi materiali di partenza in file digitali modificabili. Sebbene i software OCR convertano facilmente e con precisione i documenti di testo semplice, spesso hanno problemi con tabelle e grafici complessi e con le lingue straniere.

Mistral OCR è stato creato appositamente per la conversione di documenti complessi e multilingue. L'accuratezza di Mistral nella conversione del testo in 11 lingue varia da un minimo del 97,00% a un massimo del 99,54%, migliore delle prestazioni delle offerte OCR AI di Microsoft e Google. La sua precisione è superiore a quella dei concorrenti testati per le conversioni di documenti complessi, come quelli che coinvolgono la matematica o le tabelle.

L'API OCR di Mistral è attualmente limitata ai documenti caricati di dimensioni inferiori a 50 MB e di lunghezza inferiore a 1.000 pagine. I documenti stampati devono essere prima digitalizzati da scanner come questo su Amazon, mentre i file PDF, le immagini e i siti web possono essere elaborati direttamente.

L'OCR di Mistral ha prestazioni migliori rispetto ai concorrenti su documenti complessi. (Fonte: Mistral)
L'OCR di Mistral ha prestazioni migliori rispetto ai concorrenti su documenti complessi. (Fonte: Mistral)
Mistral OCR gestisce la conversione del testo in decine di lingue meglio dei concorrenti. (Fonte: Mistral)
Mistral OCR gestisce la conversione del testo in decine di lingue meglio dei concorrenti. (Fonte: Mistral)
Sono necessarie solo poche righe di codice Python per utilizzare l'API OCR di Mistral. (Fonte immagine: Mistral)
Sono necessarie solo poche righe di codice Python per utilizzare l'API OCR di Mistral. (Fonte immagine: Mistral)
 

Mistral OCR

Presenta la migliore API al mondo per la comprensione dei documenti.

Ricerca

6 marzo 2025

Team Mistral AI

Nel corso della storia, i progressi nell'astrazione e nel recupero delle informazioni hanno guidato il progresso umano. Dai geroglifici ai papiri, dalla stampa alla digitalizzazione, ogni salto ha reso la conoscenza umana più accessibile e fruibile, alimentando ulteriori innovazioni.

Oggi, siamo all'apice del prossimo grande salto: sbloccare l'intelligenza collettiva di tutte le informazioni digitalizzate. Circa il 90% dei dati organizzativi del mondo sono archiviati sotto forma di documenti e, per sfruttare questo potenziale, stiamo introducendo Mistral OCR.

Mistral OCR è un'API di riconoscimento ottico dei caratteri che stabilisce un nuovo standard nella comprensione dei documenti. A differenza di altri modelli, Mistral OCR comprende ogni elemento dei documenti - media, testo, tabelle, equazioni - con una precisione e una cognizione senza precedenti. Prende in input immagini e PDF ed estrae il contenuto in un'ordinata combinazione di testo e immagini.

Di conseguenza, Mistral OCR è un modello ideale da utilizzare in combinazione con un sistema RAG che prende in ingresso documenti multimodali (come diapositive o PDF complessi).

Abbiamo reso Mistral OCR il modello predefinito per la comprensione dei documenti di milioni di utenti su Le Chat, e stiamo rilasciando l'API mistral-ocr-latest a 1000 pagine / $ (e circa il doppio delle pagine per dollaro con l'inferenza batch). L'API è disponibile da oggi sulla nostra suite per sviluppatori la Plateforme, e sarà presto disponibile per i nostri partner cloud e di inferenza, oltre che on-premises.

Punti di forza

Comprensione all'avanguardia di documenti complessi

Nativamente multilingue e multimodale

Parametri di riferimento di alto livello

Il più veloce nella sua categoria

Output strutturato, come un prompt, per i documenti

Disponibile selettivamente in self-host per le organizzazioni che trattano informazioni altamente sensibili o classificate

Approfondiamo i singoli aspetti.

Comprensione all'avanguardia di documenti complessi

Mistral OCR eccelle nella comprensione di elementi complessi dei documenti, tra cui immagini interlacciate, espressioni matematiche, tabelle e layout avanzati come la formattazione LaTeX. Il modello consente una comprensione più approfondita di documenti ricchi, come i documenti scientifici con grafici, diagrammi, equazioni e figure.

Di seguito un esempio del modello che estrae il testo e le immagini da un determinato PDF in un file markdown. Può accedere al notebook qui.

Qui di seguito abbiamo un confronto fianco a fianco tra i PDF e i rispettivi risultati dell'OCR. Muova il cursore per passare dall'input all'output.

Tabelle + Figure

3 Esempi

Risultato OCR

3 Ocr

Matematica

4 Esempio

Risultato OCR

4 Ocr

Hindi

5 Esempi

Risultato OCR

Hindi Ocr

Documento

6 Esempio

Risultato OCR

6 Ocr

Arabo

7 Esempio

Risultato OCR

OCR arabo

Parametri di riferimento di alto livello

Mistral OCR ha costantemente superato altri modelli OCR leader in rigorosi test di benchmark. La sua superiore accuratezza in molteplici aspetti dell'analisi dei documenti è illustrata di seguito. Estraiamo le immagini incorporate nei documenti insieme al testo. Gli altri LLM confrontati di seguito non hanno questa capacità. Per un confronto equo, li valutiamo sul nostro set di test interno di "solo testo", contenente vari documenti di pubblicazione e PDF dal web; di seguito:

Modello Complessivo Matematico Multilingua Scannerizzato Tabelle

Google Document AI 83,42 80,29 86,42 92,77 78,16

Azure OCR 89,52 85,72 87,52 94,65 89,52

Gemini-1.5-Flash-002 90,23 89,11 86,76 94,87 90,48

Gemini-1.5-Pro-002 89,92 88,48 86,33 96,15 89,71

Gemini-2.0-Flash-001 88,69 84,18 85,80 95,11 91,46

GPT-4o-2024-11-20 89,77 87,55 86,00 94,58 91,70

Mistral OCR 2503 94,89 94,29 89,55 98,96 96,12

Nativamente multilingue

Sin dalla fondazione di Mistral, abbiamo aspirato a servire il mondo con i nostri modelli e, di conseguenza, abbiamo cercato di ottenere funzionalità multilingue in tutte le nostre offerte. Mistral OCR porta questo aspetto a un nuovo livello, essendo in grado di analizzare, comprendere e trascrivere migliaia di scritture, caratteri e lingue in tutti i continenti. Questa versatilità è fondamentale sia per le organizzazioni globali che gestiscono documenti con background linguistici diversi, sia per le aziende iperlocali che servono mercati di nicchia.

Modello Fuzzy Match nella generazione

Google-Document-AI 95,88

Gemini-2.0-Flash-001 96,53

Azure OCR 97,31

Mistral OCR 2503 99,02

Benchmark per lingua:

Lingua Azure OCR Google Doc AI Gemini-2.0-Flash-001 Mistral OCR 2503

ru 97,35 95,56 96,58 99,09

fr 97,50 96,36 97,06 99,20

hi 96,45 95,65 94,99 97,55

zh 91,40 90,89 91,85 97,11

pt 97,96 96,24 97,25 99,42

de 98,39 97,09 97,19 99,51

es 98,54 97,52 97,75 99,54

tr 95,91 93,85 94,66 97,00

uk 97,81 96,24 96,70 99,29

it 98,31 97,69 97,68 99,42

ro 96,45 95,14 95,88 98,79

Il più veloce della sua categoria

Essendo più leggero della maggior parte dei modelli della categoria, Mistral OCR ha prestazioni significativamente più veloci rispetto ai suoi colleghi, elaborando fino a 2000 pagine al minuto su un singolo nodo. La capacità di elaborare rapidamente i documenti garantisce un apprendimento e un miglioramento continui anche per gli ambienti ad alta produttività.

Doc-as-prompt, output strutturato

Mistral OCR introduce anche l'uso dei documenti come prompt, consentendo istruzioni più potenti e precise. Questa funzionalità consente agli utenti di estrarre informazioni specifiche dai documenti e di formattarle in output strutturati, come JSON. Gli utenti possono concatenare gli output estratti in chiamate di funzioni a valle e costruire agenti. Veda questo esempio di notebook.

Disponibile per l'auto-host su base selettiva

Per le organizzazioni con severi requisiti di privacy dei dati, Mistral OCR offre un'opzione di self-hosting. Ciò garantisce che le informazioni sensibili o classificate rimangano al sicuro all'interno della sua infrastruttura, garantendo la conformità agli standard normativi e di sicurezza. Se desidera esplorare l'auto-impiego con noi, ce lo faccia sapere.

Casi d'uso

Stiamo dando ai nostri clienti beta la possibilità di elevare la loro conoscenza organizzativa, trasformando i loro ampi archivi di documenti in azioni e soluzioni. Alcuni dei casi d'uso chiave in cui la nostra tecnologia sta avendo un impatto significativo sono:

Digitalizzazione della ricerca scientifica: I principali istituti di ricerca hanno sperimentato l'OCR Mistral per convertire documenti e riviste scientifiche in formati pronti per l'AI, rendendoli accessibili ai motori di intelligenza a valle. Questo ha facilitato la collaborazione in modo misurabilmente più rapido e ha accelerato i flussi di lavoro scientifici.

Preservare il patrimonio storico e culturale: Le organizzazioni e le organizzazioni non profit che sono custodi del patrimonio culturale hanno utilizzato Mistral OCR per digitalizzare documenti e manufatti storici, garantendone la conservazione e rendendoli accessibili a un pubblico più vasto.

Semplificare il servizio clienti: I reparti di assistenza clienti stanno esplorando Mistral OCR per trasformare la documentazione e i manuali in conoscenza indicizzata, riducendo i tempi di risposta e migliorando la soddisfazione dei clienti.

Rendere la letteratura di design, educativa, legale, ecc. Pronta per l'AI: Mistral OCR ha anche aiutato le aziende a convertire la letteratura tecnica, i disegni di ingegneria, gli appunti delle lezioni, le presentazioni, i documenti normativi e molto altro ancora in formati indicizzati e pronti per le risposte, sbloccando l'intelligenza e la produttività di milioni di documenti.

Lo provi oggi

Le funzionalità OCR di Mistral possono essere provate gratuitamente su le Chat. Per provare l'API, vada su la Plateforme. Saremo lieti di ricevere il suo feedback; ci aspettiamo che il modello continui a migliorare nelle settimane a venire. Nell'ambito dei nostri programmi di coinvolgimento strategico, offriremo anche un'implementazione on-premise su base selettiva.

Please share our article, every link counts!
Mail Logo
> Recensioni e prove di notebook, tablets e smartphones > News > Newsarchive 2025 03 > Mistral OCR converte accuratamente documenti complessi in file modificabili con l'intelligenza artificiale
David Chien, 2025-03-11 (Update: 2025-03-11)