OCR, estrai testo da immagini e PDF

Rilascia un'immagine o un PDF e ottieni il testo riconosciuto. L'OCR funziona interamente nel tuo browser (sul dispositivo, offline dopo il primo caricamento), niente viene caricato.

Come funziona OCR · immagine/PDF in testo

L'OCR converte un'immagine scansionata o un PDF basato su immagini in testo che puoi copiare, cercare e modificare, usando tesseract.js in esecuzione interamente nel tuo browser. Scegli la lingua del documento dal selettore, il modello linguistico pertinente si scarica nel tuo browser una volta, e tutti i riconoscimenti successivi girano offline da quel modello in cache. I tuoi file scansionati non vengono mai trasmessi ad alcun server durante la conversione.

La precisione del riconoscimento dipende fortemente dalla qualità della scansione. Scansioni pulite e ad alto contrasto a 200 DPI o superiori, con rumore di fondo minimo e allineamento retto della pagina, producono i migliori risultati. JPEG sfocati, a bassa risoluzione o molto compressi, pagine con colonne o layout complessi e testo scritto a mano riducono tutti la precisione. Lo strumento genera un blocco di testo semplice; per output strutturato come tabelle preservate o layout multi-colonna, è necessaria un'elaborazione successiva. Eseguire lo strumento PDF Deskew sulle scansioni storte prima dell'OCR migliora tipicamente i tassi di riconoscimento.

Scritto da Bastien Sulyan

Come usare OCR · immagine/PDF in testo, passo dopo passo

Trascina la tua immagine scansionata (PNG, JPG, TIFF) o PDF basato su immagini sull'area di caricamento.
Seleziona la lingua principale del documento dal menu a discesa della lingua.
Se è la prima volta che usi quella lingua, attendi che il modello linguistico si scarichi (questo avviene una sola volta).
Fai clic su Estrai testo e attendi che tesseract.js elabori ogni pagina.
Copia il testo riconosciuto o scaricalo come file di testo semplice.

Casi d'uso comuni

Una ricevuta scansionata ha bisogno di estrarre le voci in un foglio di calcolo; esegui l'OCR per ottenere il testo, poi incollalo nel tuo software di contabilità.
Un archivio di articoli di riviste scansionati deve essere reso ricercabile come testo; converti ogni articolo in testo con OCR per l'indicizzazione.
Una lavagna fotografata da una riunione contiene appunti che devono essere trasformati in un documento modificabile.
Un documento storico scansionato in tedesco ha bisogno di estrarne il testo per la traduzione; seleziona il tedesco come lingua prima di eseguire l'OCR.

Domande frequenti

Perché devo scaricare un modello linguistico prima che l'OCR funzioni?

tesseract.js usa file di dati di reti neurali addestrate specifici per ogni lingua. Questi file pesano diversi megabyte ciascuno e vengono scaricati una volta da questo sito (li ospitiamo noi stessi, senza CDN di terze parti) la prima volta che selezioni quella lingua. Dopo il download iniziale il modello viene messo in cache dal browser, e tutti i riconoscimenti successivi per quella lingua girano completamente offline.

Quali fattori influenzano maggiormente la precisione dell'OCR?

La risoluzione di scansione (minimo 200 DPI, 300 DPI raccomandato), la nitidezza dell'immagine, il contrasto tra testo e sfondo e la rettilineità della pagina influenzano fortemente la precisione. Le scansioni JPEG molto compresse, i font molto piccoli e le pagine con orientamenti misti o layout a colonne complesse sono le fonti più comuni di errori di riconoscimento.

L'OCR riesce a leggere il testo scritto a mano?

tesseract.js è addestrato principalmente sul testo a stampa. La precisione del riconoscimento della scrittura a mano è generalmente bassa e inaffidabile, specialmente per la scrittura corsiva. Per i documenti scritti a mano, gli strumenti dedicati al riconoscimento della calligrafia producono risultati migliori.

I miei documenti scansionati vengono inviati da qualche parte durante l'estrazione del testo?

No. Dopo che il modello linguistico è stato messo in cache, ogni operazione di riconoscimento avviene interamente nel tuo browser usando tesseract.js. I documenti scansionati possono contenere contenuto personale o riservato; questa elaborazione solo locale significa che quel contenuto non raggiunge mai un server.

Lo strumento preserva il layout della scansione originale?

L'output è un flusso di testo semplice in ordine di lettura. Tabelle, colonne, intestazioni e altri elementi di layout non sono preservati come struttura; lo strumento genera solo il contenuto testuale. Per un output che preserva il layout, è necessaria una pipeline OCR più avanzata con analisi del layout.

Posso eseguire l'OCR su un PDF che contiene già testo selezionabile?

Lo strumento può elaborare PDF basati su immagini in cui ogni pagina è un'immagine raster senza testo incorporato. Se il tuo PDF ha già un livello testo (puoi selezionare e copiare testo in un visualizzatore), eseguire l'OCR è superfluo; il livello testo esistente ti fornisce le stesse informazioni senza il passaggio di riconoscimento.

Posso eseguire l'OCR su una foto scattata con il telefono?

Sì, e tesseract.js funziona sui browser mobile, quindi puoi anche aprire questa pagina sullo stesso telefono con cui hai scattato la foto. Le foto scattate di sbieco o con luce irregolare vengono riconosciute peggio di una scansione piana; raddrizzare lo scatto e ritagliare prima lo sfondo aiuta.

Devo creare un account o pagare per usare l'OCR?

No. Non c'è registrazione né alcun costo. L'unico download coinvolto è il modello linguistico una tantum di cui tesseract.js ha bisogno, un download del motore fatto una sola volta, non un abbonamento o un paywall.

Strumenti correlati

Mantieni tutto locale, esplora gli strumenti complementari.

Tutti gli strumenti PDF