Tutorial

Estrarre il testo da un PDF scansionato

Un PDF scansionato è in pratica una fotografia di una pagina: il testo sembra corretto ma non può essere selezionato, cercato o copiato perché è memorizzato come pixel, non come caratteri. Il riconoscimento ottico dei caratteri (OCR) riconverte quei pixel in testo vero che puoi incollare in un documento, cercare con Ctrl+F o indicizzare per dopo. Questa guida usa un motore OCR sul dispositivo, così la tua scansione non lascia mai il tuo computer.

Passo dopo passo

Apri lo strumento OCR e trascina dentro il tuo PDF scansionato o file immagine. Lo strumento accetta PDF, PNG, JPEG, WebP e diversi altri formati immagine. Per una scansione multipagina, il formato PDF è l'ingresso unico più comodo.
Seleziona la lingua del testo nel documento. L'impostazione predefinita è l'inglese. Scegliere la lingua corretta aiuta il motore OCR a individuare le forme dei caratteri giuste e migliora la precisione sulle lettere accentate e sulla punteggiatura specifica della lingua.
Clicca su Esegui e attendi il completamento dell'OCR. Il motore (Tesseract, compilato in WebAssembly) gira interamente nel tuo browser. Elaborare una singola pagina A4 richiede pochi secondi su un dispositivo moderno. Il risultato è un file di testo semplice che puoi scaricare e da cui copiare.

Come la qualità dell'OCR dipende dalla qualità della scansione

La precisione dell'OCR è dominata dalla qualità dell'ingresso. Una scansione pulita a 300 DPI di un documento stampato (uscita di una stampante laser o di una fotocopiatrice) darà risultati quasi perfetti. Una foto sfocata scattata di sbieco con scarsa illuminazione produrrà un risultato molto peggiore, con caratteri letti male, parole fuse e righe mancanti. Se i tuoi risultati sono scarsi, prova a migliorare la scansione sorgente: scatta la foto bene di fronte, con buona luce, tenendo la pagina ben piatta. Lo strumento di raddrizzamento PDF può raddrizzare una scansione leggermente inclinata prima di passarci l'OCR.

Cosa fare con il testo estratto

L'uscita è un file di testo semplice con i caratteri riconosciuti nell'ordine di lettura. Puoi incollarlo in un elaboratore di testo, cercarlo, tradurlo o usarlo come punto di partenza per un documento modificato. Per un PDF ricercabile (l'immagine originale della pagina con uno strato di testo invisibile sovrapposto), useresti normalmente un software desktop dedicato come Adobe Acrobat o OCRmyPDF: lo strumento sul dispositivo qui produce solo testo semplice, che è ciò di cui la maggior parte dei casi d'uso ha davvero bisogno.

Gli strumenti usati in questa guida

Domande frequenti

La mia scansione viene caricata su un server remoto?

No. Tesseract è compilato in WebAssembly e gira direttamente dentro la scheda del tuo browser. Il modello linguistico (circa 4 MB per il modello inglese rapido) si scarica da questo sito una sola volta, poi resta in cache per l'uso offline. Il tuo file viene letto dal disco locale ed elaborato in memoria: non viene mai inviato ad alcun server. Questo conta soprattutto per contratti scansionati, documenti medici o corrispondenza personale.

Perché l'uscita OCR è imperfetta sul mio documento?

Gli errori dell'OCR derivano dalla qualità della scansione (bassa risoluzione, sfocatura, inclinazione, ombre) o da caratteri e impaginazioni insoliti. Prova prima lo strumento di raddrizzamento se la pagina non è perfettamente dritta. Per il testo scritto a mano, la precisione di Tesseract cala nettamente: è addestrato su caratteri stampati, non sulla scrittura a mano. Per i documenti misti (testo stampato più una firma scritta a mano), le parti stampate verranno in genere riconosciute correttamente e quelle scritte a mano risulteranno alterate o omesse.