Tutorial

Extrage text dintr-un PDF scanat

Un PDF scanat este practic o fotografie a unei pagini: textul arata corect, dar nu poate fi selectat, cautat sau copiat fiindca este stocat ca pixeli, nu ca caractere. Recunoasterea optica a caracterelor (OCR) transforma acei pixeli inapoi in text real, pe care il poti lipi intr-un document, cauta cu Ctrl+F sau indexa pentru mai tarziu. Acest ghid foloseste un motor OCR pe dispozitiv, asa ca scanarea ta nu iti paraseste niciodata calculatorul.

Pas cu pas

Deschide instrumentul OCR si plaseaza inauntru PDF-ul scanat sau fisierul imagine. Instrumentul accepta PDF, PNG, JPEG, WebP si alte cateva formate de imagine. Pentru o scanare cu mai multe pagini, formatul PDF este cea mai comoda intrare unica.
Selecteaza limba textului din document. Valoarea implicita este engleza. Alegerea limbii corecte ajuta motorul OCR sa aleaga formele de caractere potrivite si imbunatateste acuratetea pe literele cu accent si pe punctuatia specifica limbii.
Apasa pe Executa si asteapta finalizarea OCR. Motorul (Tesseract, compilat in WebAssembly) ruleaza integral in browserul tau. Prelucrarea unei singure pagini A4 dureaza cateva secunde pe un dispozitiv modern. Rezultatul este un fisier text simplu pe care il poti descarca si din care poti copia.

Cum depinde calitatea OCR de calitatea scanarii

Acuratetea OCR este dominata de calitatea intrarii. O scanare curata la 300 DPI a unui document tiparit (iesire de la o imprimanta laser sau un fotocopiator) va da rezultate aproape perfecte. O fotografie neclara facuta de telefon, dintr-un unghi, cu iluminare slaba, va produce o iesire mult mai proasta, cu caractere citite gresit, cuvinte lipite si linii lipsa. Daca rezultatele tale sunt slabe, incearca sa imbunatatesti scanarea sursa: fa fotografia drept in fata, la lumina buna, si tine pagina plana. Instrumentul de redresare PDF poate indrepta o scanare usor inclinata inainte sa rulezi OCR pe ea.

Ce sa faci cu textul extras

Iesirea este un fisier text simplu cu caracterele recunoscute in ordinea de citire. Il poti lipi intr-un procesor de text, il poti cauta, traduce sau folosi ca punct de plecare pentru un document editat. Pentru un PDF cautabil (imaginea originala a paginii cu un strat de text invizibil suprapus), ai folosi de obicei software de birou dedicat precum Adobe Acrobat sau OCRmyPDF: instrumentul de pe dispozitiv de aici produce doar text simplu, ceea ce majoritatea cazurilor de utilizare au de fapt nevoie.

Instrumentele folosite în acest ghid

Întrebări frecvente

Scanarea mea este incarcata pe un server la distanta?

Nu. Tesseract este compilat in WebAssembly si ruleaza direct in fila browserului tau. Modelul de limba (circa 4 MB pentru modelul rapid de engleza) se descarca de pe acest site o singura data, apoi ramane in cache pentru utilizare offline. Fisierul tau este citit de pe discul local si prelucrat in memorie: nu este trimis niciodata catre vreun server. Acest lucru conteaza mai ales pentru contracte scanate, documente medicale sau corespondenta personala.

De ce este iesirea OCR imperfecta pe documentul meu?

Erorile de OCR provin din calitatea scanarii (rezolutie scazuta, neclaritate, inclinare, umbre) sau din fonturi si aspecte neobisnuite. Incearca mai intai instrumentul de redresare daca pagina nu este perfect dreapta. Pentru text scris de mana, acuratetea Tesseract scade considerabil: este antrenat pe caractere tiparite, nu pe scris de mana. Pentru documente mixte (text tiparit plus o semnatura scrisa de mana), partile tiparite vor iesi de obicei corect, iar cele scrise de mana vor fi alterate sau omise.