OCR, extrage text din imagini și PDF-uri

Plasați o imagine sau un PDF și obțineți textul recunoscut. OCR-ul rulează în întregime în browser (pe dispozitiv, offline după prima încărcare), nimic nu este încărcat.

Cum funcționează OCR · imagine/PDF în text

OCR convertește o imagine scanată sau un PDF bazat pe imagini în text pe care îl puteți copia, căuta și edita, folosind tesseract.js care rulează complet în browserul dumneavoastră. Alegeți limba documentului din selector, modelul de limbă relevant se descarcă în browserul dumneavoastră o singură dată, iar toate recunoașterile ulterioare rulează offline din modelul memorat în cache. Fișierele dumneavoastră scanate nu sunt niciodată transmise vreunui server în timpul conversiei.

Precizia recunoașterii depinde puternic de calitatea scanării. Scanările curate, cu contrast ridicat la 200 DPI sau mai mult, cu zgomot de fundal minim și aliniere dreaptă a paginii produc cele mai bune rezultate. JPEG-urile foarte comprimate, cu rezoluție scăzută sau foarte comprimate, paginile cu coloane sau aspecte complexe și textul scris de mână reduc precizia. Instrumentul produce un bloc de text simplu; pentru rezultate structurate, cum ar fi tabele păstrate sau aspect multi-coloană, este necesară post-procesare. Rularea instrumentului PDF Deskew pe scanările înclinate înainte de OCR îmbunătățește de obicei ratele de recunoaștere.

Scris de Bastien Sulyan

Cum se folosește OCR · imagine/PDF în text, pas cu pas

Trageți imaginea dumneavoastră scanată (PNG, JPG, TIFF) sau PDF bazat pe imagini în zona de încărcare.
Selectați limba principală a documentului din lista derulantă de limbi.
Dacă este prima dată când folosești acea limba, așteaptă descarcarea modelului de limba (acest lucru se întâmplă o singură data).
Apăsați Extract Text și așteptați ca tesseract.js să proceseze fiecare pagină.
Copiați textul recunoscut sau descărcați-l ca fișier text simplu.

Cazuri de utilizare frecvente

Un bon fiscal scanat are nevoie de extragerea articolelor sale în foi de calcul; rulați OCR pentru a obține textul, apoi lipiți în software-ul dumneavoastră de contabilitate.
O arhivă de articole de revista scanate trebuie făcută cautabila ca text; convertește fiecare cu OCR pentru indexare.
O tabla alba fotografiata de la o ședință conține note care trebuie transformate într-un document editabil.
Un document scanat istoric în germana are nevoie de extragerea textului pentru traducere; selectează Germana ca limba înainte de rularea OCR.

Întrebări frecvente

De ce trebuie să descarc un model de limba înainte ca OCR să funcționeze?

tesseract.js folosește fișiere de date de rețele neuronale antrenate specifice fiecărei limbi. Aceste fișiere au mai mulți megaocteți fiecare și sunt descărcate o singură dată de pe acest site (le găzduim noi înșine, fără un CDN terț) prima dată când selectați acea limbă. După descărcarea inițială, modelul este memorat în cache de browserul dumneavoastră, iar toată recunoașterea ulterioară pentru acea limbă rulează complet offline.

Ce factori afectează cel mai mult precizia OCR?

Rezoluția scanarii (minim 200 DPI, recomandat 300 DPI), claritatea imaginii, contrastul dintre text și fundal și dacă pagina este dreapta afectează puternic precizia. Scanarile JPEG foarte comprimate, fonturile foarte mici și paginile cu orientari mixte sau aspecte complexe de coloane sunt cele mai frecvente surse de erori de recunoaștere.

Poate OCR citi textul scris de mâna?

tesseract.js este antrenat în principal pe text tiparit. Precizia recunoasterii scrisului de mâna este în general scăzută și nesigura, în special pentru scriere cursiva. Pentru documentele scrise de mâna, instrumentele dedicate de recunoaștere a scrisului de mâna produc rezultate mai bune.

Documentele mele scanate sunt trimise undeva în timpul extractiei textului?

Nu. După ce modelul de limbă este memorat în cache, fiecare sarcină de recunoaștere are loc complet în browserul dumneavoastră folosind tesseract.js. Documentele scanate pot conține conținut personal sau confidențial; această procesare exclusiv locală înseamnă că acel conținut nu ajunge niciodată pe un server.

Instrumentul păstrează aspectul scanarii originale?

Fișierul de ieșire este un flux de text simplu în ordinea de citire. Tabelele, coloanele, antetele și alte elemente de aspect nu sunt păstrate ca structura; instrumentul produce doar conținutul text. Pentru ieșire cu pastrarea aspectului, este necesar un pipeline OCR mai avansat cu analiza de aspect.

Pot aplica OCR unui PDF care conține deja text selectabil?

Instrumentul poate procesa PDF-uri bazate pe imagini unde fiecare pagină este o imagine raster fără text încorporat. Dacă PDF-ul dumneavoastră are deja un strat de text (puteți selecta și copia text într-un vizualizator), rularea OCR este inutilă; stratul de text existent vă oferă aceleași informații fără pasul de recunoaștere.

Pot rula OCR pe o fotografie făcută cu telefonul?

Da, iar tesseract.js funcționează pe browserele mobile, deci puteți deschide chiar această pagină pe telefonul cu care ați făcut fotografia. Fotografiile făcute pieziș sau cu lumină neuniformă sunt recunoscute mai slab decât o scanare plană; îndreptarea cadrului și decuparea fundalului mai întâi ajută.

Trebuie să creez un cont sau să plătesc pentru a folosi OCR?

Nu. Nu există înregistrare și nicio taxă. Singura descărcare implicată este modelul lingvistic unic de care are nevoie tesseract.js, o descărcare a motorului făcută o singură dată, nu un abonament sau un paywall.

Instrumente conexe

Păstrează totul local, explorează instrumente complementare.

Toate instrumentele PDF