OCR, extrahera text från bilder och PDF:er

Släpp en bild eller PDF och få den igenkända texten. OCR körs helt i din webbläsare (på enheten, offline efter första laddningen), ingenting laddas upp.

Så fungerar OCR · bild/PDF till text

OCR konverterar en skannad bild eller bildbaserad PDF till text du kan kopiera, söka och redigera, med tesseract.js som körs helt inuti din webbläsare. Du väljer dokumentets språk från väljaren, den relevanta språkmodellen laddas ned till din webbläsare en gång, och all efterföljande igenkänning körs offline från den cachade modellen. Dina skannade filer skickas aldrig till någon server under konverteringen.

Igenkänningsnoggrannheten beror starkt på skanningskvaliteten. Rena, högkontrastiga skanningar vid 200 DPI eller över, med minimalt bakgrundsbrus och rak sidorientering, ger de bästa resultaten. Suddiga, lågupplösta eller kraftigt komprimerade JPEG-bilder, sidor med kolumner eller komplexa layouter och handskriven text minskar alla noggrannheten. Verktyget ger ut ett oformaterat textblock; för strukturerad utdata som bevarade tabeller eller flerspaltslayout behövs efterbearbetning. Att köra PDF Deskew-verktyget på skeva skanningar före OCR förbättrar vanligtvis igenkänningshastigheten.

Skrivet av Bastien Sulyan

Så här använder du OCR · bild/PDF till text, steg för steg

Dra din skannade bild (PNG, JPG, TIFF) eller bildbaserade PDF till uppladdningsytan.
Välj dokumentets primärspråk från språkrullgardinsmenyn.
Om det är första gången du använder det språket, vänta på att språkmodellen laddas ned (det sker en gång).
Klicka på extrahera text och vänta på att tesseract.js bearbetar varje sida.
Kopiera den igenkända texten eller ladda ned den som en oformaterad textfil.

Vanliga användningsområden

Ett skannat kvitto behöver sina radposter extraherade till ett kalkylblad; kör OCR för att få texten och klistra sedan in i ditt bokföringsprogram.
Ett arkiv av skannade tidskriftsartiklar behöver göras textsökbart; konvertera var och en till text med OCR för indexering.
En fotograferad whiteboard från ett möte innehåller anteckningar som behöver förvandlas till ett redigerbart dokument.
Ett historiskt skannat dokument på tyska behöver sin text extraherad för översättning; välj tyska som språk före körning av OCR.

Vanliga frågor

Varför behöver jag ladda ned en språkmodell innan OCR fungerar?

tesseract.js använder tränade neurala nätverksdatafiler specifika för varje språk. Dessa filer är flera megabyte var och en och laddas ned en gång från den här webbplatsen (vi hostar dem själva, utan någon tredjeparts-CDN) första gången du väljer det språket. Efter den initiala nedladdningen cachas modellen av din webbläsare, och all vidare igenkänning för det språket körs helt offline.

Vilka faktorer påverkar OCR-noggrannheten mest?

Skanningupplösning (minimum 200 DPI, 300 DPI rekommenderas), bildskärpa, kontrast mellan text och bakgrund, och om sidan är rak påverkar alla noggrannheten starkt. Kraftigt komprimerade JPEG-skanningar, mycket små typsnitt och sidor med blandade orienteringar eller komplexa kolumnlayouter är de vanligaste källorna till igenkänningsfel.

Kan OCR läsa handskriven text?

tesseract.js är i första hand tränat på tryckt text. Noggrannheten vid igenkänning av handskrift är generellt låg och opålitlig, särskilt för kursivt skrift. För handskrivna dokument ger dedikerade handskriftsigenkänningsverktyg bättre resultat.

Skickas mina skannade dokument någonstans under textextraktionen?

Nej. Efter att språkmodellen är cachad sker varje igenkänningsuppgift helt i din webbläsare med tesseract.js. Skannade dokument kan innehålla personligt eller konfidentiellt innehåll; den här lokala bearbetningen innebär att innehållet aldrig når en server.

Bevarar verktyget layouten av den ursprungliga skanningen?

Utdatafilen är en oformaterad textström i läsordning. Tabeller, kolumner, rubriker och andra layoutelement bevaras inte som struktur; verktyget ger enbart textinnehållet. För layoutbevarande utdata krävs en mer avancerad OCR-pipeline med layoutanalys.

Kan jag OCR-tolka en PDF som redan innehåller markerbar text?

Verktyget kan bearbeta bildbaserade PDF-filer där varje sida är en rasterbild utan inbäddad text. Om din PDF redan har ett textlager (du kan markera och kopiera text i en visare) är det onödigt att köra OCR; det befintliga textlagret ger dig samma information utan igenkänningssteget.

Kan jag köra OCR på ett foto taget med min telefon?

Ja, och tesseract.js fungerar i mobila webbläsare, så du kan till och med öppna den här sidan på telefonen som tog bilden. Foton tagna i vinkel eller med ojämn belysning känns igen sämre än en skanning från en flatbäddsskanner; att räta upp bilden och beskära bort bakgrunden först hjälper.

Behöver jag skapa ett konto eller betala för att använda OCR?

Nej. Det krävs ingen registrering och ingen avgift. Den enda nedladdning som är inblandad är den engångsspråkmodell som tesseract.js behöver, en engångsnedladdning av motorn, inte en prenumeration eller betalspärr.

Relaterade verktyg

Håll allt lokalt, utforska kompletterande verktyg.

Alla PDF-verktyg