Slik gjør du

Hent ut tekst fra en skannet PDF

En skannet PDF er i bunn og grunn et fotografi av en side: teksten ser riktig ut, men kan ikke merkes, søkes i eller kopieres fordi den er lagret som piksler, ikke tegn. Optisk tegngjenkjenning (OCR) gjør disse pikslene om til faktisk tekst du kan lime inn i et dokument, søke i med Ctrl+F eller indeksere til senere. Denne veiledningen bruker en OCR-motor som kjører på enheten, så skanningen din forlater aldri datamaskinen din.

Steg for steg

Åpne OCR-verktøyet og slipp inn den skannede PDF-en eller bildefilen din. Verktøyet godtar PDF, PNG, JPEG, WebP og flere andre bildeformater. For en flersidet skanning er PDF-formatet den mest praktiske enkeltinndataen.
Velg språket til teksten i dokumentet. Standarden er engelsk. Å velge riktig språk hjelper OCR-motoren å plukke de rette tegnformene og forbedrer nøyaktigheten på bokstaver med aksent og lokal tegnsetting.
Klikk på Kjør og vent til OCR-en er ferdig. Motoren (Tesseract, kompilert til WebAssembly) kjører helt og holdent i nettleseren din. Å behandle én enkelt A4-side tar noen sekunder på en moderne enhet. Resultatet er en ren tekstfil du kan laste ned og kopiere fra.

Hvordan OCR-kvaliteten avhenger av skannekvaliteten

OCR-nøyaktighet domineres av inndatakvaliteten. En ren 300 DPI-skanning av et trykt dokument (utskrift fra laserskriver eller kopimaskin) gir nesten perfekte resultater. Et uskarpt mobilbilde tatt på skrå i dårlig lys gir mye dårligere utdata, med feiltolkede tegn, sammenslåtte ord og manglende linjer. Hvis resultatene dine er dårlige, prøv å forbedre kildeskanningen: ta bildet rett forfra, i godt lys, og hold siden flat. PDF-rettesnorverktøyet kan rette opp en lett skjev skanning før du kjører OCR på den.

Hva du kan gjøre med den uthentede teksten

Utdataene er en ren tekstfil med de gjenkjente tegnene i leserekkefølge. Du kan lime den inn i et tekstbehandlingsprogram, søke i den, oversette den eller bruke den som utgangspunkt for et redigert dokument. For en søkbar PDF (det originale sidebildet med et usynlig tekstlag lagt over), ville du normalt bruke dedikert stasjonær programvare som Adobe Acrobat eller OCRmyPDF: verktøyet på enheten her produserer kun ren tekst, som er det de fleste bruksområder faktisk trenger.

Verktøyene brukt i denne guiden

Ofte stilte spørsmål

Lastes skanningen min opp til en ekstern server?

Nei. Tesseract er kompilert til WebAssembly og kjører rett inne i nettleserfanen din. Språkmodellen (rundt 4 MB for den raske engelske modellen) lastes ned fra dette nettstedet én gang, og forblir deretter bufret for frakoblet bruk. Filen din leses fra din lokale disk og behandles i minnet: den sendes aldri til noen server. Dette betyr spesielt mye for skannede kontrakter, medisinske dokumenter eller personlig korrespondanse.

Hvorfor er OCR-utdataene ufullkomne på dokumentet mitt?

OCR-feil kommer fra skannekvalitet (lav oppløsning, uskarphet, skjevhet, skygger) eller fra uvanlige skrifttyper og oppsett. Prøv rettesnorverktøyet først hvis siden ikke er helt rett. For håndskrevet tekst faller Tesseracts nøyaktighet betydelig: den er trent på trykte tegn, ikke håndskrift. For blandede dokumenter (trykt tekst pluss en håndskrevet signatur) kommer de trykte delene som regel ut riktig, mens de håndskrevne delene blir forvansket eller utelatt.