Sådan gør du

Udtræk tekst fra en scannet PDF

En scannet PDF er i bund og grund et fotografi af en side: teksten ser rigtig ud, men kan ikke markeres, søges i eller kopieres, fordi den er lagret som pixels, ikke tegn. Optisk tegngenkendelse (OCR) konverterer disse pixels tilbage til rigtig tekst, som du kan indsætte i et dokument, søge i med Ctrl+F eller indeksere til senere. Denne vejledning bruger en OCR-motor på enheden, så din scanning forlader aldrig din computer.

Trin for trin

Åbn OCR-værktøjet og slip din scannede PDF eller billedfil ind. Værktøjet accepterer PDF, PNG, JPEG, WebP og adskillige andre billedformater. Til en scanning over flere sider er PDF-formatet det mest bekvemme enkeltinput.
Vælg sproget for teksten i dokumentet. Standarden er engelsk. At vælge det rigtige sprog hjælper OCR-motoren med at vælge de rigtige tegnformer og forbedrer nøjagtigheden på bogstaver med accent og lokalitetsspecifik tegnsætning.
Klik på Kør og vent på, at OCR'en fuldføres. Motoren (Tesseract, kompileret til WebAssembly) kører helt i din browser. Behandling af en enkelt A4-side tager nogle få sekunder på en moderne enhed. Resultatet er en almindelig tekstfil, som du kan hente og kopiere fra.

Hvordan OCR-kvalitet afhænger af scanningskvalitet

OCR-nøjagtighed domineres af inputkvaliteten. En ren 300 DPI-scanning af et trykt dokument (output fra laserprinter eller fotokopimaskine) vil give næsten perfekte resultater. Et sløret telefonfoto taget i en vinkel i dårlig belysning vil give et meget dårligere output med fejllæste tegn, sammensmeltede ord og manglende linjer. Hvis dine resultater er dårlige, så prøv at forbedre kildescanningen: tag fotoet lige forfra, i godt lys, og hold siden flad. PDF-rettelsesværktøjet kan rette en let drejet scanning op, før du kører OCR på den.

Hvad man gør med den udtrukne tekst

Outputtet er en almindelig tekstfil med de genkendte tegn i læserækkefølge. Du kan indsætte den i et tekstbehandlingsprogram, søge i den, oversætte den eller bruge den som udgangspunkt for et redigeret dokument. Til en søgbar PDF (det originale sidebillede med et usynligt tekstlag lagt over) ville du normalt bruge dedikeret skrivebordsprogram som Adobe Acrobat eller OCRmyPDF: værktøjet på enheden her udsender kun almindelig tekst, hvilket er, hvad de fleste anvendelsestilfælde faktisk har brug for.

Værktøjerne brugt i denne guide

Ofte stillede spørgsmål

Bliver min scanning uploadet til en fjernserver?

Nej. Tesseract er kompileret til WebAssembly og kører direkte inde i din browserfane. Sprogmodellen (omkring 4 MB for den hurtige engelske model) hentes fra denne side én gang og forbliver derefter cachet til offline brug. Din fil læses fra din lokale disk og behandles i hukommelsen: den sendes aldrig til nogen server. Det betyder især noget for scannede kontrakter, lægedokumenter eller personlig korrespondance.

Hvorfor er OCR-outputtet ufuldkomment på mit dokument?

OCR-fejl kommer fra scanningskvalitet (lav opløsning, sløring, skævhed, skygger) eller fra usædvanlige skrifttyper og layouts. Prøv rettelsesværktøjet først, hvis siden ikke er helt lige. Til håndskrevet tekst falder Tesseracts nøjagtighed markant: den er trænet på trykte tegn, ikke håndskrift. Til blandede dokumenter (trykt tekst plus en håndskrevet underskrift) vil de trykte dele typisk komme korrekt ud, og de håndskrevne dele vil være forvanskede eller udeladt.