OCR, udtræk tekst fra billeder og PDF'er

Slip et billede eller en PDF og få den genkendte tekst. OCR-behandlingen kører helt i din browser (på enheden, offline efter første indlæsning), intet uploades.

Sådan virker OCR · billede/PDF til tekst

OCR konverterer et scannet billede eller en billedbaseret PDF til tekst, du kan kopiere, søge i og redigere, ved hjælp af tesseract.js, der kører udelukkende inde i din browser. Du vælger dokumentsproget fra vælgeren, den relevante sprogmodel downloades til din browser en gang, og al efterfølgende genkendelse kører offline fra den cache-gemte model. Dine scannede filer sendes aldrig til nogen server under konverteringen.

Genkendelses-nøjagtighed afhænger i høj grad af scanningskvaliteten. Rene, højkontrast-scanninger ved 200 DPI eller derover med minimal baggrundsstøj og ret sidejustering giver de bedste resultater. Slørede, lavopløsnings- eller stærkt komprimerede JPEGs, sider med kolonner eller komplekse layouts og handskreven tekst reducerer alle nøjagtighed. Værktøjet udsendes et plain-text-blok; til struktureret output som bevarede tabeller eller flerkolonne-layout er efterbehandling nødvendig. Køring af PDF-retningsretning på skæve scanninger for OCR forbedrer typisk genkendelsesrater.

Skrevet af Bastien Sulyan

Sådan bruger du OCR · billede/PDF til tekst, trin for trin

Slip dit scannede billede (PNG, JPG, TIFF) eller billedbaseret PDF på uploadomradet.
Vælg det primære sprog i dokumentet fra sprogmenuen.
Hvis det er første gang, du bruger det sprog, skal du vente på, at sprogmodellen downloades (dette sker en gang).
Klik på udtræk tekst og vent på, at tesseract.js behandler hver side.
Kopier den genkendte tekst eller download den som en ren tekstfil.

Almindelige anvendelser

En scannet kvittering skal have sine linjer udtrukket til et regneark; køre OCR for at få teksten og indsæt derefter i dit regnskabsprogram.
Et arkiv af scannede tidsskriftartikler skal gøres tekstsøgbare; konverter hver til tekst med OCR til indeksering.
Et fotograferet whiteboard fra et møde indeholder noter, der skal gøres til et redigerbart dokument.
Et historisk scannet dokument på tysk har sin tekst udtrukket til oversættelse; vælg tysk som sproget, for du kører OCR.

Ofte stillede spørgsmål

Hvorfor skal jeg downloade en sprogmodel, for OCR virker?

tesseract.js bruger trænede neural-netværks-datafiler, der er specifikke for hvert sprog. Disse filer er flere megabytes hver og downloades en gang fra dette site (vi hoster dem selv, uden tredjeparts-CDN), første gang du vælger det sprog. Efter den initielle download caches modellen af din browser, og al yderligere genkendelse for det sprog kører helt offline.

Hvilke faktorer påvirker OCR-nøjagtighed mest?

Scanningsopløsning (200 DPI minimum, 300 DPI anbefalet), billedskarphed, kontrast mellem tekst og baggrund og om siden er vandret påvirker alle nøjagtighed mærkbart. Stærkt komprimerede JPEG-scanninger, meget små skrifttyper og sider med blandede orienteringer eller komplekse kolonnelayouts er de mest almindelige kilder til genkendtelsesfejl.

Kan OCR læse håndskrevet tekst?

tesseract.js er primært trænet på trykt tekst. Håndskrift genkendelse-nøjagtighed er generelt lav og upålidelig, særligt for kursivskrift. Til handskrevne dokumenter giver dedikerede håndskriftgenkendelsesværktøjer bedre resultater.

Sendes mine scannede dokumenter nogen steder under tekstudtrækning?

Nej. Når sprogmodellen er cache-gemt, sker enhver genkendelsesopgave udelukkende i din browser ved hjælp af tesseract.js. Scannede dokumenter kan indeholde personligt eller fortroligt indhold; denne kun-lokale behandling betyder, at indholdet aldrig når en server.

Bevarer værktøjet layoutet fra den originale scanning?

Outputtet er en plain-text-strøm i læserækkefølge. Tabeller, kolonner, headers og andre layout-elementer bevares ikke som struktur; værktøjet udsendes kun tekstindholdet. Til layout-bevarende output kræves en mere avanceret OCR-pipeline med layoutanalyse.

Kan jeg køre OCR på en PDF, der allerede indeholder valgbar tekst?

Værktøjet kan behandle billedbaserede PDF-filer, hvor hver side er et rasterbillede uden indlejret tekst. Hvis din PDF allerede har et tekstlag (du kan vælge og kopiere tekst i et visningsprogram), er OCR ikke nødvendig; det eksisterende tekstlag giver dig den samme information uden genkendelsestrinnet.

Kan jeg køre OCR på et foto taget med telefonen?

Ja, og tesseract.js fungerer i mobilbrowsere, så du endda kan åbne denne side på den telefon, der tog billedet. Fotos taget i en vinkel eller med ujævn belysning genkendes dårligere end en flatbed-scanning; det hjælper at rette billedet op og beskære baggrunden væk først.

Skal jeg oprette en konto eller betale for at bruge OCR?

Nej. Der er ingen tilmelding og intet gebyr. Den eneste download, der er involveret, er den engangssprogmodel, tesseract.js har brug for, hvilket er en engangsdownload af motoren, ikke et abonnement eller en betalingsmur.

Relaterede værktøjer

Hold alt lokalt, udforsk komplementære værktøjer.

Alle PDF-værktøjer