OCR, tekst uit afbeeldingen & PDF's halen

Sleep een afbeelding of PDF en krijg de herkende tekst. De OCR draait volledig in je browser (op het apparaat, offline na de eerste keer laden), er wordt niets geüpload.

Hoe OCR · afbeelding/PDF naar tekst werkt

OCR converteert een gescande afbeelding of op afbeeldingen gebaseerde PDF naar tekst die je kunt kopiëren, doorzoeken en bewerken, met tesseract.js dat volledig in je browser draait. Je kiest de documenttaal uit de selector, het relevante taalmodel wordt eenmalig naar je browser gedownload, en alle volgende herkenning draait offline vanuit dat gecachete model. Je gescande bestanden worden nooit naar een server verzonden tijdens de conversie.

Herkenningsnauwkeurigheid hangt sterk af van de scankwaliteit. Schone scans met hoog contrast bij 200 DPI of hoger, met minimale achtergrondstoring en rechte paginauitlijning, produceren de beste resultaten. Wazige, laagresolutie of zwaar gecomprimeerde JPEG-bestanden, pagina's met kolommen of complexe lay-outs en handgeschreven tekst verlagen de nauwkeurigheid. De tool geeft een platte tekstblok als uitvoer; voor gestructureerde uitvoer zoals bewaarde tabellen of meerkolomige lay-out is naverwerking nodig. Het uitvoeren van de PDF-rechtzettool op scheve scans voor OCR verbetert doorgaans de herkenningspercentages.

Geschreven door Bastien Sulyan

Hoe je OCR · afbeelding/PDF naar tekst gebruikt, stap voor stap

Sleep je gescande afbeelding (PNG, JPG, TIFF) of op afbeeldingen gebaseerde PDF naar het uploadgebied.
Selecteer de primaire taal van het document uit de taaldropdown.
Als dit je eerste keer is dat je die taal gebruikt, wacht dan tot het taalmodel is gedownload (dit gebeurt eenmalig).
Klik op tekst extraheren en wacht tot tesseract.js elke pagina heeft verwerkt.
Kopieer de herkende tekst of download hem als gewoon tekstbestand.

Veelvoorkomende toepassingen

Een gescande bon heeft zijn regelitems nodig die worden geëxtraheerd naar een spreadsheet; voer OCR uit om de tekst te krijgen en plak die in je boekhoudsoftware.
Een archief van gescande tijdschriftartikelen moet tekstdoorzoekbaar worden gemaakt; converteer elk naar tekst met OCR voor indexering.
Een gefotografeerd whiteboard van een vergadering bevat notities die moeten worden omgezet in een bewerkbaar document.
Een historisch gescand document in het Duits heeft zijn tekst nodig die wordt geëxtraheerd voor vertaling; selecteer Duits als taal voor het uitvoeren van OCR.

Veelgestelde vragen

Waarom moet ik een taalmodel downloaden voordat OCR werkt?

tesseract.js gebruikt getrainde neurale netwerkgegevensbestanden die specifiek zijn voor elke taal. Deze bestanden zijn elk enkele megabytes groot en worden eenmalig gedownload vanaf deze site (we hosten ze zelf, zonder CDN van derden) de eerste keer dat je die taal selecteert. Na de initiële download wordt het model gecached door je browser, en alle verdere herkenning voor die taal draait volledig offline.

Welke factoren beïnvloeden de OCR-nauwkeurigheid het meest?

Scanresolutie (minimaal 200 DPI, 300 DPI aanbevolen), beeldscherpte, contrast tussen tekst en achtergrond, en of de pagina recht is, beïnvloeden de nauwkeurigheid allemaal sterk. Zwaar gecomprimeerde JPEG-scans, zeer kleine lettertypen en pagina's met gemengde oriëntaties of complexe kolomlay-outs zijn de meest voorkomende bronnen van herkenningsfouten.

Kan OCR handgeschreven tekst lezen?

tesseract.js is voornamelijk getraind op gedrukte tekst. De nauwkeurigheid van handschriftherkenning is over het algemeen laag en onbetrouwbaar, vooral voor cursief schrift. Voor handgeschreven documenten produceren speciale handschriftherkenningstools betere resultaten.

Worden mijn gescande documenten ergens naartoe gestuurd tijdens tekstextractie?

Nee. Nadat het taalmodel is gecached, vindt elke herkenningstaak volledig in je browser plaats met tesseract.js. Gescande documenten kunnen persoonlijke of vertrouwelijke inhoud bevatten; deze lokale verwerking betekent dat die inhoud nooit een server bereikt.

Bewaart de tool de lay-out van de originele scan?

De uitvoer is een platte tekststroom in leesvolgorde. Tabellen, kolommen, headers en andere lay-outelementen worden niet bewaard als structuur; de tool geeft alleen de tekstinhoud. Voor lay-outbehoudende uitvoer is een geavanceerdere OCR-pijplijn met lay-outanalyse vereist.

Kan ik OCR uitvoeren op een PDF die al selecteerbare tekst bevat?

De tool kan op afbeeldingen gebaseerde PDF's verwerken waarbij elke pagina een rasterafbeelding is zonder ingesloten tekst. Als je PDF al een tekstlaag heeft (je kunt tekst selecteren en kopiëren in een viewer), is het uitvoeren van OCR niet nodig; de bestaande tekstlaag geeft je dezelfde informatie zonder de herkenningsstap.

Kan ik OCR uitvoeren op een foto die met mijn telefoon is genomen?

Ja, tesseract.js werkt in mobiele browsers, dus je kunt deze pagina zelfs openen op de telefoon waarmee de foto is genomen. Foto's die schuin of bij ongelijke belichting zijn genomen, worden minder goed herkend dan een scan met een flatbedscanner; de opname eerst rechtzetten en de achtergrond wegsnijden helpt.

Moet ik een account aanmaken of betalen om OCR te gebruiken?

Nee. Er is geen aanmelding en geen kosten. De enige download die erbij komt kijken is het eenmalige taalmodel dat tesseract.js nodig heeft, een eenmalige download van de engine, geen abonnement of betaalmuur.

Gerelateerde tools

Houd alles lokaal, verken aanvullende tools.

Alle PDF-tools