Stappenplan

Tekst uit een gescande PDF halen

Een gescande PDF is in wezen een foto van een pagina: de tekst ziet er goed uit maar kan niet worden geselecteerd, doorzocht of gekopieerd, omdat hij als pixels is opgeslagen en niet als tekens. Optische tekenherkenning (OCR) zet die pixels weer om in echte tekst die je in een document kunt plakken, met Ctrl+F kunt doorzoeken of voor later kunt indexeren. Deze gids gebruikt een OCR-engine op het apparaat, zodat je scan nooit je computer verlaat.

Stap voor stap

Open de OCR-tool en sleep je gescande PDF of afbeeldingsbestand erin. De tool accepteert PDF, PNG, JPEG, WebP en diverse andere afbeeldingsformaten. Voor een scan van meerdere pagina's is het PDF-formaat de handigste enkele invoer.
Selecteer de taal van de tekst in het document. De standaard is Engels. De juiste taal kiezen helpt de OCR-engine de juiste tekenvormen te kiezen en verbetert de nauwkeurigheid bij letters met accenten en taalspecifieke interpunctie.
Klik op Uitvoeren en wacht tot de OCR klaar is. De engine (Tesseract, gecompileerd naar WebAssembly) draait volledig in je browser. Een A4-pagina verwerken duurt enkele seconden op een modern apparaat. Het resultaat is een tekstbestand dat je kunt downloaden en waaruit je kunt kopiëren.

Hoe de OCR-kwaliteit afhangt van de scankwaliteit

De OCR-nauwkeurigheid wordt vooral bepaald door de kwaliteit van de invoer. Een schone scan van 300 DPI van een gedrukt document (uitvoer van een laserprinter of kopieerapparaat) levert vrijwel perfecte resultaten op. Een wazige telefoonfoto die schuin en bij slecht licht is genomen, levert een veel slechtere uitvoer op, met verkeerd gelezen tekens, samengesmolten woorden en ontbrekende regels. Zijn je resultaten slecht, probeer dan de bronscan te verbeteren: maak de foto recht van voren, bij goed licht, en houd de pagina vlak. De PDF-deskew-tool kan een licht gekantelde scan rechtzetten voordat je er OCR op uitvoert.

Wat je met de geëxtraheerde tekst kunt doen

De uitvoer is een tekstbestand met de herkende tekens in leesvolgorde. Je kunt het in een tekstverwerker plakken, doorzoeken, vertalen of gebruiken als startpunt voor een bewerkt document. Voor een doorzoekbare PDF (de originele pagina-afbeelding met een onzichtbare tekstlaag eroverheen) zou je normaal gesproken speciale desktopsoftware gebruiken zoals Adobe Acrobat of OCRmyPDF: de tool op het apparaat hier levert alleen platte tekst, en dat is wat de meeste situaties in de praktijk nodig hebben.

De tools die in deze gids worden gebruikt

Veelgestelde vragen

Wordt mijn scan naar een externe server geüpload?

Nee. Tesseract is gecompileerd naar WebAssembly en draait rechtstreeks in je browsertabblad. Het taalmodel (ongeveer 4 MB voor het snelle Engelse model) wordt één keer van deze site gedownload en blijft daarna in de cache voor offline gebruik. Je bestand wordt van je lokale schijf gelezen en in het geheugen verwerkt: het wordt nooit naar een server gestuurd. Dit is vooral van belang voor gescande contracten, medische documenten of persoonlijke correspondentie.

Waarom is de OCR-uitvoer op mijn document niet perfect?

OCR-fouten komen voort uit de scankwaliteit (lage resolutie, onscherpte, scheefstand, schaduwen) of uit ongebruikelijke lettertypen en lay-outs. Probeer eerst de deskew-tool als de pagina niet perfect recht staat. Voor handgeschreven tekst daalt de nauwkeurigheid van Tesseract aanzienlijk: het is getraind op gedrukte tekens, niet op handschrift. Bij gemengde documenten (gedrukte tekst plus een handgeschreven handtekening) komen de gedrukte delen doorgaans correct uit de bus en raken de handgeschreven delen verminkt of weggelaten.