Tutorial

Text aus einem gescannten PDF extrahieren

Ein gescanntes PDF ist im Grunde eine Fotografie einer Seite: Der Text sieht richtig aus, kann aber nicht ausgewählt, durchsucht oder kopiert werden, weil er als Pixel und nicht als Zeichen gespeichert ist. Die optische Zeichenerkennung (OCR) wandelt diese Pixel zurück in echten Text um, den du in ein Dokument einfügen, mit Strg+F durchsuchen oder für später indexieren kannst. Diese Anleitung nutzt eine OCR-Engine auf dem Gerät, sodass dein Scan nie deinen Computer verlässt.

Schritt für Schritt

Öffne das OCR-Tool und ziehe dein gescanntes PDF oder deine Bilddatei hinein. Das Tool akzeptiert PDF, PNG, JPEG, WebP und mehrere weitere Bildformate. Für einen mehrseitigen Scan ist das PDF-Format die bequemste einzelne Eingabe.
Wähle die Sprache des Textes im Dokument. Standard ist Englisch. Die richtige Sprache zu wählen hilft der OCR-Engine, die passenden Zeichenformen zu erkennen, und verbessert die Genauigkeit bei Buchstaben mit Akzent und sprachspezifischer Zeichensetzung.
Klicke auf Ausführen und warte, bis die OCR abgeschlossen ist. Die Engine (Tesseract, kompiliert zu WebAssembly) läuft vollständig in deinem Browser. Die Verarbeitung einer einzelnen A4-Seite dauert auf einem modernen Gerät wenige Sekunden. Das Ergebnis ist eine reine Textdatei, die du herunterladen und aus der du kopieren kannst.

Wie die OCR-Qualität von der Scan-Qualität abhängt

Die OCR-Genauigkeit wird von der Eingabequalität bestimmt. Ein sauberer 300-DPI-Scan eines gedruckten Dokuments (Ausgabe eines Laserdruckers oder Fotokopierers) liefert nahezu perfekte Ergebnisse. Ein verwackeltes Handyfoto, schräg und bei schlechtem Licht aufgenommen, erzeugt eine deutlich schlechtere Ausgabe mit falsch erkannten Zeichen, verschmolzenen Wörtern und fehlenden Zeilen. Sind deine Ergebnisse schlecht, versuche den Quellscan zu verbessern: Mache das Foto frontal, bei gutem Licht, und halte die Seite flach. Das PDF-Begradigungstool kann einen leicht gedrehten Scan ausrichten, bevor du die OCR darauf anwendest.

Was du mit dem extrahierten Text tun kannst

Die Ausgabe ist eine reine Textdatei mit den erkannten Zeichen in Lesereihenfolge. Du kannst sie in ein Textverarbeitungsprogramm einfügen, durchsuchen, übersetzen oder als Ausgangspunkt für ein bearbeitetes Dokument nutzen. Für ein durchsuchbares PDF (das originale Seitenbild mit einer unsichtbar darübergelegten Textebene) würdest du normalerweise dedizierte Desktop-Software wie Adobe Acrobat oder OCRmyPDF verwenden: Das Tool auf dem Gerät hier gibt nur reinen Text aus, was die meisten Anwendungsfälle tatsächlich brauchen.

Die in dieser Anleitung verwendeten Tools

Häufige Fragen

Wird mein Scan auf einen entfernten Server hochgeladen?

Nein. Tesseract ist zu WebAssembly kompiliert und läuft direkt in deinem Browser-Tab. Das Sprachmodell (rund 4 MB für das schnelle englische Modell) wird einmal von dieser Seite heruntergeladen und bleibt dann für die Offline-Nutzung zwischengespeichert. Deine Datei wird von deiner lokalen Festplatte gelesen und im Speicher verarbeitet: Sie wird nie an einen Server gesendet. Das ist besonders wichtig bei gescannten Verträgen, medizinischen Dokumenten oder persönlicher Korrespondenz.

Warum ist die OCR-Ausgabe bei meinem Dokument unvollkommen?

OCR-Fehler entstehen durch die Scan-Qualität (niedrige Auflösung, Unschärfe, Schräglage, Schatten) oder durch ungewöhnliche Schriften und Layouts. Probiere zuerst das Begradigungstool, wenn die Seite nicht perfekt gerade ist. Bei handschriftlichem Text sinkt die Genauigkeit von Tesseract deutlich: Es ist auf gedruckte Zeichen trainiert, nicht auf Handschrift. Bei gemischten Dokumenten (gedruckter Text plus handschriftliche Unterschrift) kommen die gedruckten Teile in der Regel korrekt heraus, während die handschriftlichen Teile verfälscht oder ausgelassen werden.