OCR, Text aus Bildern & PDFs extrahieren

Bild oder PDF ablegen und den erkannten Text erhalten. Die OCR läuft vollständig in Ihrem Browser (geräteeigen, offline nach dem ersten Laden), nichts wird hochgeladen.

So funktioniert OCR · Bild/PDF zu Text

OCR wandelt ein gescanntes Bild oder ein bildbasiertes PDF in Text um, den Sie kopieren, durchsuchen und bearbeiten können - mit tesseract.js, das vollständig in Ihrem Browser läuft. Sie wählen die Dokumentsprache aus dem Selektor, das entsprechende Sprachmodell wird einmalig in Ihren Browser heruntergeladen, und alle weiteren Erkennungen laufen offline aus diesem zwischengespeicherten Modell. Ihre gescannten Dateien werden während der Konvertierung nie an einen Server übertragen.

Die Erkennungsgenauigkeit hängt stark von der Scanqualität ab. Saubere, kontrastreiche Scans mit mindestens 200 DPI, minimalem Hintergrundrauschen und gerader Seitenausrichtung liefern die besten Ergebnisse. Unscharfe, niedrig aufgelöste oder stark komprimierte JPEGs, Seiten mit Spalten oder komplexen Layouts sowie handgeschriebener Text verringern die Genauigkeit. Das Werkzeug gibt einen einfachen Textblock aus; für strukturierte Ausgabe wie beibehaltene Tabellen oder mehrspaltige Layouts ist Nachbearbeitung erforderlich. Das Ausführen des PDF-Entzerrungs-Werkzeugs bei schiefen Scans vor der OCR verbessert die Erkennungsrate typischerweise.

Verfasst von Bastien Sulyan

So wird OCR · Bild/PDF zu Text verwendet, Schritt für Schritt

Ziehen Sie Ihr gescanntes Bild (PNG, JPG, TIFF) oder bildbasiertes PDF auf den Upload-Bereich.
Wählen Sie die Hauptsprache des Dokuments aus dem Sprach-Dropdown.
Wenn Sie diese Sprache zum ersten Mal verwenden, warten Sie, bis das Sprachmodell heruntergeladen wurde (dies geschieht einmalig).
Klicken Sie auf Text extrahieren und warten Sie, während tesseract.js jede Seite verarbeitet.
Kopieren Sie den erkannten Text oder laden Sie ihn als einfache Textdatei herunter.

Häufige Anwendungsfälle

Ein gescannter Kassenbon muss seine Einzelposten in eine Tabelle extrahiert bekommen; führen Sie OCR durch, um den Text zu erhalten, und fügen Sie ihn dann in Ihre Buchhaltungssoftware ein.
Ein Archiv gescannter Zeitschriftenartikel muss textdurchsuchbar gemacht werden; konvertiere jeden mit OCR für die Indexierung.
Ein fotografiertes Whiteboard aus einer Besprechung enthält Notizen, die in ein bearbeitbares Dokument umgewandelt werden müssen.
Ein gescanntes historisches Dokument auf Deutsch muss seinen Text für die Übersetzung extrahiert bekommen; wählen Sie Deutsch als Sprache, bevor Sie OCR ausführen.

Häufig gestellte Fragen

Warum muss ich ein Sprachmodell herunterladen, bevor OCR funktioniert?

tesseract.js verwendet trainierte neuronale Netzwerk-Datendateien, die für jede Sprache spezifisch sind. Diese Dateien sind jeweils mehrere Megabyte groß und werden beim ersten Auswählen dieser Sprache einmalig von dieser Website heruntergeladen (wir hosten sie selbst, ohne CDN eines Drittanbieters). Nach dem ersten Download wird das Modell von Ihrem Browser zwischengespeichert, und alle weiteren Erkennungen für diese Sprache laufen vollständig offline.

Welche Faktoren beeinflussen die OCR-Genauigkeit am stärksten?

Scanauflösung (mindestens 200 DPI, 300 DPI empfohlen), Bildschärfe, Kontrast zwischen Text und Hintergrund sowie ob die Seite gerade ist, beeinflussen die Genauigkeit stark. Stark komprimierte JPEG-Scans, sehr kleine Schriften und Seiten mit gemischten Ausrichtungen oder komplexen Spaltenlayouts sind die häufigsten Ursachen für Erkennungsfehler.

Kann OCR handgeschriebenen Text lesen?

tesseract.js ist hauptsächlich auf gedruckten Text trainiert. Die Genauigkeit bei der Handschrifterkennung ist generell niedrig und unzuverlässig, besonders bei Kursivschrift. Für handgeschriebene Dokumente liefern dedizierte Handschrifterkennungswerkzeuge bessere Ergebnisse.

Werden meine gescannten Dokumente während der Textextraktion irgendwohin gesendet?

Nein. Nach dem Zwischenspeichern des Sprachmodells findet jede Erkennungsaufgabe vollständig in Ihrem Browser mit tesseract.js statt. Gescannte Dokumente können persönliche oder vertrauliche Inhalte enthalten; diese lokale Verarbeitung bedeutet, dass dieser Inhalt nie einen Server erreicht.

Bewahrt das Werkzeug das Layout des Original-Scans?

Die Ausgabe ist ein einfacher Textstrom in Lesereihenfolge. Tabellen, Spalten, Überschriften und andere Layoutelemente werden nicht als Struktur bewahrt; das Werkzeug gibt nur den Textinhalt aus. Für layouterhaltende Ausgabe ist eine ausgefeiltere OCR-Pipeline mit Layout-Analyse erforderlich.

Kann ich ein PDF mit OCR bearbeiten, das bereits auswählbaren Text enthält?

Das Werkzeug kann bildbasierte PDFs verarbeiten, bei denen jede Seite ein Rasterbild ohne eingebetteten Text ist. Wenn Ihr PDF bereits eine Textebene hat (Sie können Text in einem Betrachter auswählen und kopieren), ist OCR nicht notwendig; die vorhandene Textebene gibt Ihnen dieselben Informationen ohne den Erkennungsschritt.

Kann ich OCR auf einem mit meinem Handy aufgenommenen Foto ausführen?

Ja, und tesseract.js funktioniert in mobilen Browsern, sodass Sie diese Seite sogar auf dem Handy öffnen können, mit dem das Bild aufgenommen wurde. Schräg aufgenommene Fotos oder solche mit ungleichmäßiger Beleuchtung werden schlechter erkannt als ein Flachbett-Scan; die Aufnahme vorher gerade zu richten und den Hintergrund zuzuschneiden hilft.

Muss ich ein Konto erstellen oder bezahlen, um OCR zu nutzen?

Nein. Es gibt keine Registrierung und keine Gebühr. Der einzige Download ist das einmalige Sprachmodell, das tesseract.js benötigt, ein einmaliger Engine-Download, kein Abonnement und keine Bezahlschranke.