Nasıl yapılır

Taranmış bir PDF'ten metin çıkarma

Taranmış bir PDF aslında bir sayfanın fotoğrafıdır: metin doğru görünür ama karakterler olarak değil pikseller olarak saklandığından seçilemez, aranamaz ya da kopyalanamaz. Optik karakter tanıma (OCR), bu pikselleri bir belgeye yapıştırabileceğiniz, Ctrl+F ile arayabileceğiniz ya da sonradan dizinleyebileceğiniz gerçek metne geri dönüştürür. Bu kılavuz cihaz üstü bir OCR motoru kullanır, böylece taramanız bilgisayarınızdan hiçbir zaman ayrılmaz.

Adım adım

OCR aracını açın ve taranmış PDF'inizi ya da görüntü dosyanızı içine bırakın. Araç PDF, PNG, JPEG, WebP ve birkaç başka görüntü formatını kabul eder. Çok sayfalı bir tarama için PDF formatı en kullanışlı tek girdidir.
Belgedeki metnin dilini seçin. Varsayılan İngilizce'dir. Doğru dili seçmek, OCR motorunun doğru karakter şekillerini belirlemesine yardımcı olur ve aksanlı harfler ile dile özgü noktalamada doğruluğu artırır.
Çalıştır düğmesine tıklayın ve OCR'nin tamamlanmasını bekleyin. Motor (WebAssembly'ye derlenmiş Tesseract) tamamen tarayıcınızda çalışır. Tek bir A4 sayfasını işlemek modern bir cihazda birkaç saniye sürer. Sonuç, indirip kopyalayabileceğiniz düz metin dosyasıdır.

OCR kalitesi tarama kalitesine nasıl bağlıdır

OCR doğruluğuna girdi kalitesi egemendir. Basılı bir belgenin (lazer yazıcı ya da fotokopi çıktısı) temiz, 300 DPI bir taraması neredeyse kusursuz sonuçlar verir. Kötü ışıkta, açıyla çekilmiş bulanık bir telefon fotoğrafı, yanlış okunan karakterler, birleşmiş kelimeler ve eksik satırlarla çok daha kötü bir çıktı üretir. Sonuçlarınız zayıfsa, kaynak taramayı iyileştirmeyi deneyin: fotoğrafı sayfaya tam karşıdan, iyi ışıkta çekin ve sayfayı düz tutun. PDF düzeltme aracı, OCR çalıştırmadan önce hafifçe dönmüş bir taramayı doğrultabilir.

Çıkarılan metinle ne yapmalı

Çıktı, tanınan karakterlerin okuma sırasıyla yer aldığı düz bir metin dosyasıdır. Onu bir kelime işlemciye yapıştırabilir, arayabilir, çevirebilir ya da düzenlenmiş bir belge için başlangıç noktası olarak kullanabilirsiniz. Aranabilir bir PDF (orijinal sayfa görüntüsünün üzerine bindirilmiş görünmez bir metin katmanı) için normalde Adobe Acrobat ya da OCRmyPDF gibi özel masaüstü yazılımları kullanırsınız: buradaki cihaz üstü araç yalnızca düz metin üretir, ki bu da çoğu kullanım durumunun gerçekten ihtiyaç duyduğu şeydir.

Bu rehberde kullanılan araçlar

Sıkça sorulan sorular

Taramam uzak bir sunucuya yükleniyor mu?

Hayır. Tesseract, WebAssembly'ye derlenmiştir ve doğrudan tarayıcı sekmenizin içinde çalışır. Dil modeli (hızlı İngilizce modeli için yaklaşık 4 MB) bu siteden bir kez indirilir, sonra çevrimdışı kullanım için önbellekte kalır. Dosyanız yerel diskinizden okunur ve bellekte işlenir: hiçbir zaman bir sunucuya gönderilmez. Bu, özellikle taranmış sözleşmeler, tıbbi belgeler ya da kişisel yazışmalar için önemlidir.

OCR çıktısı belgemde neden kusurlu?

OCR hataları tarama kalitesinden (düşük çözünürlük, bulanıklık, eğiklik, gölgeler) ya da olağandışı yazı tiplerinden ve düzenlerden kaynaklanır. Sayfa tam olarak düz değilse önce düzeltme aracını deneyin. El yazısı metin için Tesseract'ın doğruluğu belirgin biçimde düşer: basılı karakterler üzerinde eğitilmiştir, el yazısı üzerinde değil. Karışık belgelerde (basılı metin artı el yazısı bir imza), basılı kısımlar tipik olarak doğru çıkar, el yazısı kısımlarsa bozulur ya da atlanır.