Οδηγός
Εξαγωγή κειμένου από σαρωμένο PDF
Ένα σαρωμένο PDF είναι ουσιαστικά μια φωτογραφία μιας σελίδας: το κείμενο φαίνεται σωστό αλλά δεν μπορεί να επιλεγεί, να αναζητηθεί ή να αντιγραφεί επειδή αποθηκεύεται ως εικονοστοιχεία, όχι ως χαρακτήρες. Η οπτική αναγνώριση χαρακτήρων (OCR) μετατρέπει αυτά τα εικονοστοιχεία ξανά σε πραγματικό κείμενο που μπορείτε να επικολλήσετε σε έγγραφο, να αναζητήσετε με Ctrl+F ή να ευρετηριάσετε για αργότερα. Αυτός ο οδηγός χρησιμοποιεί μια μηχανή OCR στη συσκευή, οπότε η σάρωσή σας δεν φεύγει ποτέ από τον υπολογιστή σας.
Βήμα προς βήμα
- Ανοίξτε το εργαλείο OCR και ρίξτε μέσα το σαρωμένο PDF ή αρχείο εικόνας σας. Το εργαλείο δέχεται PDF, PNG, JPEG, WebP και αρκετές άλλες μορφές εικόνας. Για μια σάρωση πολλών σελίδων, η μορφή PDF είναι η πιο βολική μεμονωμένη είσοδος.
- Επιλέξτε τη γλώσσα του κειμένου στο έγγραφο. Η προεπιλογή είναι τα αγγλικά. Η επιλογή της σωστής γλώσσας βοηθάει τη μηχανή OCR να διαλέξει τα σωστά σχήματα χαρακτήρων και βελτιώνει την ακρίβεια στα τονισμένα γράμματα και τη στίξη ειδική για κάθε γλώσσα.
- Πατήστε Εκτέλεση και περιμένετε να ολοκληρωθεί το OCR. Η μηχανή (Tesseract, μεταγλωττισμένη σε WebAssembly) τρέχει εξ ολοκλήρου στον περιηγητή σας. Η επεξεργασία μιας μόνο σελίδας A4 παίρνει λίγα δευτερόλεπτα σε μια σύγχρονη συσκευή. Το αποτέλεσμα είναι ένα αρχείο απλού κειμένου που μπορείτε να κατεβάσετε και να αντιγράψετε.
Πώς η ποιότητα του OCR εξαρτάται από την ποιότητα της σάρωσης
Η ακρίβεια του OCR καθορίζεται κυρίως από την ποιότητα της εισόδου. Μια καθαρή σάρωση 300 DPI ενός εκτυπωμένου εγγράφου (έξοδος εκτυπωτή λέιζερ ή φωτοτυπικού) θα δώσει σχεδόν τέλεια αποτελέσματα. Μια θολή φωτογραφία από κινητό τραβηγμένη υπό γωνία σε κακό φωτισμό θα παραγάγει πολύ χειρότερη έξοδο, με χαρακτήρες που διαβάζονται λάθος, ενωμένες λέξεις και γραμμές που λείπουν. Αν τα αποτελέσματά σας είναι φτωχά, δοκιμάστε να βελτιώσετε τη σάρωση πηγής: τραβήξτε τη φωτογραφία κατευθείαν μπροστά, σε καλό φως, και κρατήστε τη σελίδα επίπεδη. Το εργαλείο ευθυγράμμισης PDF μπορεί να ισιώσει μια ελαφρώς περιστραμμένη σάρωση πριν τρέξετε OCR σε αυτήν.
Τι να κάνετε με το εξαγμένο κείμενο
Η έξοδος είναι ένα αρχείο απλού κειμένου με τους αναγνωρισμένους χαρακτήρες σε σειρά ανάγνωσης. Μπορείτε να το επικολλήσετε σε επεξεργαστή κειμένου, να το αναζητήσετε, να το μεταφράσετε ή να το χρησιμοποιήσετε ως αφετηρία για ένα επεξεργασμένο έγγραφο. Για ένα αναζητήσιμο PDF (η αρχική εικόνα της σελίδας με ένα αόρατο στρώμα κειμένου από πάνω), θα χρησιμοποιούσατε κανονικά ειδικό λογισμικό υπολογιστή όπως το Adobe Acrobat ή το OCRmyPDF: το εργαλείο στη συσκευή εδώ παράγει μόνο απλό κείμενο, που είναι αυτό που χρειάζονται πραγματικά οι περισσότερες περιπτώσεις χρήσης.
Τα εργαλεία που χρησιμοποιούνται σε αυτόν τον οδηγό
- OCR · εικόνα/PDF σε κείμενο Εξαγωγή κειμένου από σαρωμένες εικόνες ή PDF εξ ολοκλήρου στο πρόγραμμα περιήγησής σας, λειτουργεί εκτός σύνδεσης, χωρίς μεταφόρτωση.
- PDF σε εικόνες Μετατρέψτε κάθε σελίδα PDF σε PNG ή JPG απευθείας στον περιηγητή σας.
- Συμπίεση PDF Μειώστε το μέγεθος του αρχείου PDF με αδύνατη βελτιστοποίηση της εσωτερικής του δομής, χωρίς μεταφόρτωση.
Συχνές ερωτήσεις
Ανεβαίνει η σάρωσή μου σε απομακρυσμένο διακομιστή;
Όχι. Το Tesseract είναι μεταγλωττισμένο σε WebAssembly και τρέχει απευθείας μέσα στην καρτέλα του περιηγητή σας. Το γλωσσικό μοντέλο (περίπου 4 MB για το γρήγορο αγγλικό μοντέλο) κατεβαίνει από αυτόν τον ιστότοπο μία φορά, μετά παραμένει στην κρυφή μνήμη για χρήση εκτός σύνδεσης. Το αρχείο σας διαβάζεται από τον τοπικό σας δίσκο και επεξεργάζεται στη μνήμη: δεν στέλνεται ποτέ σε κανέναν διακομιστή. Αυτό έχει ιδιαίτερη σημασία για σαρωμένα συμβόλαια, ιατρικά έγγραφα ή προσωπική αλληλογραφία.
Γιατί η έξοδος του OCR είναι ατελής στο έγγραφό μου;
Τα σφάλματα OCR προέρχονται από την ποιότητα της σάρωσης (χαμηλή ανάλυση, θολούρα, λοξότητα, σκιές) ή από ασυνήθιστες γραμματοσειρές και διατάξεις. Δοκιμάστε πρώτα το εργαλείο ευθυγράμμισης αν η σελίδα δεν είναι τέλεια ίσια. Για χειρόγραφο κείμενο, η ακρίβεια του Tesseract πέφτει σημαντικά: είναι εκπαιδευμένο σε εκτυπωμένους χαρακτήρες, όχι σε χειρόγραφα. Για μεικτά έγγραφα (εκτυπωμένο κείμενο συν μια χειρόγραφη υπογραφή), τα εκτυπωμένα μέρη συνήθως θα βγουν σωστά και τα χειρόγραφα μέρη θα είναι αλλοιωμένα ή θα παραλειφθούν.