Tutoriel

Extraire le texte d'un PDF scanne

Un PDF scanne est essentiellement une photographie d'une page : le texte parait lisible mais ne peut pas etre selectionne, recherche ou copie car il est stocke en pixels, pas en caracteres. La reconnaissance optique de caracteres (OCR) convertit ces pixels en texte reel que vous pouvez coller dans un document, rechercher avec Ctrl+F ou indexer. Ce guide utilise un moteur OCR embarque, donc votre scan ne quitte jamais votre ordinateur.

Pas à pas

Ouvrez l'outil OCR et deposez-y votre PDF scanne ou fichier image. L'outil accepte les formats PDF, PNG, JPEG, WebP et d'autres formats image. Pour un scan multi-pages, le format PDF est le plus pratique.
Selectionnez la langue du texte dans le document. Le defaut est l'anglais. Choisir la bonne langue aide le moteur OCR a choisir les bonnes formes de caracteres et ameliore la precision sur les lettres accentuees et la ponctuation specifique a la locale.
Cliquez sur Executer et attendez la fin de l'OCR. Le moteur (Tesseract, compile en WebAssembly) tourne entierement dans votre navigateur. Le traitement d'une page A4 prend quelques secondes sur un appareil moderne. Le resultat est un fichier texte brut que vous pouvez telecharger et copier.

Comment la qualite de l'OCR depend de la qualite du scan

La precision de l'OCR est directement liee a la qualite de l'entree. Un scan propre a 300 DPI d'un document imprime (sortie laser ou photocopieur) donnera des resultats quasi parfaits. Une photo floue prise de biais dans un mauvais eclairage produira une sortie bien moins bonne, avec des caracteres mal reconnus, des mots fusionnes et des lignes manquantes. Si vos resultats sont mauvais, ameliorez le scan source : photographiez bien face a la page, dans une bonne lumiere, en gardant la page bien a plat. L'outil de redressement PDF peut corriger un scan legerement incline avant de lancer l'OCR.

Que faire avec le texte extrait

La sortie est un fichier texte brut avec les caracteres reconnus dans l'ordre de lecture. Vous pouvez le coller dans un traitement de texte, le rechercher, le traduire ou l'utiliser comme point de depart pour un document edite. Pour un PDF consultable (image originale de la page avec une couche de texte invisible superposee), vous utiliseriez normalement un logiciel de bureau comme Adobe Acrobat ou OCRmyPDF : l'outil sur appareil ici produit du texte brut uniquement, ce dont la plupart des cas d'usage ont reellement besoin.

Les outils utilisés dans ce guide

Questions fréquentes

Mon scan est-il envoye a un serveur distant ?

Non. Tesseract est compile en WebAssembly et tourne directement dans votre onglet navigateur. Le modele de langue (environ 4 Mo pour le modele rapide en anglais) se telecharge depuis ce site une seule fois, puis reste en cache pour une utilisation hors ligne. Votre fichier est lu depuis votre disque local et traite en memoire : il n'est jamais envoye a un serveur. C'est particulierement important pour les contrats scannes, les documents medicaux ou la correspondance personnelle.

Pourquoi la sortie OCR est-elle imparfaite sur mon document ?

Les erreurs d'OCR viennent de la qualite du scan (resolution insuffisante, flou, inclinaison, ombres) ou de polices et mises en page inhabituelles. Essayez d'abord l'outil de redressement si la page n'est pas parfaitement droite. Pour un texte manuscrit, la precision de Tesseract chute nettement : il est entraine sur des caracteres imprimes, pas sur l'ecriture manuscrite. Pour les documents mixtes (texte imprime plus une signature manuscrite), les parties imprimees sortiront generalement correctement et les parties manuscrites seront alterees ou omises.