OCR, extraire le texte d'images & PDF

Déposez une image ou un PDF pour obtenir le texte reconnu. L'OCR tourne entièrement dans votre navigateur (sur appareil, hors ligne après le 1er chargement), rien n'est envoyé.

Comment fonctionne OCR · image/PDF en texte

L'OCR convertit une image numérisée ou un PDF basé sur des images en texte que vous pouvez copier, rechercher et modifier, en utilisant tesseract.js qui s'exécute entièrement dans votre navigateur. Vous choisissez la langue du document dans le sélecteur, le modèle de langue correspondant est téléchargé une fois dans votre navigateur, et toutes les reconnaissances suivantes s'exécutent hors ligne à partir de ce modèle mis en cache. Vos fichiers numérisés ne sont jamais transmis à aucun serveur pendant la conversion.

La précision de la reconnaissance dépend fortement de la qualité de la numérisation. Les numérisations propres à fort contraste à 200 PPP ou plus, avec un bruit de fond minimal et un alignement de page droit, produisent les meilleurs résultats. Les JPEG flous, basse résolution ou fortement compressés, les pages avec colonnes ou mises en page complexes, et le texte manuscrit réduisent la précision. L'outil produit un bloc de texte brut ; pour une sortie structurée comme des tableaux préservés ou une mise en page multi-colonnes, un post-traitement est nécessaire. Utiliser l'outil PDF Redresser sur les numérisations tordues avant l'OCR améliore généralement les taux de reconnaissance.

Rédigé par Bastien Sulyan

Comment utiliser OCR · image/PDF en texte, étape par étape

Déposez votre image numérisée (PNG, JPG, TIFF) ou votre PDF basé sur des images dans la zone de dépôt.
Sélectionnez la langue principale du document dans la liste déroulante des langues.
Si c'est la première fois que vous utilisez cette langue, attendez le téléchargement du modèle de langue (cela se produit une seule fois).
Cliquez sur extraire le texte et attendez que tesseract.js traite chaque page.
Copiez le texte reconnu ou téléchargez-le sous forme de fichier texte brut.

Cas d'utilisation courants

Un reçu numérisé doit avoir ses lignes extraites dans un tableau ; lancez l'OCR pour obtenir le texte, puis collez-le dans votre logiciel de comptabilité.
Une archive d'articles de revue numérisés doit être rendue consultable par texte ; convertissez chacun en texte avec l'OCR pour l'indexation.
Un tableau blanc photographié d'une réunion contient des notes à transformer en document modifiable.
Un document historique numérisé en allemand doit avoir son texte extrait pour la traduction ; sélectionnez l'allemand comme langue avant de lancer l'OCR.

Questions fréquentes

Pourquoi dois-je télécharger un modèle de langue avant que l'OCR fonctionne ?

tesseract.js utilise des fichiers de données de réseaux de neurones entraînés spécifiques à chaque langue. Ces fichiers font plusieurs mégaoctets chacun et sont téléchargés une fois depuis ce site (nous les hébergeons nous-mêmes, sans CDN tiers) la première fois que vous sélectionnez cette langue. Après le téléchargement initial, le modèle est mis en cache par votre navigateur, et toutes les reconnaissances ultérieures pour cette langue s'exécutent complètement hors ligne.

Quels facteurs affectent le plus la précision de l'OCR ?

La résolution de numérisation (minimum 200 PPP, 300 PPP recommandés), la netteté de l'image, le contraste entre le texte et l'arrière-plan, et l'alignement de la page affectent fortement la précision. Les numérisations JPEG fortement compressées, les très petites polices et les pages avec orientations mixtes ou mises en page en colonnes complexes sont les sources les plus courantes d'erreurs de reconnaissance.

L'OCR peut-il lire le texte manuscrit ?

tesseract.js est principalement entraîné sur du texte imprimé. La précision de reconnaissance de l'écriture manuscrite est généralement faible et peu fiable, surtout pour l'écriture cursive. Pour les documents manuscrits, des outils de reconnaissance d'écriture dédiés produisent de meilleurs résultats.

Mes documents numérisés sont-ils envoyés quelque part pendant l'extraction de texte ?

Non. Une fois le modèle de langue mis en cache, chaque tâche de reconnaissance se déroule entièrement dans votre navigateur avec tesseract.js. Les documents numérisés peuvent contenir du contenu personnel ou confidentiel ; ce traitement uniquement local signifie que ce contenu n'atteint jamais un serveur.

L'outil préserve-t-il la mise en page de la numérisation originale ?

La sortie est un flux de texte brut dans l'ordre de lecture. Les tableaux, colonnes, en-têtes et autres éléments de mise en page ne sont pas préservés en tant que structure ; l'outil ne produit que le contenu textuel. Pour une sortie préservant la mise en page, un pipeline OCR plus avancé avec analyse de mise en page est nécessaire.

Puis-je faire une OCR sur un PDF qui contient déjà du texte sélectionnable ?

L'outil peut traiter les PDF basés sur des images où chaque page est une image matricielle sans texte intégré. Si votre PDF possède déjà une couche de texte (vous pouvez sélectionner et copier du texte dans un visionneur), exécuter l'OCR est inutile ; la couche de texte existante vous donne les mêmes informations sans l'étape de reconnaissance.

Puis-je faire une OCR sur une photo prise avec mon téléphone ?

Oui, et tesseract.js fonctionne sur navigateur mobile, vous pouvez donc ouvrir cette page directement sur le téléphone qui a pris la photo. Une photo prise en biais ou avec un éclairage inégal reconnaît moins bien qu'une numérisation à plat ; redresser la prise et recadrer le fond aide.

Faut-il un compte ou payer pour utiliser l'OCR ?

Non. Aucune inscription, aucun tarif. Le seul téléchargement impliqué est le modèle de langue ponctuel dont tesseract.js a besoin, un téléchargement de moteur unique, pas un abonnement ni un mur payant.

Outils liés

Tout reste local, explorez des outils complémentaires.

Tous les outils PDF