Aucun upload, 100 % local, sans compte

OCR, extraire le texte d'images & PDF

Déposez une image ou un PDF pour obtenir le texte reconnu. L'OCR tourne entièrement dans votre navigateur (sur appareil, hors ligne après le 1er chargement), rien n'est envoyé.

Comment fonctionne OCR · image/PDF en texte

L'OCR, Reconnaissance Optique de Caractères, extrait le texte des images numérisées et des PDF à base d'images pour vous donner un résultat cherchable et copiable. Sunasty exécute le moteur Tesseract compilé en WebAssembly et charge à la demande le modèle de langue que vous sélectionnez.

La précision dépend de la qualité de votre scan et de la langue sélectionnée. Des scans nets et contrastés de texte imprimé dans une langue prise en charge donnent généralement d'excellents résultats ; l'écriture manuscrite, les scans basse résolution, les mises en page complexes multi-colonnes ou les scripts mixtes seront moins bien reconnus. Relisez toujours le résultat, en particulier pour les noms, les chiffres et les termes techniques. Pour de meilleurs résultats, redressez le scan d'abord avec l'outil PDF Deskew.

Questions fréquentes

Quelle est la précision de l'OCR ?

La précision varie selon la qualité du scan, la résolution et la langue. Le texte imprimé numérisé à 300 DPI ou plus dans une langue bien prise en charge (anglais, français, allemand, espagnol, etc.) atteint généralement une haute précision. L'écriture manuscrite, les scans peu contrastés, les polices inhabituelles et les scripts non latins produiront plus d'erreurs. Relisez toujours le résultat.

Quelles langues sont prises en charge ?

Tesseract prend en charge plus de 100 langues via son système de packs linguistiques. Sunasty charge les données de la langue que vous sélectionnez directement dans votre navigateur ; aucune donnée n'est envoyée à un serveur. Sélectionnez la bonne langue avant le traitement, un mauvais modèle linguistique réduit considérablement la précision.

Peut-il extraire le texte d'un PDF de plusieurs pages ?

Oui. Chaque page est reconnue en séquence et le texte extrait est assemblé en une sortie unique, page par page. Le temps de traitement évolue avec le nombre de pages et la complexité de chacune.

Mes fichiers sont-ils envoyés sur un serveur ?

Non. La reconnaissance s'exécute sur le moteur Tesseract compilé en WebAssembly, dans cet onglet ; le modèle de langue (traineddata) est téléchargé une fois depuis l'origine de Sunasty puis mis en cache, ensuite votre scan est lu en mémoire sur votre appareil, reconnu sur place, et le texte apparaît localement. Vos images ne sont jamais transmises à Sunasty ni à un tiers. Ouvrez les outils de développement, onglet Réseau, et constatez : aucune requête n'emporte votre scan.

Est-ce que ça marche hors ligne ?

Oui, une fois la page chargée. Comme le traitement a lieu sur votre appareil, vous pouvez couper le réseau : l'outil continue de fonctionner. C'est la preuve la plus nette que vos données ne quittent jamais votre machine.

Est-ce gratuit ? Faut-il un compte ?

C'est entièrement gratuit et sans inscription. Aucun filigrane, aucune limite quotidienne et aucun cookie de pistage n'est nécessaire pour utiliser l'outil.