Comment fonctionne PDF en texte
PDF en texte extrait le contenu textuel embarqué dans un PDF et le livre sous forme de fichier .txt. Il lit les flux de caractères stockés dans le document, aucun OCR n'est impliqué : l'extraction est donc rapide et précise pour les PDF d'origine numérique, où le texte est déjà lisible par la machine.
Si votre PDF est un scan sans couche de texte embarquée, utilisez plutôt l'outil OCR. Pour tout le reste, contrats, rapports, ebooks, cet outil extrait le texte instantanément avec pdf.js. Le texte brut n'a pas de modèle de mise en page, donc colonnes, tableaux et tailles de police ne sont pas préservés ; vous obtenez l'ordre de lecture des caractères tels qu'ils sont stockés dans le PDF.