Tutorial

Extraer texto de un PDF escaneado

Un PDF escaneado es esencialmente una fotografía de una página: el texto se ve bien pero no se puede seleccionar, buscar ni copiar porque está almacenado como píxeles, no como caracteres. El reconocimiento óptico de caracteres (OCR) convierte esos píxeles de nuevo en texto real que puedes pegar en un documento, buscar con Ctrl+F o indexar para más tarde. Esta guía usa un motor OCR en el dispositivo, así que tu escaneo nunca sale de tu ordenador.

Paso a paso

Abre la herramienta OCR y arrastra tu PDF escaneado o archivo de imagen. La herramienta acepta PDF, PNG, JPEG, WebP y varios otros formatos de imagen. Para un escaneo de varias páginas, el formato PDF es la entrada única más cómoda.
Selecciona el idioma del texto del documento. El valor por defecto es el inglés. Elegir el idioma correcto ayuda al motor OCR a escoger las formas de caracteres adecuadas y mejora la precisión en letras acentuadas y signos de puntuación específicos del idioma.
Haz clic en Ejecutar y espera a que termine el OCR. El motor (Tesseract, compilado a WebAssembly) se ejecuta enteramente en tu navegador. Procesar una sola página A4 lleva unos segundos en un dispositivo moderno. El resultado es un archivo de texto plano que puedes descargar y del que puedes copiar.

Cómo depende la calidad del OCR de la calidad del escaneo

La precisión del OCR está dominada por la calidad de la entrada. Un escaneo limpio a 300 PPP de un documento impreso (salida de impresora láser o fotocopiadora) dará resultados casi perfectos. Una foto de móvil borrosa tomada en ángulo y con mala iluminación producirá una salida mucho peor, con caracteres mal leídos, palabras fusionadas y líneas que faltan. Si tus resultados son malos, intenta mejorar el escaneo de origen: toma la foto de frente, con buena luz, y mantén la página plana. La herramienta de enderezado de PDF puede corregir un escaneo ligeramente girado antes de aplicarle el OCR.

Qué hacer con el texto extraído

La salida es un archivo de texto plano con los caracteres reconocidos en orden de lectura. Puedes pegarlo en un procesador de textos, buscarlo, traducirlo o usarlo como punto de partida para un documento editado. Para un PDF consultable (la imagen original de la página con una capa de texto invisible superpuesta), normalmente usarías software de escritorio dedicado como Adobe Acrobat u OCRmyPDF: la herramienta en el dispositivo de aquí produce solo texto plano, que es lo que la mayoría de los casos de uso realmente necesitan.

Las herramientas usadas en esta guía

Preguntas frecuentes

¿Se sube mi escaneo a un servidor remoto?

No. Tesseract está compilado a WebAssembly y se ejecuta directamente dentro de la pestaña de tu navegador. El modelo de idioma (alrededor de 4 MB para el modelo rápido en inglés) se descarga de este sitio una sola vez y luego queda en caché para uso sin conexión. Tu archivo se lee desde tu disco local y se procesa en memoria: nunca se envía a ningún servidor. Esto importa especialmente para contratos escaneados, documentos médicos o correspondencia personal.

¿Por qué la salida de OCR es imperfecta en mi documento?

Los errores de OCR proceden de la calidad del escaneo (baja resolución, desenfoque, inclinación, sombras) o de fuentes y maquetaciones poco habituales. Prueba primero la herramienta de enderezado si la página no está perfectamente recta. Para texto manuscrito, la precisión de Tesseract cae notablemente: está entrenado con caracteres impresos, no con escritura a mano. En documentos mixtos (texto impreso más una firma manuscrita), las partes impresas suelen salir correctas y las manuscritas quedan distorsionadas u omitidas.