Tutorial

Extrair texto de um PDF digitalizado

Um PDF digitalizado é, na prática, uma fotografia de uma página: o texto parece certo mas não pode ser selecionado, pesquisado ou copiado porque está armazenado como pixels, não como caracteres. O reconhecimento óptico de caracteres (OCR) converte esses pixels de volta em texto de verdade, que você pode colar em um documento, pesquisar com Ctrl+F ou indexar para depois. Este guia usa um motor de OCR que roda no próprio dispositivo, então a sua digitalização nunca sai do seu computador.

Passo a passo

Abra a ferramenta de OCR e solte o seu PDF digitalizado ou arquivo de imagem. A ferramenta aceita PDF, PNG, JPEG, WebP e vários outros formatos de imagem. Para uma digitalização de várias páginas, o formato PDF é a entrada única mais conveniente.
Selecione o idioma do texto no documento. O padrão é o inglês. Escolher o idioma correto ajuda o motor de OCR a identificar as formas certas dos caracteres e melhora a precisão em letras acentuadas e na pontuação específica de cada idioma.
Clique em Executar e aguarde o OCR concluir. O motor (Tesseract, compilado para WebAssembly) roda inteiramente no seu navegador. Processar uma única página A4 leva poucos segundos em um dispositivo moderno. O resultado é um arquivo de texto simples que você pode baixar e do qual pode copiar.

Como a qualidade do OCR depende da qualidade da digitalização

A precisão do OCR é determinada sobretudo pela qualidade da entrada. Uma digitalização limpa a 300 DPI de um documento impresso (saída de impressora a laser ou fotocopiadora) gera resultados quase perfeitos. Uma foto de celular borrada, tirada em ângulo e com pouca luz, produz um resultado bem pior, com caracteres mal lidos, palavras fundidas e linhas faltando. Se os seus resultados estiverem ruins, tente melhorar a digitalização de origem: tire a foto de frente, com boa luz, e mantenha a página plana. A ferramenta de correção de inclinação de PDF pode endireitar uma digitalização levemente girada antes de você rodar o OCR sobre ela.

O que fazer com o texto extraído

A saída é um arquivo de texto simples com os caracteres reconhecidos na ordem de leitura. Você pode colá-lo em um processador de texto, pesquisá-lo, traduzi-lo ou usá-lo como ponto de partida para um documento editado. Para um PDF pesquisável (a imagem original da página com uma camada de texto invisível sobreposta), você normalmente usaria software de desktop dedicado, como Adobe Acrobat ou OCRmyPDF: a ferramenta que roda no dispositivo aqui produz apenas texto simples, que é o que a maioria dos casos de uso realmente precisa.

As ferramentas usadas neste guia

Perguntas frequentes

Minha digitalização é enviada para um servidor remoto?

Não. O Tesseract é compilado para WebAssembly e roda diretamente dentro da aba do seu navegador. O modelo de idioma (cerca de 4 MB para o modelo rápido em inglês) é baixado deste site uma única vez e depois fica em cache para uso offline. O seu arquivo é lido do seu disco local e processado na memória: ele nunca é enviado a qualquer servidor. Isso importa especialmente para contratos digitalizados, documentos médicos ou correspondência pessoal.

Por que a saída do OCR está imperfeita no meu documento?

Os erros de OCR vêm da qualidade da digitalização (baixa resolução, desfoque, inclinação, sombras) ou de fontes e leiautes incomuns. Tente primeiro a ferramenta de correção de inclinação se a página não estiver perfeitamente reta. Para texto manuscrito, a precisão do Tesseract cai bastante: ele é treinado em caracteres impressos, não em escrita à mão. Para documentos mistos (texto impresso mais uma assinatura manuscrita), as partes impressas costumam sair corretamente e as partes manuscritas ficam embaralhadas ou são omitidas.