OCR, extrair texto de imagens e PDFs

Solte uma imagem ou PDF e obtenha o texto reconhecido. O OCR roda inteiramente no seu navegador (no dispositivo, offline após o primeiro carregamento), nada é enviado.

Como o OCR · imagem/PDF para texto funciona

O OCR converte uma imagem digitalizada ou PDF baseado em imagem em texto que você pode copiar, pesquisar e editar, usando o tesseract.js executando inteiramente dentro do seu navegador. Você escolhe o idioma do documento no seletor, o modelo de idioma relevante é baixado para o seu navegador uma vez, e todo o reconhecimento subsequente executa offline a partir desse modelo em cache. Seus arquivos digitalizados nunca são transmitidos a nenhum servidor durante a conversão.

A precisão do reconhecimento depende fortemente da qualidade da digitalização. Digitalizações limpas e de alto contraste a 200 DPI ou mais, com ruído de fundo mínimo e alinhamento reto da página, produzem os melhores resultados. JPEGs borrados, de baixa resolução ou muito comprimidos, páginas com colunas ou layouts complexos e texto manuscrito reduzem a precisão. A ferramenta produz um bloco de texto simples; para saída estruturada como tabelas preservadas ou layout de múltiplas colunas, processamento posterior é necessário. Executar a ferramenta PDF Deskew em digitalizações inclinadas antes do OCR tipicamente melhora as taxas de reconhecimento.

Escrito por Bastien Sulyan

Como usar o OCR · imagem/PDF para texto, passo a passo

Arraste sua imagem digitalizada (PNG, JPG, TIFF) ou PDF baseado em imagem para a área de upload.
Selecione o idioma principal do documento no menu suspenso de idiomas.
Se for a primeira vez que usa esse idioma, aguarde o modelo de idioma ser baixado (isso acontece uma vez).
Clique em extrair texto e aguarde o tesseract.js processar cada página.
Copie o texto reconhecido ou baixe-o como arquivo de texto simples.

Casos de uso comuns

Um recibo digitalizado precisa ter seus itens extraídos para uma planilha; execute o OCR para obter o texto e cole no seu software de contabilidade.
Um arquivo de artigos de jornal digitalizados precisa ser pesquisável por texto; converta cada um para texto com OCR para indexação.
Um quadro branco fotografado em uma reunião contém notas que precisam ser transformadas em um documento editável.
Um documento histórico digitalizado em alemão precisa ter seu texto extraído para tradução; selecione alemão como o idioma antes de executar o OCR.

Perguntas frequentes

Por que preciso baixar um modelo de idioma antes que o OCR funcione?

O tesseract.js usa arquivos de dados de rede neural treinados específicos para cada idioma. Esses arquivos têm vários megabytes cada e são baixados uma vez deste site (nós mesmos os hospedamos, sem CDN de terceiros) na primeira vez que você seleciona esse idioma. Após o download inicial, o modelo é armazenado em cache pelo seu navegador, e todo o reconhecimento subsequente para esse idioma executa completamente offline.

Quais fatores afetam mais a precisão do OCR?

A resolução da digitalização (mínimo 200 DPI, recomendado 300 DPI), a nitidez da imagem, o contraste entre texto e fundo e se a página está reta afetam fortemente a precisão. Digitalizações JPEG muito comprimidas, fontes muito pequenas e páginas com orientações mistas ou layouts de colunas complexos são as fontes mais comuns de erros de reconhecimento.

O OCR pode ler texto manuscrito?

O tesseract.js é treinado principalmente em texto impresso. A precisão de reconhecimento de caligrafia é geralmente baixa e pouco confiável, especialmente para escrita cursiva. Para documentos manuscritos, ferramentas dedicadas de reconhecimento de caligrafia produzem resultados melhores.

Meus documentos digitalizados são enviados para algum lugar durante a extração de texto?

Não. Após o modelo de idioma ser armazenado em cache, toda tarefa de reconhecimento acontece inteiramente no seu navegador usando o tesseract.js. Documentos digitalizados podem conter conteúdo pessoal ou confidencial; esse processamento exclusivamente local significa que esse conteúdo nunca chega a um servidor.

A ferramenta preserva o layout da digitalização original?

A saída é um fluxo de texto simples em ordem de leitura. Tabelas, colunas, cabeçalhos e outros elementos de layout não são preservados como estrutura; a ferramenta produz apenas o conteúdo de texto. Para saída que preserva o layout, é necessário um pipeline de OCR mais avançado com análise de layout.

Posso executar OCR em um PDF que já contém texto selecionável?

A ferramenta pode processar PDFs baseados em imagem onde cada página é uma imagem rasterizada sem texto incorporado. Se o seu PDF já tem uma camada de texto (você pode selecionar e copiar texto em um visualizador), executar o OCR é desnecessário; a camada de texto existente fornece as mesmas informações sem a etapa de reconhecimento.

Posso rodar OCR em uma foto tirada com o celular?

Sim, e o tesseract.js funciona em navegadores móveis, então você pode até abrir esta página no mesmo celular que tirou a foto. Fotos tiradas em ângulo ou com iluminação irregular são reconhecidas pior do que uma digitalização plana; endireitar a foto e recortar o fundo antes ajuda.

Preciso criar uma conta ou pagar para usar o OCR?

Não. Não há cadastro nem taxa. O único download envolvido é o modelo de idioma que o tesseract.js precisa uma única vez, que é um download pontual do motor, não uma assinatura ou um paywall.

Ferramentas relacionadas

Mantenha tudo local, explore ferramentas complementares.

Todas as ferramentas de PDF