PDF → извлечение текста

Извлеките весь читаемый текст из PDF. Скачайте в виде файла .txt. Всё остаётся в вашем браузере, ни один файл не отправляется на сервер.

Как работает PDF в текст

PDF в текст извлекает существующий текстовый слой из PDF и сохраняет его как обычный .txt-файл. Извлечение выполняется pdf.js внутри браузера путём чтения объектов текстового содержимого, встроенных в потоки страниц PDF. Документ не покидает устройство; результат формируется локально и предлагается для прямого скачивания.

Этот инструмент читает текстовый слой, уже присутствующий в файле. Если PDF создан текстовым процессором или инструментом экспорта, он почти наверняка имеет текстовый слой, и извлечение пройдёт хорошо. Если PDF является сканом бумажного документа, страницы содержат только данные изображений и текстового слоя для извлечения нет; в таком случае этот инструмент вернёт пустой или неполный результат. Отсканированные PDF требуют оптического распознавания символов (OCR) для получения текста - это отдельный процесс, не выполняемый данным инструментом. Прежде чем использовать инструмент, проверьте, есть ли в PDF выделяемый текст в программе просмотра.

Автор: Bastien Sulyan

PDF в текст: пошаговая инструкция

Загрузите PDF в инструмент извлечения текста.
Дождитесь, пока pdf.js прочитает текстовый слой со всех страниц.
Просмотрите предварительный просмотр извлечённого текста.
Нажмите «Скачать», чтобы сохранить .txt-файл.

Частые сценарии использования

Извлеките текст из PDF исследовательской работы для вставки в приложение для заметок или обработки суммаризатором.
Скопируйте содержимое из PDF-счёта в таблицу для бухгалтерского учёта без ручного перепечатывания.
Восстановите текст из повреждённого или замороженного-макетного PDF, в котором копирование-вставка в программе просмотра нарушено.
Конвертируйте PDF-статью в обычный текст для обработки скриптом или инструментом командной строки.

Часто задаваемые вопросы

Почему извлечённый текст для некоторых PDF выходит пустым или искажённым?

Наиболее частая причина - PDF является сканом: страницы представляют собой изображения и не содержат текстового слоя. Другие причины: PDF, где текст хранится в виде контуров или пользовательских кодировок шрифтов, которые pdf.js не может преобразовать в читаемые символы. Для отсканированных документов необходимо OCR.

Этот инструмент выполняет OCR на отсканированных PDF?

Нет. Этот инструмент читает существующий текстовый слой из PDF. Он не выполняет оптическое распознавание символов. Для отсканированных PDF используйте инструмент OCR, который передаёт изображения страниц через локальный OCR-движок в браузере.

Извлечение текста выполняется на сервере или в браузере?

В браузере. pdf.js читает структуру PDF локально, разбирает объекты текстового содержимого из каждого потока страниц и собирает вывод в памяти браузера. Данные PDF ни в какой момент этого процесса не покидают устройство.

Форматирование и макет сохранятся в текстовом выводе?

Нет. Обычный текст не несёт информации о шрифте, размере, цвете или положении. Вывод - это неформатированный текст в порядке чтения, определённом pdf.js. Таблицы, многоколоночные макеты и специальное форматирование сглаживаются. Для сохранения богатого макета лучше подходят конвертеры PDF в HTML.

Можно ли извлечь текст из PDF, защищённого паролем?

Если PDF имеет пользовательский пароль для открытия, необходимо его ввести, чтобы файл вообще был читаем. Ограничения на извлечение на уровне владельца также могут блокировать операцию. Сначала снимите эти ограничения с помощью инструмента PDF Unlock, затем повторите извлечение.

Нужно ли создавать аккаунт, чтобы извлечь текст из PDF?

Нет. Регистрация не требуется, аккаунт не нужен. Загрузите файл, просмотрите извлечённый предпросмотр и скачайте файл .txt.

Работает ли PDF в текст в мобильном браузере?

Да. pdf.js работает в браузере телефона так же, как на компьютере. Скопируйте или скачайте извлечённый текст прямо с мобильной страницы, как только извлечение завершится.