업로드 없음, 100% 로컬, 계정 없음

PDF → 텍스트 추출

PDF에서 읽을 수 있는 모든 텍스트를 추출합니다. .txt 파일로 다운로드하세요. 모든 것이 브라우저에 머무릅니다, 서버로 파일이 전송되지 않습니다.

PDF를 텍스트로 작동 방식

PDF to text는 PDF에 내장된 텍스트 콘텐츠를 추출해 일반 .txt 파일로 제공합니다. 문서에 저장된 문자 스트림을 읽기 때문에 OCR이 관여하지 않으며, 따라서 텍스트가 이미 기계 판독 가능한 디지털 생성 PDF의 경우 출력이 빠르고 정확합니다.

PDF가 내장 텍스트 레이어가 없는 스캔 이미지라면 대신 OCR 도구를 사용하십시오. 그 외 모든 경우, 즉 계약서, 보고서, 전자책의 경우 이 도구가 즉시 텍스트를 뽑아냅니다.

자주 묻는 질문

내 파일이 서버에 업로드되나요?

아니요. PDF의 텍스트는 Firefox가 PDF를 표시할 때 사용하는 엔진인 pdf.js에 의해 브라우저 탭 안에서 추출됩니다. 각 페이지의 문자 스트림은 getTextContent로 사용자의 기기 메모리에 읽혀 그곳에서 일반 텍스트로 조합되며, 그 결과는 로컬 .txt 다운로드로 제공됩니다. Sunasty나 제3자에게 전송되는 것은 아무것도 없습니다. 직접 확인할 수도 있습니다. 브라우저 개발자 도구를 열고 네트워크 탭으로 이동해 살펴보세요, 파일을 전송하는 요청은 하나도 없습니다.

스캔된 PDF에서도 작동하나요?

스캔 문서에 이미 내장 텍스트 레이어가 있는 경우에만 가능합니다(예를 들어 이전 OCR 처리로 추가된 경우). 순수 이미지 전용 스캔본에는 기계 판독 가능한 텍스트가 없으므로 추출 결과가 비어 있게 됩니다. 그런 경우에는 먼저 Sunasty의 OCR 도구로 텍스트 레이어를 생성하십시오.

페이지 나눔과 서식이 유지되나요?

일반 텍스트에는 레이아웃 모델이 없으므로 열, 표, 글꼴 크기 같은 풍부한 서식은 유지되지 않습니다. 얻는 것은 PDF에 저장된 텍스트 문자의 읽기 순서입니다. 단락 나눔은 근사적으로 처리되지만 복잡한 레이아웃은 수동 정리가 필요할 수 있습니다.

오프라인에서도 작동하나요?

예, 페이지가 한 번 로드된 뒤에는 가능합니다. 처리가 사용자의 기기에서 이루어지므로 네트워크 연결을 끊어도 도구가 계속 작동합니다. 이것이 데이터가 기기를 절대 떠나지 않는다는 가장 명확한 증거입니다.

무료인가요? 계정이 필요한가요?

완전히 무료이며 가입이 필요 없습니다. 워터마크도, 일일 사용 제한도, 도구 사용에 필요한 추적 쿠키도 없습니다.