PDF → 텍스트 추출

PDF에서 읽을 수 있는 모든 텍스트를 추출합니다. .txt 파일로 다운로드하세요. 모든 것이 브라우저에 머무릅니다, 서버로 파일이 전송되지 않습니다.

PDF를 텍스트로 작동 방식

PDF to Text는 PDF에 이미 존재하는 텍스트 레이어를 추출하여 일반 .txt 파일로 저장합니다. 추출은 브라우저 안의 pdf.js가 수행하며, PDF 페이지 스트림에 포함된 텍스트 콘텐츠 객체를 읽습니다. 문서는 기기를 벗어나지 않으며, 결과는 로컬에서 조립되어 직접 다운로드로 제공됩니다.

이 도구는 파일에 이미 존재하는 텍스트 레이어를 읽습니다. 워드 프로세서나 내보내기 도구로 생성한 PDF에는 거의 확실히 텍스트 레이어가 있어 추출이 잘 됩니다. PDF가 종이 문서를 스캔한 것이라면 페이지에 이미지 데이터만 있고 텍스트 레이어가 없으므로, 이 도구는 빈 출력이나 불완전한 출력을 반환합니다. 스캔된 PDF에서 텍스트를 추출하려면 광학 문자 인식(OCR)이 필요하며, 이는 이 도구가 수행하는 별도의 프로세스입니다. 이 도구를 사용하기 전에 뷰어에서 PDF의 텍스트를 선택할 수 있는지 확인하세요.

작성자: Bastien Sulyan

PDF를 텍스트로 단계별 사용 방법

텍스트 추출 도구에 PDF를 불러옵니다.
pdf.js가 모든 페이지에서 텍스트 레이어를 읽을 때까지 기다립니다.
추출된 텍스트 미리보기를 검토합니다.
다운로드를 클릭해 .txt 파일을 저장합니다.

자주 사용되는 사례

연구 논문 PDF의 텍스트를 추출하여 메모 앱에 붙여넣거나 요약기를 통해 처리하는 경우.
수동으로 다시 입력하지 않고 PDF 청구서에서 내용을 회계용 스프레드시트로 가져오는 경우.
뷰어에서 복사-붙여넣기가 작동하지 않는 손상되거나 레이아웃이 고정된 PDF에서 텍스트를 복구하는 경우.
스크립트나 커맨드라인 도구로 처리하기 위해 PDF 기사를 일반 텍스트로 변환하는 경우.

자주 묻는 질문

일부 PDF에서 추출된 텍스트가 비어 있거나 깨지는 이유는 무엇인가요?

가장 흔한 원인은 PDF가 스캔본이라는 것입니다. 페이지가 이미지이고 텍스트 레이어가 없습니다. 다른 원인으로는 텍스트가 윤곽선으로 저장되어 있거나 pdf.js가 읽을 수 있는 문자로 매핑할 수 없는 커스텀 폰트 인코딩을 사용하는 경우가 있습니다. 스캔된 문서에서는 OCR이 필요합니다.

이 도구가 스캔된 PDF에 OCR을 수행하나요?

아닙니다. 이 도구는 PDF의 기존 텍스트 레이어를 읽습니다. 광학 문자 인식을 수행하지 않습니다. 스캔된 PDF에는 OCR 도구를 사용하세요. OCR 도구는 브라우저 안의 로컬 OCR 엔진을 통해 페이지 이미지를 처리합니다.

텍스트 추출이 서버에서 이루어지나요, 브라우저에서 이루어지나요?

브라우저에서 이루어집니다. pdf.js는 PDF 구조를 로컬에서 읽고, 각 페이지 스트림에서 텍스트 콘텐츠 객체를 파싱하며, 출력을 브라우저 메모리에서 조립합니다. 이 과정에서 PDF 데이터는 기기를 벗어나지 않습니다.

텍스트 출력에서 서식과 레이아웃이 보존되나요?

아닙니다. 일반 텍스트는 폰트, 크기, 색상, 위치 정보를 담지 않습니다. 출력은 pdf.js가 결정한 읽기 순서로 서식 없는 텍스트입니다. 표, 다단 레이아웃, 특수 서식은 평탄화됩니다. 레이아웃을 풍부하게 보존하려면 PDF to HTML 변환기가 더 적합합니다.

비밀번호로 보호된 PDF에서 텍스트를 추출할 수 있나요?

PDF에 사용자 비밀번호가 설정되어 있다면 파일을 읽기 위해 먼저 입력해야 합니다. 소유자 수준의 추출 제한도 작업을 차단할 수 있습니다. 먼저 PDF 잠금 해제 도구로 그 제한을 제거한 뒤 추출을 다시 시도하세요.

PDF에서 텍스트를 추출하려면 계정을 만들어야 하나요?

아니요. 가입도 계정도 필요 없습니다. 파일을 끌어다 놓고 추출된 미리보기를 확인한 뒤 .txt 파일을 다운로드하세요.

PDF to Text가 모바일 브라우저에서도 작동하나요?

네. pdf.js는 데스크톱과 동일한 방식으로 휴대폰 브라우저에서도 작동합니다. 추출이 끝나면 모바일 페이지에서 바로 텍스트를 복사하거나 다운로드할 수 있습니다.