사용법
스캔한 PDF에서 텍스트 추출하기
스캔한 PDF는 본질적으로 페이지를 찍은 사진입니다. 텍스트는 제대로 보이지만 문자가 아니라 픽셀로 저장되어 있어 선택하거나 검색하거나 복사할 수 없습니다. 광학 문자 인식(OCR)은 그 픽셀을 실제 텍스트로 되돌려, 문서에 붙여 넣거나 Ctrl+F로 검색하거나 나중을 위해 색인할 수 있게 해줍니다. 이 가이드는 기기 내 OCR 엔진을 사용하므로, 여러분의 스캔본은 절대 컴퓨터를 벗어나지 않습니다.
단계별 안내
- OCR 도구를 열고 스캔한 PDF나 이미지 파일을 끌어다 놓으세요. 이 도구는 PDF, PNG, JPEG, WebP를 비롯한 여러 이미지 형식을 받습니다. 여러 페이지로 된 스캔본이라면 PDF 형식이 가장 편리한 단일 입력입니다.
- 문서 안 텍스트의 언어를 선택하세요. 기본값은 영어입니다. 올바른 언어를 고르면 OCR 엔진이 알맞은 문자 형태를 선택하는 데 도움이 되고, 악센트 문자와 로케일 특유의 구두점에서 정확도가 높아집니다.
- 실행을 클릭하고 OCR이 끝날 때까지 기다리세요. 엔진(WebAssembly로 컴파일된 Tesseract)은 전적으로 브라우저에서 실행됩니다. 최신 기기에서 A4 한 페이지를 처리하는 데 몇 초가 걸립니다. 결과는 다운로드하고 복사할 수 있는 일반 텍스트 파일입니다.
OCR 품질이 스캔 품질에 어떻게 좌우되는가
OCR 정확도는 입력 품질이 좌우합니다. 인쇄된 문서를 300 DPI로 깨끗하게 스캔한 것(레이저 프린터나 복사기 출력물)은 거의 완벽한 결과를 냅니다. 어두운 조명에서 비스듬히 찍은 흐릿한 휴대폰 사진은 잘못 읽힌 문자, 붙어버린 단어, 누락된 줄과 함께 훨씬 나쁜 출력을 만듭니다. 결과가 나쁘다면 원본 스캔을 개선해 보세요. 좋은 빛 아래에서 페이지를 정면으로, 평평하게 펴서 찍으세요. PDF 기울기 보정 도구로 약간 회전된 스캔본을 OCR에 돌리기 전에 똑바로 펼 수 있습니다.
추출한 텍스트로 할 수 있는 일
출력은 인식된 문자가 읽는 순서대로 담긴 일반 텍스트 파일입니다. 워드 프로세서에 붙여 넣거나, 검색하거나, 번역하거나, 편집할 문서의 출발점으로 사용할 수 있습니다. 검색 가능한 PDF(원본 페이지 이미지 위에 보이지 않는 텍스트 계층을 덧입힌 것)를 원한다면 보통 Adobe Acrobat이나 OCRmyPDF 같은 전용 데스크톱 소프트웨어를 사용합니다. 여기 기기 내 도구는 일반 텍스트만 출력하는데, 이것이 대부분의 용도에서 실제로 필요한 것입니다.
이 가이드에서 사용하는 도구
자주 묻는 질문
제 스캔본이 원격 서버로 업로드되나요?
아니요. Tesseract는 WebAssembly로 컴파일되어 브라우저 탭 안에서 직접 실행됩니다. 언어 모델(빠른 영어 모델 기준 약 4MB)은 이 사이트에서 한 번 다운로드된 뒤 오프라인 사용을 위해 캐시된 채로 남습니다. 여러분의 파일은 로컬 디스크에서 읽어 메모리에서 처리되며 절대 어떤 서버로도 전송되지 않습니다. 이 점은 스캔한 계약서, 의료 문서, 개인 서신에서 특히 중요합니다.
제 문서에서 OCR 출력이 불완전한 이유는 무엇인가요?
OCR 오류는 스캔 품질(낮은 해상도, 흐림, 기울어짐, 그림자)이나 독특한 글꼴과 레이아웃에서 비롯됩니다. 페이지가 완벽하게 똑바르지 않다면 먼저 기울기 보정 도구를 써보세요. 손글씨 텍스트의 경우 Tesseract의 정확도가 크게 떨어집니다. 손글씨가 아니라 인쇄된 문자로 학습되었기 때문입니다. 혼합 문서(인쇄된 텍스트에 손글씨 서명이 더해진 것)에서는 인쇄된 부분은 보통 제대로 나오고 손글씨 부분은 깨지거나 누락됩니다.