OCR, 이미지 및 PDF에서 텍스트 추출

이미지나 PDF를 놓으면 인식된 텍스트를 얻습니다. OCR은 전적으로 브라우저에서(기기 내, 첫 로드 이후 오프라인) 실행됩니다, 아무것도 업로드되지 않습니다.

OCR · 이미지/PDF를 텍스트로 작동 방식

OCR 도구는 스캔된 이미지나 이미지 기반 PDF를 복사, 검색, 편집 가능한 텍스트로 변환합니다. 브라우저 안에서 완전히 실행되는 tesseract.js를 사용합니다. 선택기에서 문서 언어를 선택하면 해당 언어 모델이 브라우저에 한 번 다운로드되고, 이후의 모든 인식 작업은 캐시된 모델로 오프라인에서 실행됩니다. 스캔된 파일은 변환 중 어떤 서버에도 전송되지 않습니다.

인식 정확도는 스캔 품질에 크게 의존합니다. 200 DPI 이상에서 깨끗하고 대비가 높게 스캔된 페이지, 배경 노이즈가 적고 페이지가 반듯하게 정렬된 경우가 최상의 결과를 냅니다. 흐릿하거나 저해상도이거나 심하게 압축된 JPEG, 단이 있거나 복잡한 레이아웃의 페이지, 손으로 쓴 텍스트는 모두 정확도를 떨어뜨립니다. 이 도구는 일반 텍스트 블록을 출력합니다. 표를 보존하거나 다단 레이아웃을 유지하는 구조화된 출력이 필요하다면 후처리가 필요합니다. 비뚤어진 스캔에 OCR을 실행하기 전에 PDF 기울기 보정 도구를 먼저 사용하면 인식률이 향상됩니다.

작성자: Bastien Sulyan

OCR · 이미지/PDF를 텍스트로 단계별 사용 방법

스캔된 이미지(PNG, JPG, TIFF) 또는 이미지 기반 PDF를 업로드 영역에 끌어다 놓습니다.
언어 드롭다운에서 문서의 주요 언어를 선택합니다.
해당 언어를 처음 사용하는 경우 언어 모델이 다운로드될 때까지 기다립니다(한 번만 발생).
텍스트 추출을 클릭하고 tesseract.js가 각 페이지를 처리할 때까지 기다립니다.
인식된 텍스트를 복사하거나 일반 텍스트 파일로 다운로드합니다.

자주 사용되는 사례

스캔된 영수증의 항목을 스프레드시트로 추출해야 하는 경우, OCR을 실행하여 텍스트를 얻은 뒤 회계 소프트웨어에 붙여넣는 경우.
스캔된 학술지 기사 아카이브를 텍스트 검색 가능하게 만들어야 하는 경우, 인덱싱을 위해 각 기사를 OCR로 텍스트로 변환하는 경우.
회의에서 찍은 화이트보드 사진에 있는 메모를 편집 가능한 문서로 변환해야 하는 경우.
번역을 위해 독일어로 된 역사적 스캔 문서의 텍스트를 추출해야 하는 경우, OCR 실행 전에 독일어를 언어로 선택하는 경우.

자주 묻는 질문

OCR이 작동하기 전에 언어 모델을 다운로드해야 하는 이유는 무엇인가요?

tesseract.js는 각 언어에 특화된 훈련된 신경망 데이터 파일을 사용합니다. 이 파일은 각각 수 메가바이트 크기로, 해당 언어를 처음 선택할 때 이 사이트에서 한 번 다운로드됩니다(제3자 CDN이 아니라 저희가 직접 호스팅합니다). 초기 다운로드 후 모델이 브라우저에 캐시되어, 이후 그 언어의 모든 인식 작업이 완전히 오프라인에서 실행됩니다.

OCR 정확도에 가장 큰 영향을 미치는 요소는 무엇인가요?

스캔 해상도(최소 200 DPI, 권장 300 DPI), 이미지 선명도, 텍스트와 배경 간의 대비, 페이지가 반듯한지 여부가 정확도에 크게 영향을 줍니다. 심하게 압축된 JPEG 스캔, 매우 작은 폰트, 혼합 방향 또는 복잡한 단 레이아웃이 있는 페이지가 인식 오류의 가장 흔한 원인입니다.

OCR이 손으로 쓴 텍스트를 읽을 수 있나요?

tesseract.js는 주로 인쇄된 텍스트로 훈련되어 있습니다. 필기 인식 정확도는 특히 필기체의 경우 일반적으로 낮고 신뢰하기 어렵습니다. 손으로 쓴 문서에는 전용 필기 인식 도구가 더 나은 결과를 냅니다.

텍스트 추출 중에 내 스캔 문서가 어딘가로 전송되나요?

아닙니다. 언어 모델이 캐시된 후, 모든 인식 작업은 tesseract.js를 사용해 브라우저 안에서만 이루어집니다. 스캔 문서에는 개인 정보나 기밀 콘텐츠가 포함될 수 있습니다. 이 로컬 전용 처리 방식 덕분에 그 콘텐츠는 서버에 도달하지 않습니다.

이 도구가 원본 스캔의 레이아웃을 보존하나요?

출력은 읽기 순서의 일반 텍스트 스트림입니다. 표, 단, 헤더 등 레이아웃 요소는 구조로 보존되지 않습니다. 텍스트 콘텐츠만 출력됩니다. 레이아웃을 보존하는 출력을 위해서는 레이아웃 분석이 있는 더 고급 OCR 파이프라인이 필요합니다.

이미 선택 가능한 텍스트가 있는 PDF에 OCR을 적용할 수 있나요?

이 도구는 각 페이지가 포함된 텍스트 없는 래스터 이미지인 이미지 기반 PDF를 처리할 수 있습니다. PDF에 이미 텍스트 레이어가 있다면(뷰어에서 텍스트를 선택하고 복사할 수 있다면), OCR을 실행할 필요가 없습니다. 기존 텍스트 레이어가 인식 단계 없이 동일한 정보를 제공합니다.

휴대폰으로 찍은 사진에도 OCR을 실행할 수 있나요?

네, tesseract.js는 모바일 브라우저에서도 작동하므로 사진을 찍은 바로 그 휴대폰에서 이 페이지를 열어도 됩니다. 비스듬히 찍거나 조명이 고르지 않은 사진은 평판 스캐너로 스캔한 것보다 인식률이 떨어지므로, 촬영본을 먼저 반듯하게 펴고 배경을 잘라내면 도움이 됩니다.

OCR을 사용하려면 계정을 만들거나 비용을 내야 하나요?

아니요. 가입도 비용도 없습니다. 유일한 다운로드는 tesseract.js에 필요한 언어 모델뿐이며, 이는 구독이나 유료화 장벽이 아니라 일회성 엔진 다운로드입니다.