업로드 없음, 100% 로컬, 계정 없음

OCR, 이미지 및 PDF에서 텍스트 추출

이미지나 PDF를 놓으면 인식된 텍스트를 얻습니다. OCR은 전적으로 브라우저에서(기기 내, 첫 로드 이후 오프라인) 실행됩니다, 아무것도 업로드되지 않습니다.

OCR · 이미지/PDF를 텍스트로 작동 방식

OCR, 광학 문자 인식, 은 스캔된 이미지와 이미지 기반 PDF에서 텍스트를 추출하여, 검색 및 복사가 가능한 결과물을 제공합니다. Sunasty는 WebAssembly를 통해 Tesseract를 실행하므로, 인식 엔진이 사용자의 기기에 자체 호스팅됩니다.

정확도는 스캔 품질과 선택한 언어에 따라 달라집니다. 지원되는 언어로 된 인쇄 텍스트를 선명하고 명암 대비가 높게 스캔한 경우 보통 우수한 결과를 얻습니다. 손글씨, 저해상도 스캔, 복잡한 다단 레이아웃이나 혼합된 문자 체계가 있는 페이지는 정확도가 떨어집니다. 특히 이름, 숫자, 전문 용어는 결과를 항상 검토하세요. 최상의 결과를 위해서는 먼저 PDF 기울기 보정 도구로 스캔을 바로잡으세요.

자주 묻는 질문

OCR은 얼마나 정확한가요?

정확도는 스캔 품질, 해상도, 언어에 따라 달라집니다. 잘 지원되는 언어(영어, 프랑스어, 독일어, 스페인어 등)로 된 인쇄 텍스트를 300 DPI 이상으로 스캔하면 보통 높은 정확도를 얻습니다. 손글씨, 명암 대비가 낮은 스캔, 특이한 폰트, 비라틴 문자 체계는 오류가 더 많이 발생합니다. 결과는 항상 교정하세요.

어떤 언어가 지원되나요?

Tesseract는 언어 팩 시스템을 통해 100개 이상의 언어를 지원합니다. Sunasty는 선택한 언어 데이터를 브라우저에서 직접 로드하며, 서버로 데이터를 전송하지 않습니다. 처리 전에 올바른 언어를 선택하세요, 언어 모델이 맞지 않으면 정확도가 크게 떨어집니다.

여러 페이지 PDF에서 텍스트를 추출할 수 있나요?

네. 각 페이지가 순서대로 인식되고, 추출된 텍스트가 페이지별로 하나의 결과물로 조합됩니다. 처리 시간은 페이지 수와 각 페이지의 복잡도에 따라 늘어납니다.

제 파일이 서버에 업로드되나요?

아니요. 인식은 이 브라우저 탭 안에서 WebAssembly로 컴파일된 Tesseract 엔진으로 실행됩니다. 언어 모델(traineddata)은 Sunasty 자체 출처에서 한 번만 가져와 캐시되며, 그런 다음 스캔 이미지가 사용자 기기의 메모리로 읽혀 그 자리에서 인식되고 텍스트가 로컬에 표시됩니다. 당신의 이미지는 Sunasty나 제3자에게 절대 전송되지 않습니다. 브라우저 DevTools를 열고 'Network' 탭을 보세요. 당신의 스캔을 실어 보내는 요청은 하나도 없습니다.

오프라인에서도 작동하나요?

네, 페이지가 한번 로드된 후에는 작동합니다. 처리가 사용자의 기기에서 이루어지기 때문에, 네트워크 연결을 끊어도 도구는 계속 작동합니다. 이것이 데이터가 절대 기기를 벗어나지 않는다는 가장 명확한 증거입니다.

무료인가요? 계정이 필요한가요?

완전히 무료이며 가입이 필요 없습니다. 워터마크도, 일일 사용 제한도, 도구 사용에 필요한 추적 쿠키도 없습니다.