Không tải lên, 100% cục bộ, không cần tài khoản

OCR, trích xuất văn bản từ hình ảnh & PDF

Thả một hình ảnh hoặc PDF và nhận văn bản được nhận dạng. OCR chạy hoàn toàn trong trình duyệt (trên thiết bị, ngoại tuyến sau lần tải đầu), không có gì được tải lên.

Cách OCR · hình ảnh/PDF sang văn bản hoạt động

OCR, Nhan dang ky tu quang hoc (Optical Character Recognition), trich xuat van ban tu anh quet va PDF dang anh, cho ban mot ket qua co the tim kiem va sao chep. Sunasty chay Tesseract truc tiep trong trinh duyet cua ban qua WebAssembly, voi dong cu nhan dang duoc tu luu tru tren thiet bi cua ban.

Do chinh xac phu thuoc vao chat luong ban quet va ngon ngu duoc chon. Cac ban quet sac net, do tuong phan cao cua van ban in trong mot ngon ngu duoc ho tro thuong cho ket qua xuat sac; chu viet tay, ban quet do phan giai thap, cac trang co bo cuc nhieu cot phuc tap hoac chu viet hon hop se kem chinh xac hon. Hay luon kiem tra dau ra, dac biet voi ten, con so va thuat ngu ky thuat. De co ket qua tot nhat, hay deskew ban quet truoc bang cong cu PDF Deskew.

Câu hỏi thường gặp

OCR chinh xac den dau?

Do chinh xac thay doi theo chat luong ban quet, do phan giai va ngon ngu. Van ban in duoc quet o 300 DPI tro len trong mot ngon ngu duoc ho tro tot (tieng Anh, Phap, Duc, Tay Ban Nha va cac ngon ngu khac) thuong dat do chinh xac cao. Chu viet tay, ban quet do tuong phan thap, phong chu khac thuong va cac chu viet ngoai he Latin se tao ra nhieu loi hon. Hay luon doc soat lai dau ra.

Nhung ngon ngu nao duoc ho tro?

Tesseract ho tro hon 100 ngon ngu thong qua he thong goi ngon ngu cua no. Sunasty tai du lieu ngon ngu ban chon truc tiep trong trinh duyet; khong co du lieu nao duoc gui den may chu. Hay chon dung ngon ngu truoc khi xu ly, cac mo hinh ngon ngu khong khop se lam giam dang ke do chinh xac.

No co the trich xuat van ban tu mot file PDF nhieu trang khong?

Co. Moi trang duoc nhan dang theo thu tu va van ban trich xuat duoc ghep thanh mot dau ra, trang noi tiep trang. Thoi gian xu ly ti le voi so trang va do phuc tap cua moi trang.

File cua toi co bi tai len may chu khong?

Không. Việc nhận dạng chạy trên engine Tesseract được biên dịch sang WebAssembly, trong tab trình duyệt này; mô hình ngôn ngữ (traineddata) được tải một lần từ chính nguồn gốc của Sunasty và lưu vào bộ nhớ đệm, sau đó bản quét của bạn được đọc vào bộ nhớ trên thiết bị của bạn, nhận dạng tại đó, và văn bản hiển thị cục bộ. Hình ảnh của bạn không bao giờ được truyền đến Sunasty hay bên thứ ba. Mở DevTools của trình duyệt, vào tab «Network» và quan sát: không có yêu cầu nào mang theo bản quét của bạn.

No co hoat dong ngoai tuyen khong?

Co, mot khi trang da tai xong. Vi viec xu ly dien ra ngay tren thiet bi cua ban, ban co the ngat ket noi mang va cong cu van tiep tuc hoat dong. Day la bang chung ro rang nhat rang du lieu cua ban khong bao gio roi khoi may cua ban.

No co mien phi khong? Toi co can tai khoan khong?

No hoan toan mien phi va khong yeu cau dang ky. Khong co hinh mo nuoc, khong gioi han hang ngay va khong can cookie theo doi de su dung cong cu.