🔍图像 OCR (光学字符识别)

从图像中提取文字。使用Tesseract.js韩文模型。适合发票录入、书籍/文档照片数字化、截图文字复制、名片信息提取、手写识别(有限)等场景。

🔒 浏览器内处理✓ 无水印✓ 无需注册

使用方法

识别率怎样?+

高分辨率印刷体韩文文档可达90%+。手写、倾斜照片、低分辨率会降到50~70%。会同时显示置信度评分。

为什么首次使用慢?+

首次使用会下载韩文训练数据(约10MB)。之后会缓存到浏览器中变快。

PDF中的文字也能提取吗?+

PDF不能直接处理。请用[PDF转图像]后再OCR。数字PDF用[PDF文本提取]比OCR更精确。

可以一次处理多张吗?+

目前每次一张。批量OCR耗时长,建议用桌面工具。

支持中文、日文吗?+

可选日语、简体中文、繁体中文模型。汉字建议用日语或中文模型。

图像会传到外部吗?+

不会。Tesseract.js以WebAssembly在浏览器内处理,图像与结果均不外传。

什么样的图像OCR效果好?+

(1)字号12pt以上、(2)文字与背景对比明显、(3)拍摄垂直、(4)无抖动。书页摊平由上方拍摄最准。