🔍图像 OCR (光学字符识别)
从图像中提取文字。使用Tesseract.js韩文模型。适合发票录入、书籍/文档照片数字化、截图文字复制、名片信息提取、手写识别(有限)等场景。
🔒 浏览器内处理✓ 无水印✓ 无需注册
使用方法
- 1上传含文字的图像。
- 2选择语言(韩/英/韩+英/日等)。
- 3点击开始OCR按钮。
- 4复制识别出的文本或保存为.txt。
常见问题
识别率怎样?+
高分辨率印刷体韩文文档可达90%+。手写、倾斜照片、低分辨率会降到50~70%。会同时显示置信度评分。
为什么首次使用慢?+
首次使用会下载韩文训练数据(约10MB)。之后会缓存到浏览器中变快。
PDF中的文字也能提取吗?+
PDF不能直接处理。请用[PDF转图像]后再OCR。数字PDF用[PDF文本提取]比OCR更精确。
可以一次处理多张吗?+
目前每次一张。批量OCR耗时长,建议用桌面工具。
支持中文、日文吗?+
可选日语、简体中文、繁体中文模型。汉字建议用日语或中文模型。
图像会传到外部吗?+
不会。Tesseract.js以WebAssembly在浏览器内处理,图像与结果均不外传。
什么样的图像OCR效果好?+
(1)字号12pt以上、(2)文字与背景对比明显、(3)拍摄垂直、(4)无抖动。书页摊平由上方拍摄最准。