测试环境:
MacBook pro , m1 pro, MacOS 13.
一、不同标的图片的测试
(1)测试标的:文字截图
识别这个图里的文字(分辨率1514×712 180KB)
图1 中文文字
默认是识别成英文
MacBook-Pro-3:ocr $ tesseract 1.png output
Estimating resolution as 366
MacBook-Pro-3:ocr $ ls
1.png output.txt testocr.py
识别效果,中文也被识别成英文,肯定错了
MacBook-Pro-3:ocr $ cat output.txt
- ) ZAetesseract —EL php
@ A—E. LBRE, Tesseract #] PHP ZHSZAREHKMAA. Tesseract Z—t
OCR (42S) S|, Tl PHP 2—HAF Web FH ANMEES. ENSES
MAINES, ALES ORE.
AZLENESH, RGF BRIE PHP HER, AAGHAAAPWULEE—TS
PHP 223248 cHI. Am, 52H Tesseract TX. MRBRBSRE
Tesseract, FLAMERS PHP HEBD.
Bese Tesseract, ae ras:
要识别中文,则要安装中文语言模型
brew install tesseract-lang
识别命令
MacBook-Pro-3:ocr $ tesseract 1.png output1 -l chi_sim
Estimating resolution as 366
识别效果
MacBook-Pro-3:ocr $ cat output1.txt
(全 安装tesseract 一定要安装php吗
于 不一定。实际上,Tesseract 和 PHP 之间没有直接的依赖关系。Tesseract 是一个
OCR (光学字符识别) 引擎,而 PHP 是一种用于 Web 开发的编程语言。它们各自完
成不同的任务,您可以根据需要分别安装它们。
在上面的回答中,我提到了重新安装 PHP 的步骤,因为您的系统中似乎存在一个与
PHP 安装相关的问题。然而,这与安装 Tesseract 无关。如果您只需要安装
Tesseract,可以忽略关于 PHP 的部分。
要安装 Tesseract,请使用以下命令:
除了红色那两个图标识别成文字, 其它都正确识别出来了。
(2)测试标的:扫描的图像截图
待识别图片,识别答题卡选项里的文字 (分辨率250×278, 41KB)
图2 扫描答题卡选项文字
识别命令
`tesseract 2.png output`
识别效果:可以看到识别效果很差,基本上没法使用
MacBook-Pro-3:ocr $ cat output.txt
(9 (21 (c) (1 (=)
[A] 1 [C) [0] (E]
{A] [8] (@) (0) (E]
(Al fe) fc) #8 Ce1
(al (a) fc) (07
换中文识别一下
tesseract 2.png output -l chi_sim
识别效果:同样很差
MacBook-Pro-3:ocr martin$ cat output.txt
喉回四四加
Im] 鄙 [c] [D] [E]
fiA] iB] 网 [D] [E]
melo滥日
mm bl [ol 出
为什么选项卡里的识别效果这么差?是分辨率影响吗?那么我们来试试
二、分辨率对识别效果的影响
(1)同样是图1内容,分辨率(757 × 356, 180KB) ,用中文识别效果
人 安装tesseract 一定要安装php吗
伟 不一定 实际上,Tesseract 和PHP 之间没有直接的依赖关系。Tesseract 是一个
OCR (光学字符识别) 引擎,而 PHP 是一种用于 Web 开发的编程语言。它们各自完
成不同的任务,您可以根据需要分别安装它们。
在上面的回答中,我提到了重新安装 PHP 的步骤,因为您的系统中似乎存在一个与
PHP 安装相关的问题。然而,这与安装 Tesseract 无关。如果您只需要安装
Tesseract,可以忽略关于 PHP 的部分。
要安装 Tesseract,请使用以下命令:
(2)同样是图1内容,分辨率(379 × 178, 53KB) ,用中文识别效果
图sanoc -rasaoa
图 于-让 RE Teaaaine 2 Tuei是-个
CocR Gy 有, 而 HP 是一和用于Web 的 它站
和HR
在上而的国和中,开打了新安装PHP 的步要因为和的系抽中人了在一个与
PHP 实相关的是。,过与安装 Teseract 天关。和人只和要安
Teeeenact 且以有关于Ph 的部分-
和Teserect, 请人用以下雪人
人还可以识别, 但是tesseract已经傻了,识别不出来了。
总结
目前做的两个场景图片的测试,分辨率对识别的影响很大。在分辨率相对较低的情况下,识别结果不准确,但到达一定的分辨率就可以了100%了。具体到哪个程度,目前还没有量化的数据。我想应该是每个文字占多少个像素点之类的指标。
扫描的选项卡图片目前还没有不同的分辨率,后面再测一下。
在tesseract提升ocr识别率方面, 读友有何高见,欢迎留言交流