程序员文章、书籍推荐和程序员创业信息与资源分享平台

网站首页 > 技术文章 正文

Python自动化办公——提取图片上的文字(OCR)

hfteth 2025-07-06 12:17:02 技术文章 2 ℃

使用Python自动化办公时,当我们需要识别/提取别的软件上的文字信息时,可以使用OCR技术,即先截图,然后识别图片上的文字。

Python识别图片上文字的方式

1. 使用OCR技术:OCR(Optical Character Recognition,光学字符识别)是一种将图像中的文字转换为可编辑文本的技术。Python中有多个OCR库可供使用,如Tesseract、pytesseract、OCRopus等。

2. 使用深度学习模型:深度学习模型可以通过训练来识别图像中的文字。这种方式应用比较广泛,除了可以识别文字,还可以进行图像识别,比如人脸识别。

3. 使用传统的图像处理技术:传统的图像处理技术可以通过对图像进行预处理、分割、特征提取等步骤来识别图像中的文字。Python中有多个图像处理库可供使用,如OpenCV、Pillow等。

综上所述,识别文字,最合适的还是OCR技术,本节也只学习OCR技术。

Python识别图片上文字的方式

1. 使用Tesseract OCR引擎:Tesseract是一个开源的OCR引擎,由Google开发。Python中可以使用pytesseract库来调用Tesseract进行OCR识别。它的优点是识别准确率高,支持中英等多种语言。缺点是对于复杂的图像和文档格式支持不够好。我们就采用这种方式吧。

2. 使用OCRopus:OCRopus是一个基于Python的OCR框架,可以用于训练和识别OCR模型。它的优点是支持多种OCR技术和模型,可以自定义训练模型,且对于复杂的图像和文档格式支持较好。缺点是学习曲线较陡峭,需要一定的编程和机器学习知识。

3. 使用EasyOCR:EasyOCR是一个基于深度学习的OCR库,可以识别多种语言的文字。它的优点是识别准确率高,支持多种语言和字体。第一次使用时需下载他训练好的模型。

4. 使用百度/阿里等OCR API:这些云API功能强大,但需联网且不免费。

python使用Tesseract OCR

1、安装Tesseract OCR引擎

先到这里下载安装引擎:
https://digi.bib.uni-mannheim.de/tesseract/


当前最新的是5.3.1,就选最新的这一条吧。


安装到这一步时注意,把下面两个展开,勾选中文数据,这样才能识别中文,如下图:



然后一路下一步,就完成啦!

然后还需要将其加入环境变量,默认安装路径为:C:\Program Files\Tesseract-OCR,加入到Path里面就可以了。

2、Python代码调用引擎的方式

pytesseract常用的有3个方法:

1. image_to_string函数:该函数可以对图片进行OCR识别,返回识别结果。函数的参数为加载的图片对象,可以指定识别语言、识别配置等参数。例如:

import pytesseract
from PIL import Image
# 加载图片
img = Image.open('test.png')
# 调用pytesseract库进行识别
text = pytesseract.image_to_string(img, lang='eng', config='--psm 6')
# 输出识别结果
print(text)

2. image_to_boxes函数:该函数可以对图片进行OCR识别,返回每个字符的位置和大小信息。例如:

import pytesseract
from PIL import Image
# 加载图片
img = Image.open('test.png')
# 调用pytesseract库进行识别
boxes = pytesseract.image_to_boxes(img, lang='eng')
# 输出每个字符的位置和大小信息
for b in boxes.splitlines():
b = b.split(' ')
print(b[0], b[1], b[3], b[4])

3. image_to_data函数:该函数可以对图片进行OCR识别,返回每个识别结果的详细信息,包括位置、大小、置信度等。例如:

import pytesseract
from PIL import Image
# 加载图片
img = Image.open('test.png')
# 调用pytesseract库进行识别
data = pytesseract.image_to_data(img, lang='eng', output_type=pytesseract.Output.DICT)
# 输出每个识别结果的详细信息
for i, text in enumerate(data['text']):
print(text, data['left'][i], data['top'][i], data['width'][i], data['height'][i], data['conf'][i])

3、测试

我准备了一些图片,来测试一下识别效果。

代码如下:

import pytesseract
from PIL import Image

img = Image.open('images/testocr_1.png')

text = pytesseract.image_to_string(img, lang='chi_sim')

print(text)

原图及识别结果如下:


这张图是我在百度上随便截取的一张图,可以看到识别的结果有一些错别字,但整体效果还可以。



这张是天天基金上的截图,大部分正确,也还行。



关于数字的识别基本正确。识别结果排版很乱,实际使用时,可以先将图片切割成一小块一小块,然后识别即可。



验证码的识别是有一定难度的,建议使用专业的工具。






百度图片上随便找了两个证件照,基本无法正确识别。还是得专业工具来。


这张图是我随便拍的一张照片,由于书并未放平,中间有一些凸出,导致识别结果不是很理想。如果放平效果应该会好一些。

总结

本次学习调研结束,Tesseract是基本可以满足自动化办公的需求。自动化办公中大多是屏幕上的截图,识别效果还是可以的。

Tags:

最近发表
标签列表