网站首页 > 技术文章 正文
使用Python自动化办公时,当我们需要识别/提取别的软件上的文字信息时,可以使用OCR技术,即先截图,然后识别图片上的文字。
Python识别图片上文字的方式
1. 使用OCR技术:OCR(Optical Character Recognition,光学字符识别)是一种将图像中的文字转换为可编辑文本的技术。Python中有多个OCR库可供使用,如Tesseract、pytesseract、OCRopus等。
2. 使用深度学习模型:深度学习模型可以通过训练来识别图像中的文字。这种方式应用比较广泛,除了可以识别文字,还可以进行图像识别,比如人脸识别。
3. 使用传统的图像处理技术:传统的图像处理技术可以通过对图像进行预处理、分割、特征提取等步骤来识别图像中的文字。Python中有多个图像处理库可供使用,如OpenCV、Pillow等。
综上所述,识别文字,最合适的还是OCR技术,本节也只学习OCR技术。
Python识别图片上文字的方式
1. 使用Tesseract OCR引擎:Tesseract是一个开源的OCR引擎,由Google开发。Python中可以使用pytesseract库来调用Tesseract进行OCR识别。它的优点是识别准确率高,支持中英等多种语言。缺点是对于复杂的图像和文档格式支持不够好。我们就采用这种方式吧。
2. 使用OCRopus:OCRopus是一个基于Python的OCR框架,可以用于训练和识别OCR模型。它的优点是支持多种OCR技术和模型,可以自定义训练模型,且对于复杂的图像和文档格式支持较好。缺点是学习曲线较陡峭,需要一定的编程和机器学习知识。
3. 使用EasyOCR:EasyOCR是一个基于深度学习的OCR库,可以识别多种语言的文字。它的优点是识别准确率高,支持多种语言和字体。第一次使用时需下载他训练好的模型。
4. 使用百度/阿里等OCR API:这些云API功能强大,但需联网且不免费。
python使用Tesseract OCR
1、安装Tesseract OCR引擎
先到这里下载安装引擎:
https://digi.bib.uni-mannheim.de/tesseract/
当前最新的是5.3.1,就选最新的这一条吧。
安装到这一步时注意,把下面两个展开,勾选中文数据,这样才能识别中文,如下图:
然后一路下一步,就完成啦!
然后还需要将其加入环境变量,默认安装路径为:C:\Program Files\Tesseract-OCR,加入到Path里面就可以了。
2、Python代码调用引擎的方式
pytesseract常用的有3个方法:
1. image_to_string函数:该函数可以对图片进行OCR识别,返回识别结果。函数的参数为加载的图片对象,可以指定识别语言、识别配置等参数。例如:
import pytesseract
from PIL import Image
# 加载图片
img = Image.open('test.png')
# 调用pytesseract库进行识别
text = pytesseract.image_to_string(img, lang='eng', config='--psm 6')
# 输出识别结果
print(text)
2. image_to_boxes函数:该函数可以对图片进行OCR识别,返回每个字符的位置和大小信息。例如:
import pytesseract
from PIL import Image
# 加载图片
img = Image.open('test.png')
# 调用pytesseract库进行识别
boxes = pytesseract.image_to_boxes(img, lang='eng')
# 输出每个字符的位置和大小信息
for b in boxes.splitlines():
b = b.split(' ')
print(b[0], b[1], b[3], b[4])
3. image_to_data函数:该函数可以对图片进行OCR识别,返回每个识别结果的详细信息,包括位置、大小、置信度等。例如:
import pytesseract
from PIL import Image
# 加载图片
img = Image.open('test.png')
# 调用pytesseract库进行识别
data = pytesseract.image_to_data(img, lang='eng', output_type=pytesseract.Output.DICT)
# 输出每个识别结果的详细信息
for i, text in enumerate(data['text']):
print(text, data['left'][i], data['top'][i], data['width'][i], data['height'][i], data['conf'][i])
3、测试
我准备了一些图片,来测试一下识别效果。
代码如下:
import pytesseract
from PIL import Image
img = Image.open('images/testocr_1.png')
text = pytesseract.image_to_string(img, lang='chi_sim')
print(text)
原图及识别结果如下:
这张图是我在百度上随便截取的一张图,可以看到识别的结果有一些错别字,但整体效果还可以。
这张是天天基金上的截图,大部分正确,也还行。
关于数字的识别基本正确。识别结果排版很乱,实际使用时,可以先将图片切割成一小块一小块,然后识别即可。
验证码的识别是有一定难度的,建议使用专业的工具。
百度图片上随便找了两个证件照,基本无法正确识别。还是得专业工具来。
这张图是我随便拍的一张照片,由于书并未放平,中间有一些凸出,导致识别结果不是很理想。如果放平效果应该会好一些。
总结
本次学习调研结束,Tesseract是基本可以满足自动化办公的需求。自动化办公中大多是屏幕上的截图,识别效果还是可以的。
猜你喜欢
- 2025-07-06 Python学不会来打我(48)正则表达式爬取网易云音乐
- 2025-07-06 Python 爬虫项目实战(一):爬取某云热歌榜歌曲
- 2025-07-06 有哪些好玩的 Python 代码?(有什么好玩的python代码)
- 2025-07-06 用python分析你的朋友圈,很好玩~
- 2025-07-06 真香,Python爬取B站弹幕原来如此简单,源码已附在文末
- 2025-07-06 Python学不会来打我(100)python将语音识别为文字
- 2025-07-06 python冷门操作-13.wordcloud干货
- 2025-07-06 R文本挖掘:词云图怎么做,worldcloud2初识
- 2025-07-06 运营干货:词云分析解决玩家诉求(词云步骤)
- 2025-07-06 Python数据分析实战-对列表里面的元素绘制词云图(附源码)
- 277℃Python短文,Python中的嵌套条件语句(六)
- 276℃python笔记:for循环嵌套。end=""的作用,图形打印
- 273℃PythonNet:实现Python与.Net代码相互调用!
- 268℃Python实现字符串小写转大写并写入文件
- 267℃Python操作Sqlserver数据库(多库同时异步执行:增删改查)
- 126℃原来2025是完美的平方年,一起探索六种平方的算吧
- 110℃Ollama v0.4.5-v0.4.7 更新集合:Ollama Python 库改进、新模型支持
- 107℃Python 和 JavaScript 终于联姻了!PythonMonkey 要火?
- 最近发表
- 标签列表
-
- python中类 (31)
- python 迭代 (34)
- python 小写 (35)
- python怎么输出 (33)
- python 日志 (35)
- python语音 (31)
- python 工程师 (34)
- python3 安装 (31)
- python音乐 (31)
- 安卓 python (32)
- python 小游戏 (32)
- python 安卓 (31)
- python聚类 (34)
- python向量 (31)
- python大全 (31)
- python次方 (33)
- python桌面 (32)
- python总结 (34)
- python浏览器 (32)
- python 请求 (32)
- python 前端 (32)
- python验证码 (33)
- python 题目 (32)
- python 文件写 (33)
- python中的用法 (32)