翼度科技»论坛 编程开发 python 查看内容

pytesseract and ddddocr

4

主题

4

帖子

12

积分

新手上路

Rank: 1

积分
12
一.pytesseract

1.简介

 Pytesseract是一个Python库,用于将图像中的文本转换为可编辑的字符串。它是基于Google的Tesseract OCR引擎开发的 。Tesseract是一个开源的OCR引擎,能够识别超过100种语言的文字。Pytesseract简化了与Tesseract的集成过程,并提供了一个简单的API,使得在Python中使用OCR功能变得更加容易
2.环境配置

1)下载程序并安装,下载地址:https://digi.bib.uni-mannheim.de/tesseract/

 安装的时候记得勾选下载的语言,全选即可。
2)终端下载pytesseract库
  1. pip install pytesseract
复制代码
下载安装完成之后在当前项目下找到venv\Lib\site-packages\pytesseract\pytesseract.py文件,修改tesseract_cmd值

3.基本用法

我们要识别图片文字,最常用的方法就是image_to_string,语法如下,通常使用时传两个参数即可,要识别的图片和语言类型
  1. def image_to_string(
  2.     image,
  3.     lang=None,
  4.     config='',
  5.     nice=0,
  6.     output_type=Output.STRING,
  7.     timeout=0,
  8. ):
复制代码
下面看下实例
  1. result_text = pytesseract.image_to_string("./img/img_5.png", lang='chi_sim')
  2. # 输出结果
  3. print(result_text)
复制代码
如果涉及到识别的图片中存在多种语言,可以在lang中添加多种语言,用+号连接起来
  1. import pytesseract<br>from PIL import Image
复制代码
  1. <br><br>img = Image.open(url)
  2. text = pytesseract.image_to_string(img, lang='chi_sim+eng')  # 识别中文和英文
复制代码
各种语言类型如下图
  1. eng
复制代码
  1. 英文
复制代码
  1. chi_sim
复制代码
  1. 简体中文
复制代码
  1. chi_tra
复制代码
  1. 繁体中文
复制代码
  1. ara
复制代码
  1. 阿拉伯文
复制代码
  1. jpn
复制代码
  1. 日文
复制代码
  1. kor
复制代码
  1. 韩文
复制代码
  1. spa
复制代码
  1. 西班牙文
复制代码
  1. fra
复制代码
  1. 法文
复制代码
deu德文
ita意大利文
por葡挞文
rus俄文
vie越南文
tha泰文
tur土耳其文
dan丹麦文
nld荷兰文
fin芬兰文
nor挪威文
swe瑞典文
hun匈牙利文
cze捷克文
pol波兰文
slk斯洛伐克文
slv斯洛文尼亚文
bul保加利亚文
ell希腊文
est爱沙尼亚文
lit立陶宛文
lav拉脱维亚文
ron罗马尼亚文
srp塞尔尼亚文
ukr乌克兰文
hin印地文
ben孟加拉文
mar马拉地文
tam泰米尔文
tel泰卢固问
kan卡纳达文
mal玛拉雅拉姆文
orl奥里亚文
pan旁遮普文
guj古吉拉特文
sin僧伽罗文
mya缅甸文
 
二.ddddocr

1.简介

OCR是一种将印刷或手 写文本转换为可编辑文本的技术。ddddOCR利用深度学习算法识别图像中的字符,并将其转换为可编辑的文本。它可以应用于各种场景, 如扫描文档、图像识别、车牌识别等。ddddOCR具有高准确性和高效率,可以在短时间内处理大量的图像,并能够适应不同的字体和文字 样式。它可以应用于各种领域,如办公自动化、数据输入、图像处理等。
2.环境配置
  1. pip install ddddocr
复制代码
3.基本用法
  1. import ddddocr
  2. ocr1 = ddddocr.DdddOcr()  # 实例化
  3. with open("./img_2.png", 'rb') as f:
  4.     img_bytes = f.read()
  5. result_text = ocr1.classification(img_bytes)
  6. print(result_text)
复制代码
个人觉得ddddocr识别的特不准,毕竟是免费的,要想准确识别可以参考超级鹰:https://www.cnblogs.com/lihongtaoya/p/16727694.html
 

来源:https://www.cnblogs.com/lihongtaoya/p/17577991.html
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

举报 回复 使用道具