第1关:简单的验证码识别
本关任务:编写一个能简单识别验证码的小程序。
为了完成本关任务,你需要掌握:
- 使用
pytesseract
库与PIL
库解析图片; - 环境配置;
- 读取图片文本信息。
使用 pytesseract 库与 PIL 库解析图片
pytesseract
库可以从图像中提取文本。Tesseract
是一款由 Google
赞助的开源 OCR
。 pytesseract
是 python
包装器,它为可执行文件提供了pythonic API
。
环境配置
实验环境为 Linux
,使用sudo apt install tesseract-ocr
命令即可安装 tesseract-ocr
。pytesseract
和 PIL
可直接使用 pip
进行安装。 以下是 tesseract-ocr
安装说明文档: Tesseract User Manual | tessdoc 环境配置过程中会遇到一些小问题,解决方法比较简单,同学们可以自行百度。
读取图片文本信息
call_tesseract