pytesseract

Tesseract 是 Google 开源的 OCR 引擎，支持多种语言和字体，能够从图像中提取文本内容。pytesseract 是其 Python 封装接口，便于集成到图像处理流程中。广泛用于文档扫描、信息提取等场景。

访问官网访问Github

资源详情

相关资源

OpenCV

OpenCV 是一个功能强大的开源计算机视觉库，提供丰富的图像和视频处理算法，如边缘检测、对象识别、特征提取等。它广泛应用于机器视觉、机器人、自动驾驶和增强现实等领域，支持多种编程语言，Python 接口尤为流行。

Pillow

Pillow 是 Python Imaging Library（PIL）的现代分支，用于基本的图像操作，如打开、编辑、保存多种格式的图像。它适合进行图像裁剪、缩放、滤镜应用等任务，是图像预处理阶段的重要工具。

scikit-image

scikit-image 是一个用于图像处理的 Python 库，提供了丰富的图像处理算法和实用函数。它基于 NumPy 数组，支持灰度图、彩色图像等多种图像类型，涵盖了图像滤波、分割、形态学操作、特征提取等常用功能。scikit-image 适用于科研、医学图像分析、计算机视觉等领域，具有易用性强、与 SciPy 生态系统集成良好等特点。

dlib

dlib 是一个包含机器学习和图像处理模块的通用库，特别擅长于人脸识别和目标检测。它内置了人脸关键点检测器和分类器，适合用于安全系统、人机交互等应用。

EasyOCR

EasyOCR 是一个基于深度学习的 OCR 库，支持超过 80 种语言的文字识别，尤其擅长处理非结构化图片中的文字。它结合了 CNN 和 CTC 解码技术，在复杂背景或倾斜文本中表现优异，适合多语种和工业检测场景。

Keras-OCR

Keras-OCR 是一个基于 Keras/TensorFlow 的端到端 OCR 工具包，包含文本检测和识别两个阶段。它使用预训练模型进行推理，适用于自然场景图像中的文本识别任务，如街景图、产品包装等，适合教学与研究用途。