OCDRNET结合了OCR和OCD模型的相关内容,
一、OCRNet 模型概述
1.该模型的作用是从灰度图像中识别字符。OCRNet的基础架构是ResNet50,模型版本有:
- trainable_v1.0 - Pre-trained model with ResNet backbone on scene text.
- deployable_v1.0 - Models deployable with ResNet backbone.
- trainable_v2.0 - Pre-trained model with FAN backbone on scene text.
- deployable_v2.0 - Model deployable with FAN backbone on scene text.
- trainable_v2.1 - Pre-trained model with FAN backbone on PCB text.
- deployable_v2.1 - Model deployable with FAN backbone on PCB text。
2.软件集成
Runtime(s): NVIDIA AI Enterprise
Toolkit: TAO Framework
Supported Hardware Platform(s): Ampere, Jetson, Hopper, Lovelace, Pascal, Turing
Supported Operating System(s): Linux
3.训练与微调
数据集:
OCRNet 预训练模型在 Uber-Text 和 TextOCR 数据集上进行训练。Uber-Text 包含从车载传感器收集的街道级图像和由图像分析师团队注释的事实。TextOCR 是来自 OpenImages 数据集的带注释文本的图像。从 Uber-text 和 TextOCR 收集原始数据后,删除 Uber-text 中带有 * 标签的所有文本图像,并在两个数据集中仅保留最大长度为 25 的字母数字文本图像。最终构建了包含 805007 张文本图像的数据集用于训练,包含 24388 张图像用于验证。
4.推理
Engine: TensorRT
Test Hardware:
- Orin Nano
- Orin NX
- AGX Orin
- L4
- L40
- T4
- A2
- A30
- A100
- H100
二.OCDRNet 模型概述
1.OCDNet模型是一个光学字符检测网络,旨在检测图像中的文字, 提供了可训练和可部署的 功能。 这些模型分别在 Uber-Text 数据集和 ICDAR2015 数据集上进行了训练。
2.模型架构
该模型基于一个相对复杂的文本检测网络 DBNet。DBNet 是一种具有可微分二值化的实时场景文本检测网络架构。它旨在解决具有复杂背景和各种文本形状的自然图像中的文本定位和分割问题。
3.训练
训练算法将二值化操作插入到分割网络中并联合优化,使得网络能够学习更有效地分离前景和背景像素。通过最小化预测二值图和真实二值图之间的 IoU 损失来学习二值化阈值。
4.训练数据
可训练模型分别在 Uber-Text 数据集和 ICDAR2015 数据集上进行训练。Uber-Text 数据集包含从车载传感器收集的街道级图像和由图像分析师团队注释的事实 - 包括 train_4Kx4K、train_1Kx1K、val_4Kx4K、val_1Kx1K、test_4Kx4K 作为训练数据集,test_1Kx1K 作为验证数据集。该数据集由 107812 张用于训练的图像和 10157 张用于验证的图像组成。ICDAR2015 数据集包含 1000 张训练图像和 500 张测试图像。可部署模型是使用可训练模型导出的 ONNX 模型。
5.评估
评估数据使用 Uber-Text 测试数据集和 ICDAR2015 测试数据集对 OCDNet 模型进行评估。
6.Methodology和 KPI
关键绩效指标是检测的 hmean。评估数据的 KPI 如下所示。
7.实时推理性能
推理使用 FP16 精度。输入形状为 <batch>x3x640x640。推理性能针对 AGX Orin、Orin NX、Orin Nano、NVIDIA L4、NVIDIA L4 和 NVIDIA A100 GPU 上的 OCDNet 可部署模型运行,其中使用 trtexec。Jetson 设备在 Max-N 配置下运行,以实现最大系统性能。数据仅用于推理性能。流视频数据的端到端性能可能会因应用程序的使用情况而略有不同。
三、如何使用OCDRNet模型
在NVIDIA的NIM部署.,NVIDIA NIM™ 是 NVIDIA AI Enterprise 的一部分,它提供容器来自托管 GPU 加速推理微服务,用于跨云、数据中心和工作站的预训练和定制 AI 模型。使用单个命令部署后,NIM 微服务会公开行业标准 API,以便轻松集成到 AI 应用程序、开发框架和工作流程中。NIM 微服务基于 NVIDIA 和社区的预优化推理引擎(包括 NVIDIA® TensorRT™ 和 TensorRT-LLM)构建,可自动优化运行时检测到的每种基础模型和 GPU 系统组合的响应延迟和吞吐量。NIM 容器还提供标准可观察性数据馈送和内置对 GPU 上 Kubernetes 自动扩展的支持。
(1)登陆Deploy Generative AI with NVIDIA NIM | NVIDIA。
2.注册NIM账号,注册完后进入
3. 点击Get API Key获得NIM的key,这部很关键,第五步中要用到。
4.配置开发环境,请参考:2024 NVIDIA开发者社区夏令营环境配置指南(Win & Mac)-CSDN博客
5.配置好环境之后,新建OCDRNet.py文件,在文件中输入
#光学字符检测
#用于光学字符检测和识别的预训练模型
#识别发票/账单金额,并转存为格式化数据
#对图片中的文字进行识别,并与图片存储在一起,便于后期图片信息检索
#申请地址:https://build.nvidia.com/nvidia/ocdrnet?snippet_tab=Python
import os
import sys
import uuid
import zipfileimport requests# NVCF API 的OC DRNet模型端点
nvai_url = "https://ai.api.nvidia.com/v1/cv/nvidia/ocdrnet"# 授权头,需要API key(第三部申请的nvapi开头的key),如果在NGC之外执行
header_auth = f"Bearer nvapi-"def _upload_asset(input, description):"""上传一个资产到NVCF API。:param input: 要上传的二进制资产:param description: 资产的描述:return: 资产ID(UUID对象)"""assets_url = "https://api.nvcf.nvidia.com/v2/nvcf/assets"# 设置请求头headers = {"Authorization": header_auth,"Content-Type": "application/json","accept": "application/json",}# 设置S3请求头s3_headers = {"x-amz-meta-nvcf-asset-description": description,"content-type": "image/jpeg",}# 设置请求负载payload = {"contentType": "image/jpeg", "description": description}# 发送POST请求以获取上传URL和资产IDresponse = requests.post(assets_url, headers=headers, json=payload, timeout=30)response.raise_for_status()asset_url = response.json()["uploadUrl"]asset_id = response.json()["assetId"]# 发送PUT请求上传资产response = requests.put(asset_url,data=input,headers=s3_headers,timeout=300,)response.raise_for_status()# 返回资产IDreturn uuid.UUID(asset_id)if __name__ == "__main__":"""上传一张自选图片到NVCF API,并向光学字符检测和识别模型发送请求。响应保存到本地目录。注意:必须设置环境变量NGC_PERSONAL_API_KEY。"""# 检查命令行参数数量if len(sys.argv) != 3:print("Usage: python test.py <image> <output_dir>")sys.exit(1)# 上传资产并获取资产IDasset_id = _upload_asset(open(sys.argv[1], "rb"), "Input Image")# 设置请求负载inputs = {"image": f"{asset_id}", "render_label": False}# 设置资产列表asset_list = f"{asset_id}"# 设置请求头headers = {"Content-Type": "application/json","NVCF-INPUT-ASSET-REFERENCES": asset_list,"NVCF-FUNCTION-ASSET-IDS": asset_list,"Authorization": header_auth,}# 发送POST请求到OC DRNet模型response = requests.post(nvai_url, headers=headers, json=inputs)# 保存响应内容到本地ZIP文件with open(f"{sys.argv[2]}.zip", "wb") as out:out.write(response.content)# 解压ZIP文件到输出目录with zipfile.ZipFile(f"{sys.argv[2]}.zip", "r") as z:z.extractall(sys.argv[2])# 输出保存目录和目录内容print(f"Output saved to {sys.argv[2]}")print(os.listdir(sys.argv[2]))
6.在当前文件夹新建文件夹fo用于放置测试图片fp.jpg和输出结果,在虚拟环境下输入:
python OcdrNet.py .\fp\fp.jpg .\fp
得到输出结果: