OCR(Optical Character Recognition)识别的使用流程包括创建数据集、标注数据、创建任务、训练模型及部署模型。
背景信息
- 数据集要求
- 图像质量:无损坏图像,且图像分辨率高于30像素。系统支持JPG及JPEG格式。
- 数据均衡:建议训练数据集每类目标大于50张,且不同种类的数据保持均衡。
- 泛化能力:选择实际场景的多角度样本进行训练。
- 数据集规范
存储在OSS中的训练图片必须满足上述格式要求。其中your_image_dir表示存储所有训练图片的文件夹。标注结果存储为XML文件,满足PASCAL(Pattern Analysis, Statistical Modelling and Computational Learning)VOC(Visual Object Classes)XML标注格式 。|-- your_image_dir / | -- a.jpg | -- a.xml | -- b.png | -- b.xml | -- c.png ...
XML 标注格式的示例如下。
该示例标注了两个文本内容:手机号和18600000000。<?xml version="1.0" encoding="utf-8"?> <annotation> <size> <width>1280</width> <height>720</height> <depth>3</depth> </size> <object> <name>手机号</name> <bndbox> <xmin>549</xmin> <xmax>715</xmax> <ymin>257</ymin> <ymax>289</ymax> </bndbox> <truncated>0</truncated> <difficult>0</difficult> </object> <object> <name>18600000000</name> <bndbox> <xmin>842</xmin> <xmax>1009</xmax> <ymin>138</ymin> <ymax>171</ymax> </bndbox> <truncated>0</truncated> <difficult>0</difficult> </object> <segmented>0</segmented> </annotation>
测试数据:OCR Demo数据。
步骤一:创建数据集
步骤二:标注数据
如果数据集中有尚未标注的图像,可以在线标注。
- 在数据准备配置向导页面的数据集列表区域,单击操作列下的标注。
- 在标注页面,对每张图像进行标注,并单击提交。
- 单击预览,查看标注结果。
在文档使用中是否遇到以下问题
更多建议
匿名提交