光学字符识别OCR(Optical Character Recognition)将输入图像中的文字转换为文本格式,并根据文字信息类别对输入图像进行分组。您可以通过PAI智能标注预置的OCR模板,快速完成数据标注任务。

前提条件

下载Demo数据,并导入该数据,详情请参见注册数据集

背景信息

OCR模板的数据结构请参见标注模板

步骤一:创建标注任务

  1. 登录PAI控制台
  2. 在PAI控制台首页,选择数据准备 > 智能标注
  3. 智能标注页面,单击创建标注任务
  4. 配置基本信息,并单击下一步
    参数 描述
    任务名称 输入ocr_tag
    任务描述 输入OCR模板标注演示
    输入数据集 选择导入数据时已注册的数据集。
    输出数据集位置 选择OSS路径,例如oss://****.oss-cn-shanghai.aliyuncs.com/testData/
  5. 配置模板,并单击下一步
    参数 描述
    选择模板 选择OCR模板
    标注整图方向 打开是否需要标注整图方向标注时可选文字方向开关。
    文字类别 添加姓名电话地址公司其他类别。
    添加自定义标签 添加区域字段及对应的南方北方字段值。
  6. 配置标注策略,并单击提交
    参数 描述
    发题策略 系统默认标注员按次领取固定数量,不支持修改。
    每次领取 输入100。
    添加标注员 选择全选

步骤二:标注图像

  1. 进入标注页面。
    1. 在PAI控制台首页,选择数据准备 > 智能标注
    2. 智能标注页面,单击我的标注任务
    3. 在任务列表,单击ocr_tag任务操作列下的去标注
  2. 标注图像。
    1. 在标注页面,单击矩形工具图标图标,选择矩形标注工具。
    2. 标注图像。OCR目标标注
      框选图像中的目标文本,通过单击智能识别,可以实现自动识别文本。如果图像存在翻转现象,则需要修改整图方向。如果文字存在翻转现象,则需要调整文字方向。
    3. 单击提交
    4. 您可以通过以下任何一种方式,浏览题目,并标注所有题目:
      • 在标注页面下方,单击上一张下一张
      • 在标注页面左侧,单击任务列表缩略图。

步骤三:查看标注结果

  1. 生成结果数据集。
    1. 在PAI控制台首页,选择数据准备 > 智能标注
    2. 智能标注页面,单击我管理的任务
    3. 在任务列表,单击ocr_tag任务操作列下的生成结果数据集
    4. 您确定要生成结果数据集吗?对话框,单击确认
  2. 在标注任务配置的输出数据集位置的OSS路径,查看标注结果(manifest文件)。
    标注结果manifest文件的每行数据由题目和标注结果一起生成,每行数据的JSON结构如下。
    {
        "data": {
            "picUrl":"oss://****/img/ocr_card/img0.jpeg"
        },
        "label-****(标注任务ID)": {
            "results":[{
                "data":[{
                    "direction_of_picture":"downward",
                    "type":"ocr/meta"
                },
                {
                    "id":"Y4ZFoC-****",
                    "direction_of_text":"downward",
                    "text":"北京海淀上地七街国际创业园2好楼4层403室",
                    "type":"ocr/polygonLabel",
                    "value":{
                        "points":[[325.08789110183716,397.47582054138184], ...]
                    },
                    "labelColor":"#67bd3a",
                    "labels":"地址"
                }],
                "id":"24****",
                "type":"ocr"
            }]
        }
    }