文档

图像类

更新时间:

iTAG提供了图片OCR、目标检测、图像分类的图像类标注模板,创建标注任务时,您需要根据应用场景选择标注模板。本文为您介绍图像类标注模板的应用场景及数据结构。

背景信息

本文介绍以下图像类标注模板的数据结构:

图片OCR

图片OCR(Optical Character Recognition)任务首先将输入图像中的文字转换为文本格式,再根据文字信息类别对输入图像进行分组。

  • 应用场景

    证件识别、票据识别、车牌识别及银行卡识别等。

  • 数据结构

    • 输入数据

      manifest文件的每行数据是一道题目,且每行数据必须包含source字段。

      {"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/demo_test/ocr_pic/img6.jpeg"}}
      ...
    • 输出数据

      manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。

      {
          "data": {
              "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/demo_test/ocr_pic/img6.jpeg"
          }, 
          "label-144863699223676****": {
              "results": [
                  {
                      "questionId": "1", 
                      "data": [
                          {
                              "id": "ecdb7552-2a4e-4d0e-8abb-0f1a2dc0****", 
                              "type": "image/polygon", 
                              "value": [
                                  [
                                      368.1112214498511, 
                                      71.72740814299901
                                  ], 
                                  [
                                      444.34359483614696, 
                                      71.72740814299901
                                  ], 
                                  [
                                      444.34359483614696, 
                                      106.26762661370405
                                  ], 
                                  [
                                      368.1112214498511, 
                                      106.26762661370405
                                  ]
                              ], 
                              "labels": {
                                  "OCR识别结果": "理财顾问", 
                                  "单选": "标签1"
                              }
                          }
                      ], 
                      "rotation": 0, 
                      "markTitle": "OCR标签配置", 
                      "width": 1024, 
                      "type": "image", 
                      "height": 1024
                  }
              ]
          }
      }

目标检测

目标检测(Object Detection)标注任务是对图像中的具体目标进行定位,常用矩形框工具。

  • 应用场景

    车辆检测、行人检测及图片搜索等。

  • 数据结构

    • 输入数据

      manifest文件的每行数据是一道题目,且每行数据必须包含source字段。

      {"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/pic_ocr/img17.jpeg"}}
      ...
    • 输出数据

      manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。

      {
          "data": {
              "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/pic_ocr/img17.jpeg"
          }, 
          "label-144853549785619****": {
              "results": [
                  {
                      "questionId": "1", 
                      "data": [
                          {
                              "id": "e02a574b-9fd9-45e9-8c8a-9682567b****", 
                              "type": "image/polygon", 
                              "value": [
                                  [
                                      499.93454545454546, 
                                      255.0981818181818
                                  ], 
                                  [
                                      911.0109090909091, 
                                      255.0981818181818
                                  ], 
                                  [
                                      911.0109090909091, 
                                      338.6836363636363
                                  ], 
                                  [
                                      499.93454545454546, 
                                      338.6836363636363
                                  ]
                              ], 
                              "labels": {
                                  "单选": "标签1"
                              }
                          }
                      ], 
                      "rotation": 0, 
                      "markTitle": "目标检测标签配置", 
                      "width": 1024, 
                      "type": "image", 
                      "height": 1024
                  }
              ]
          }
      }

图像分类

图像分类(Image Classification)是指从一组固定的分类标签集合中,找到与输入图像内容相匹配的一个或多个分类标签,并将其分配给该输入图像。该模板支持单标签和多标签图像分类。

  • 应用场景

    图片分类、拍照识图、图片搜索及内容推荐等。

  • 数据结构

    • 输入数据

      manifest文件的每行数据是一道题目,且每行数据必须包含source字段。

      {"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
      ...
    • 输出数据

      manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。

      {
          "data": {
              "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/pic/3.jpg"
          }, 
          "label-143082452899667****": {
              "results": [
                  {
                      "questionId": "2", 
                      "data": [
                          "标签1", 
                          "标签2"
                      ], 
                      "markTitle": "多选", 
                      "type": "survey/multivalue"
                  }
              ]
          }
      }