接口附属信息

GetDocParsingResult.Content结构

{
    "doc_info": {       # 文件基础信息
        "languages": [  # 语言
            "zh",
            "en"
        ],
        "doc_type": "pdf",  # 文件类型,包括'pdf','csv','xlsx','doc','docx','txt'
        "pdf_toc": [{          # 文件层级和页码
                "title": "xxx",  #封面
                "level": 0,     #层级
                "page": 0       #页码
            }],
        "pages": 366, # 页码数量
        "page_list": [{ # 页码高度等信息
                "imageWidth": 596.0, #页面宽度
                "imageHeight": 842.0, #页面高度
                "pageIdAllDocs": 0, #所有文件页面pageId
                "fileIndex": 0,  #文件的index
                "pageIdCurDoc": 0,  #当前文档页面pageId
                "angle": 0   #页面角度
            }],
       "doc_data":   #文档内容
      [{ "uniqueId":"about_us_para",   #内容块id
        "page_num":"01",    #页码
        "index": "xxx",    #index
        "name": "xxx",    #内容块名称
        "type": "xxxx",  # 内容块类型,包括 ['Title', 'Text', 'Caption', 'Section-header', 'Footnote', 'Page-header', 'Formula','Page-footer','Table', 'Figure', 'Picture']
        "subType":"xxx",  # 内容块子类型
        "text": "xxx",   # 内容块文本内容
        "before_text": xxx, # 内容块前文本
         "after_text": xxx,  # 内容块文本内容
         "extInfo":[     # 内容块坐标等信息
          {"uniqueId": "b0x1x0",  # 内容块子块id
            "pos": [{"x": 229.0, "y": 208.0}, {"x": 421.0, "y": 208.0}, {"x": 421.0, "y": 242.0}, {"x": 229.0, "y": 242.0}],  # 内容块子块坐标, 四个坐标点,x为x轴/y为y轴
            "text": "Kurt Götze",   # 内容块子块内容
            "type": "Text",     # 内容块子块内容
            "subType": "Text",  # 内容块子块子类型
            "pageNum": [0], # 内容块子块页码
            "index": 0    #index
          }]
        }]
      }