GetDocParsingResult.Content结构
{
"doc_info": { # 文件基础信息
"languages": [ # 语言
"zh",
"en"
],
"doc_type": "pdf", # 文件类型,包括'pdf','csv','xlsx','doc','docx','txt'
"pdf_toc": [{ # 文件层级和页码
"title": "xxx", #封面
"level": 0, #层级
"page": 0 #页码
}],
"pages": 366, # 页码数量
"page_list": [{ # 页码高度等信息
"imageWidth": 596.0, #页面宽度
"imageHeight": 842.0, #页面高度
"pageIdAllDocs": 0, #所有文件页面pageId
"fileIndex": 0, #文件的index
"pageIdCurDoc": 0, #当前文档页面pageId
"angle": 0 #页面角度
}],
"doc_data": #文档内容
[{ "uniqueId":"about_us_para", #内容块id
"page_num":"01", #页码
"index": "xxx", #index
"name": "xxx", #内容块名称
"type": "xxxx", # 内容块类型,包括 ['Title', 'Text', 'Caption', 'Section-header', 'Footnote', 'Page-header', 'Formula','Page-footer','Table', 'Figure', 'Picture']
"subType":"xxx", # 内容块子类型
"text": "xxx", # 内容块文本内容
"before_text": xxx, # 内容块前文本
"after_text": xxx, # 内容块文本内容
"extInfo":[ # 内容块坐标等信息
{"uniqueId": "b0x1x0", # 内容块子块id
"pos": [{"x": 229.0, "y": 208.0}, {"x": 421.0, "y": 208.0}, {"x": 421.0, "y": 242.0}, {"x": 229.0, "y": 242.0}], # 内容块子块坐标, 四个坐标点,x为x轴/y为y轴
"text": "Kurt Götze", # 内容块子块内容
"type": "Text", # 内容块子块内容
"subType": "Text", # 内容块子块子类型
"pageNum": [0], # 内容块子块页码
"index": 0 #index
}]
}]
}
该文章对您有帮助吗?