全部产品

表格识别

更新时间:2020-04-15 17:35:54

表格识别

调用地址:https://form.market.alicloudapi.com/api/predict/ocr_table_parse
云市场文档页面:https://market.aliyun.com/products/57124001/cmapi024968.html

适用场景:表格识别(包括有线条和无线条的表格)

如:财务报表、房产证等

输入格式

  1. 输入:
  2. {
  3. "image": "图片二进制数据的base64编码/图片url",
  4. "configure": {"format":"html", "dir_assure":false, "line_less":false}
  5. }
  6. 参数说明:
  7. 1. format 输出格式:html/json/xlsx;
  8. 2. dir_assure 图片方向是否确定是正向的: true(确定)/false(不确定)
  9. 3. line_less:是否无线条: true(无线条,或者只有横线没有竖线)/false(有线条)
  10. 4. skip_detection: 是否跳过检测,如果没有检测到表格,可以设置"skip_detection":true

输出格式

  1. 支持三种格式输出:html/xlsx(excel)/json
  2. #html 格式输出
  3. {
  4. "success":true,
  5. "tables":"<html>\n<meta http-equiv=\"Content-Type\" content=\"text/html;charset=UTF-8\">\n<style type=\"text/css\">\n table tr td { border: 1px solid blue }\n table { border: 1px solid blue }\n span.note { font-size: 9px; color: red }\n</style>\n<table \"id\"=0>\n<tr><td colspan=1 rowspan=1>项 目 </td><td colspan=1 rowspan=1>期末余额 </td><td colspan=1 rowspan=1>年初余额 </td></tr><tr><td colspan=1 rowspan=1>合计 </td><td colspan=1 rowspan=1>5,423,591,988.10 </td><td colspan=1 rowspan=1>4,281,407,583.62 </td></tr>...</table></html>\n"
  6. }
  7. #xlsx 格式:
  8. {"success":true,
  9. "tables":"UEsDBBQAAAAIAAAAIQAR0e9YNAoAAIpUAAAYAAAA..." #base64 encoded excel file( base64编码的excel文件)
  10. }
  11. 直接拷贝tables后面的字符串到文件保存,需要将里面的\n替换掉,在linux环境下,可以执行如下操作:
  12. sed -i -e 's/\\n/\n/g' tmp_base64
  13. base64 -d tmp_base64 > 9_100.xlsx
  14. 如果用python的话,可以执行如下代码:
  15. import base64
  16. import json
  17. ...
  18. res_obj = json.loads(result)
  19. with open('output.xlsx', 'wb') as fout:
  20. fout.write(base64.b64decode(res_obj['tables']))
  21. #json 格式输出
  22. {
  23. "success":true,
  24. "tables":[
  25. [ #table 0
  26. [ # table0 row 0
  27. { # table 0 row 0 col 0
  28. "sx":0, #start from column(单元格的起始列id)
  29. "sy":0, #start row(单元格的起始行id)
  30. "ex":1, #one past end column index(单元格所占的列数(colspan)为ex - sx)
  31. "ey":1, #one past end row index(单元格所占的行数(rowspan)为ey - sy)
  32. "height":96, #cell height,图片上单元格的高度
  33. "width":573 #cell width,图片上单元格的宽度
  34. "text":[
  35. "项", #text block 0 (第一个文字块)
  36. "目" #text block 1 (第二个文字块)
  37. ],
  38. },
  39. ...
  40. ],
  41. [ #table 0 row 1
  42. {
  43. "ex":1,
  44. "ey":2,
  45. "height":94,
  46. "sx":0,
  47. "sy":1,
  48. "text":[
  49. "合计"
  50. ],
  51. "width":572
  52. },
  53. ...
  54. ],
  55. ... #more rows
  56. ]
  57. ]
  58. }