文档智能技术的处理流程是怎么样的?
文档智能技术依托多模态文档预训练模型,对PDF/Word/Excel/图片等非结构化文档进行结构化信息提取,通过层次化版面分析、多模态文档识别、多版式异构表格理解等核心算法技术,可实现多页长文档和复杂表格的处理。
文档智能和文字识别有什么区别?
文档智能是文字识别技术的进一步升级,除了文字识别,文档智能还综合运用自然语言处理、图像处理、电子文档解析、文档预训练模型等多种技术,实现对PDF/Word/Excel/图片等各类非结构化和半结构化文档的智能自动化处理。相较于文字识别只能处理固定版式的图片,文档智能技术能处理非固定版式且规则样式变化的多种格式文档。
文档智能技术可以应用在哪些使用场景?
文档智能技术可以应用在各种使用场景中,包括:文档/表格智能解析、文档抽取、文档比对和文档格式转换等通用场景,货代自动化、金融风险管理、招投标公告解析、司法卷宗处理等行业场景,以及长文档、表格表单等自定义场景。目前文档智能技术已经在政企办公、泛政务、司法、金融财税、能源电力等场景中得到了广泛使用。
如何选择合适的文档智能产品?
可以前往能力广场查看通用文档智能和文档自学习产品,并通过轻应用方式上传文档样本进行试用,确认文档处理效果是否符合预期。如果与使用需求一致,则可以通过API接口进行调用和接入,也可以继续通过轻应用的可视化界面使用。
文档智能产品支持的文档格式有哪些?
文档理解产品支持的文件格式包含PDF、JPG、JPEG、PNG、BMP、GIF。
文档格式转换产品中,PDF转Word/Excel/图片支持PDF格式;图片转Word/Excel/PDF支持JPG、JPEG、PNG、BMP、GIF格式。
文档内容是否对您有帮助?