文字检测识别组件基于PAI团队自研的OCR算法和阿里云大数据,能够对OCR模型进行离线推理。本文介绍文字检测识别组件的配置方法及使用示例。

前提条件

已开通OSS并完成授权,详情请参见开通OSS服务为PAI-Studio授予OSS访问权限

使用限制

仅PAI-Designer提供该算法组件。

算法简介

文字检测识别组件位于组件库音视觉算法文件夹下的离线模型预测子文件夹,支持百亿级别的图片推理,能够对训练好的OCR模型进行离线OCR处理。

可视化配置组件

  • 输入桩
    输入桩(从左到右) 限制数据类型 建议上游组件 是否必选
    输入表 MaxCompute表 读数据表
  • 组件参数
    页签 参数 是否必选 描述 默认值
    参数设置 模型类型 选择离线推理时使用的模型类型,支持以下取值:
    • text_detection:文字检测
    • text_detection_recognition:文字检测并识别
    text_detection_recognition
    图片数据所在列名 输入表中图像数据所在的列名。
    图片数据格式 输入表中图片数据支持以下格式:
    • url
    • base64
    base64
    保留数据列名 输入表中需要保留的列,它们会原样输出至输出表中。
    结果列名 输出表中预测结果的列名。 result
    OSS bucket目录 选择一个当前地域使用的OSS目录即可,用以获取OSS信息,从而进行公共OSS Bucket的读取。
    模型oss路径 离线推理时使用的模型所在的OSS路径。
    执行调优 预测worker数目 离线预测时使用的Worker数量。 2
    cpu资源 每个Worker使用的CPU资源数量,100表示1核。 800
  • 输出桩
    输出桩 数据类型 下游组件
    输出表 MaxCompute表 写数据表

计算引擎

文字检测识别组件仅支持MaxCompute引擎。

示例

您可以使用文字检测识别组件构建如下工作流。文字检测识别示例本示例中,您需要按照以下流程配置组件:
  1. 通过MaxCompute客户端的Tunnel命令将预测的输入数据集上传至MaxCompute,再将读数据表组件的表名参数配置为该MaxCompute表。关于MaxCompute客户端的安装及配置请参见MaxCompute客户端(odpscmd),关于Tunnel命令详情请参见Tunnel命令
  2. 将预测数据接入文字检测识别算法组件,并配置具体参数,详情请参见上文的可视化配置组件
  3. 将预测的结果写入数据表中,详情请参见写数据表