文档

常见问题

更新时间:

NLP自学习平台常见问题。

1、NLP自学习平台服务调用限制

算法类型

单模型QPS

最大请求长度(字节)

文本实体抽取

20

暂无限制

文本分类

20

暂无限制

关键短语抽取

20

暂无限制

短文本匹配

20

暂无限制

关系抽取

20

暂无限制

简历抽取

20

暂无限制

商品评价解析

20

暂无限制

情感分析

20

暂无限制

2、长度限制

  • 问:文本实体抽取预测时文本有没有长度限制?

  • 答:目前没有限制,但是过长的文本会导致超时。建议控制在1000字以内,超长的文本可以根据“\n”或“。”(换行符或句号)对文本进行切分。或使用我们的异步预测接口,该接口支持10000字的预测,使用文档:异步预测接口使用示例

  • 问:文本实体抽取预测时对长文本进行切分是否会影响模型预测效果?

  • 答:根据“\n”或“。”(换行符或句号)对文本进行切分,并不会影响模型预测的准确率。鼓励将过长的样本进行切分处理后预测。

3、子账号授权相关问题

3.1 子账号授权操作步骤

1、在RAM访问控制的权限管理中新建权限策略(https://ram.console.aliyun.com/policies)

image.png

2、输入策略脚本配置

image.png

NLP自学习平台脚本策略

{
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "nlp-automl:*",
            "Resource": "*"
        }
    ],
    "Version": "1"
}

3、在人员管理用户tab中,对想要授权的子账号进行添加权限操作

3

4、选择刚刚创建的自定义权限策略,即可完成授权

image.png

3.2 子账号有哪些权限

目前被授权的子账号将拥有几乎全部的平台管理权限(除售卖相关的操作和查看权限):

平台资源

权限

授权子账号是否有对应权限

项目

all

模型

all

数据

all

监控统计

all

售卖相关

all

3.3 其他注意事项

  1. 目前只有主账号有售卖相关的操作和查看权限。

  2. 授权的子账号登录后直接跳转到控制台”我的项目”链接,未授权的子账号跳转到标注中心。

  3. 一个标注项目的管理员是:这个标注项目所在项目A的创建人或项目A的授权账号。

  4. 主账号拥有标注任务的编辑权限,可以为标注任务增加参加标注的子账号。

  5. 标注项目的质检人员是该标注项目的管理员。

  6. 所有项目和模型的创建用户ID默认是主账号ID。

  7. predict接口(内部和外部)的发起调用时,调用者ID默认是主账号。

  8. predict接口推送的sls日志的数据中包含着调用者实际为主账号或子账号的信息。

  9. 售卖按主账号计算。

若近一周日均调用量超过50万的,可与我们联系提高QPS,欢迎联系销售经理洽谈。

4、实体抽取项目常见问题

4.1 标注注意事项

  1. 实体抽取项目中,需要对待标注文档中所有出现的实体予以标注。(建议打开左上角的“同值标注” 功能 同值标注标注示意图

  2. 某文档中对某个实体已经有过标注了,在另一篇文档中还需要对相同实体进行标注吗?

    答:需要

  3. 被标注的实体中不能出现换行符“\n”或句号“。”,否则将不能识别,但不会影响训练。

4.2 更高级的规则引擎设置

问:做实体抽取任务时,我的文档格式比较固定,需要抽取的字段有明确和固定的上下文,有没有不需要大量标注,又好又快的抽取方案?

答: 有!为了提升实体抽取模型的表现和效率,我们还开放了规则引擎模块供用户选择(如有需要,请联系我们加入白名单,钉钉群号:44619071)。在创建模型时可以配置。规则引擎的界面如下:image.png

您可以通过规则配置来配置正则、词典、任意字符和模型抽出的实体的组合等“规则”,并且通过规则预览可以测试下您的规则是否生效。

规则配置示例

我有如下裁判文书,需要抽取原告和被告的姓名、性别、出生年月:

原告:橙小二,女,住所地浙江省杭州市余杭区。\n\n被告:王某某,男,2019年10月1日出生,汉族。

就可以使用规则引擎来配置正则表达式,抽取出这些字段:

新增规则组->实体类型选原告->规则要素选择正则表达式->值填入 (?<=原告:)([^,]+)(?=,)

image.png

配置好几个规则后,点击规则预览,则可以检查刚刚配置的规则:

image.png

4.3 实体抽取项目常见的抽取字段

平台提供常见字段的抽取能力,例如日期、手机号码等,勾选后,您创建的模型将可同时抽取勾选字段。(由于创建模型需要标注数据,若想直接使用该功能,您可以随意标注10条数据训练一个模型,注意需在高级设置中勾选您想使用的通用字段)

  • 入口(实体抽取项目->模型中心->创建模型->进入高级设置):image.png

5、购买及续费常见问题

5.1 续费时提示模型数量超变更规格数量

在续费页面中,如提示模型数量已超变更规格数量,请先在 我的模型页 查看模型总量与模型使用量情况,确保已使用量小于等于总量。

若模型使用量大于模型总量(例如:试用时使用了3个模型且未删除,正式付费购买时,仅购买了1个),您可以:

  1. 直接删除不准备使用的模型(注意:模型删除后将无法恢复)

  2. 点击增加个数,通过 变配 的方式,提升模型总量额度

image.png

5.2自学习平台训练模型下数据标注任务个数有限制吗?

答:单个模型下的数据标注任务没有限制。

5.3可以直接购买资源包吗?

答:资源包是用于模型调用的,如果你需要模型训练,还需要购买模型包月。

5.4自学习平台套餐用完了会自动扣费,是否可以关闭?

  • 自学习平台是按量计费型产品,开通自学习平台就开通了按次调用后付费。

  • 资源包提供了更优惠的按次调用计费价格,在计费时进行抵扣,超过资源包的部分仍然是按照后付费计费。

  • 目前暂不支持单独关闭后付费,如需关闭后付费,就需要关闭自学习平台产品。

  • 计费标准可参考【产品价格】文档

6、一般常见问题

6.1 阿里云的AccessKeyId和AccessKeySecret是否通用?

阿里云各个服务的AccessKeyId和AccessKeySecret是通用的,使用前需先开通对应的服务。

6.2 多个数据集需要购买多个模型吗?

答:数据集数量和模型无关,只有需要同时训练多个模型才需要购买多个模型。

6.3 如何提高QPS

若近一周日均调用量超过50万的,可与我们联系提高QPS,加入“阿里云NLP自学习平台用户答疑二群”(钉钉群号:44619071)咨询。