常见问题

NLP自学习平台常见问题。

1、NLP自学习平台服务调用限制

算法类型

单模型QPS

最大请求长度(字节)

文本实体抽取

20

暂无限制

文本分类

20

暂无限制

关键短语抽取

20

暂无限制

短文本匹配

20

暂无限制

关系抽取

20

暂无限制

简历抽取

20

暂无限制

商品评价解析

20

暂无限制

情感分析

20

暂无限制

2、长度限制

  • 问:文本实体抽取预测时文本有没有长度限制?

  • 答:目前没有限制,但是过长的文本会导致超时。建议控制在1000字以内,超长的文本可以根据“\n”或“。”(换行符或句号)对文本进行切分。或使用我们的异步预测接口,该接口支持10000字的预测,使用文档:异步预测接口使用示例

  • 问:文本实体抽取预测时对长文本进行切分是否会影响模型预测效果?

  • 答:根据“\n”或“。”(换行符或句号)对文本进行切分,并不会影响模型预测的准确率。鼓励将过长的样本进行切分处理后预测。

3、子账号授权相关问题

3.1 子账号授权操作步骤

1、在RAM访问控制的权限管理中新建权限策略(https://ram.console.aliyun.com/policies)

image.png

2、输入策略脚本配置

image.png

NLP自学习平台脚本策略

{
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "nlp-automl:*",
            "Resource": "*"
        }
    ],
    "Version": "1"
}

3、在人员管理用户tab中,对想要授权的子账号进行添加权限操作

3

4、选择刚刚创建的自定义权限策略,即可完成授权

image.png

3.2 子账号有哪些权限

目前被授权的子账号将拥有几乎全部的平台管理权限(除售卖相关的操作和查看权限):

平台资源

权限

授权子账号是否有对应权限

项目

all

模型

all

数据

all

监控统计

all

售卖相关

all

3.3 其他注意事项

  1. 目前只有主账号有售卖相关的操作和查看权限。

  2. 授权的子账号登录后直接跳转到控制台”我的项目”链接,未授权的子账号跳转到标注中心。

  3. 一个标注项目的管理员是:这个标注项目所在项目A的创建人或项目A的授权账号。

  4. 主账号拥有标注任务的编辑权限,可以为标注任务增加参加标注的子账号。

  5. 标注项目的质检人员是该标注项目的管理员。

  6. 所有项目和模型的创建用户ID默认是主账号ID。

  7. predict接口(内部和外部)的发起调用时,调用者ID默认是主账号。

  8. predict接口推送的sls日志的数据中包含着调用者实际为主账号或子账号的信息。

  9. 售卖按主账号计算。

若近一周日均调用量超过50万的,可与我们联系提高QPS,欢迎联系销售经理洽谈。

4、实体抽取项目常见问题

4.1 标注注意事项

  1. 实体抽取项目中,需要对待标注文档中所有出现的实体予以标注。(建议打开左上角的“同值标注” 功能 同值标注标注示意图

  2. 某文档中对某个实体已经有过标注了,在另一篇文档中还需要对相同实体进行标注吗?

    答:需要

  3. 被标注的实体中不能出现换行符“\n”或句号“。”,否则将不能识别,但不会影响训练。

4.2 更高级的规则引擎设置

问:做实体抽取任务时,我的文档格式比较固定,需要抽取的字段有明确和固定的上下文,有没有不需要大量标注,又好又快的抽取方案?

答: 有!为了提升实体抽取模型的表现和效率,我们还开放了规则引擎模块供用户选择(如有需要,请联系我们加入白名单,钉钉群号:44619071)。在创建模型时可以配置。规则引擎的界面如下:image.png

您可以通过规则配置来配置正则、词典、任意字符和模型抽出的实体的组合等“规则”,并且通过规则预览可以测试下您的规则是否生效。

规则配置示例

我有如下裁判文书,需要抽取原告和被告的姓名、性别、出生年月:

原告:橙小二,女,住所地浙江省杭州市余杭区。\n\n被告:王某某,男,2019年10月1日出生,汉族。

就可以使用规则引擎来配置正则表达式,抽取出这些字段:

新增规则组->实体类型选原告->规则要素选择正则表达式->值填入 (?<=原告:)([^,]+)(?=,)

image.png

配置好几个规则后,点击规则预览,则可以检查刚刚配置的规则:

image.png

4.3 实体抽取项目常见的抽取字段

平台提供常见字段的抽取能力,例如日期、手机号码等,勾选后,您创建的模型将可同时抽取勾选字段。(由于创建模型需要标注数据,若想直接使用该功能,您可以随意标注10条数据训练一个模型,注意需在高级设置中勾选您想使用的通用字段)

  • 入口(实体抽取项目->模型中心->创建模型->进入高级设置):image.png

5、购买及续费常见问题

5.1 续费时提示模型数量超变更规格数量

在续费页面中,如提示模型数量已超变更规格数量,请先在 我的模型页 查看模型总量与模型使用量情况,确保已使用量小于等于总量。

若模型使用量大于模型总量(例如:试用时使用了3个模型且未删除,正式付费购买时,仅购买了1个),您可以:

  1. 直接删除不准备使用的模型(注意:模型删除后将无法恢复)

  2. 点击增加个数,通过 变配 的方式,提升模型总量额度

image.png

5.2自学习平台训练模型下数据标注任务个数有限制吗?

答:单个模型下的数据标注任务没有限制。

5.3可以直接购买资源包吗?

答:资源包是用于模型调用的,如果你需要模型训练,还需要购买模型包月。

5.4自学习平台套餐用完了会自动扣费,是否可以关闭?

  • 自学习平台是按量计费型产品,开通自学习平台就开通了按次调用后付费。

  • 资源包提供了更优惠的按次调用计费价格,在计费时进行抵扣,超过资源包的部分仍然是按照后付费计费。

  • 目前暂不支持单独关闭后付费,如需关闭后付费,就需要关闭自学习平台产品。

  • 计费标准可参考【产品价格】文档

6、一般常见问题

6.1 阿里云的AccessKeyId和AccessKeySecret是否通用?

阿里云各个服务的AccessKeyId和AccessKeySecret是通用的,使用前需先开通对应的服务。

6.2 多个数据集需要购买多个模型吗?

答:数据集数量和模型无关,只有需要同时训练多个模型才需要购买多个模型。

6.3 如何提高QPS

若近一周日均调用量超过50万的,可与我们联系提高QPS,加入“阿里云NLP自学习平台用户答疑二群”(钉钉群号:44619071)咨询。