文档

A/B实验概述

更新时间:

在LLM服务和搜索推广等诸多模型服务场景中,经常需要根据服务线上的效果调整模型服务,通过调整不同模型服务之间的流量分配,从而帮助业务方进行成本最低的快速实验,从而保证线上的模型服务效应最大化。A/B实验(ABTest)提供更加通用化的A/B评测实验能力,提供开箱即用的A/B平台能力。

使用限制

目前,仅华北2(北京)、华东2(上海)、华东1(杭州)和华南1(深圳)地域支持使用A/B实验(ABTest)。

名词解释

实验管理

  • 实验:实验即为需要AB测试的不同实验版本组合,可包含 AA、 AB、ABC等不同组合方式。实验里的流量来自于实验层上,一个实验层上可以包含多个实验,这些实验之间的流量是互斥的。实验管理的是一组参数配置,可以控制程序执行流程,实验中的每个版本按照流量随机划分,不同的参数也可以对比其不同的效果。

  • 实验项目:业务逻辑的聚合。比如LLM的Agent场景,相似业务场景下的服务都可以作为单独的场景。

  • 实验域:一组流量的集合,也可根据具体的业务划分,由业务的属性来根据条件筛选决定,也可以随机分配。当由业务决定实验域流量的划分,用户可以自定义实现划分逻辑。

  • 实验层:实验域下面包含一个或多个实验层。每个实验层的流量是正交的,每个实验层都会承载所在实验域的所有流量。

流量管理

人群:代表实验接入的一组特定流量ID的集合。

指标管理

  • 指标:代表实验之间进行评判优劣的性能和服务等指标。

  • 数据表:用于统计实验指标所需的数据源和相关字段。

全局配置

发布管理:将实验组中的效果更好的实验进行参数的推全。

计费说明

当前A/B实验(APTest)功能已邀测发布,功能本身免费使用。其中会涉及到模型在线服务(EAS)和MaxCompute等相关云产品,这些云产品的计费单独收取,详情请参见EAS计费说明MaxCompute计费概述

权限说明

A/B实验(ABTest)需要进行SLR授权,权限角色名称为AliyunServiceRoleForPAIABTest。涉及到的权限内容如下所示。

{
    "Version": "1",
    "Statement": [
        {
            "Action": "ram:DeleteServiceLinkedRole",
            "Resource": "*",
            "Effect": "Allow",
            "Condition": {
                "StringEquals": {
                    "ram:ServiceName": "abtest.pai.aliyuncs.com"
                }
            }
        },

        {
            "Effect": "Allow",
            "Action": [
                "odps:ActOnBehalfOfAnotherUser",
                "odps:ListProjects",
                "odps:ListTables"
            ],
            "Resource": "acs:odps:*:*:users/*"
        }
    
    ]
}
  • 本页导读 (1)