在LLM服务和搜索推广等诸多模型服务场景中,经常需要根据服务线上的效果调整模型服务,通过调整不同模型服务之间的流量分配,从而帮助业务方进行成本最低的快速实验,从而保证线上的模型服务效应最大化。A/B实验(ABTest)提供更加通用化的A/B评测实验能力,提供开箱即用的A/B平台能力。
使用限制
目前,仅华北2(北京)、华东2(上海)、华东1(杭州)和华南1(深圳)地域支持使用A/B实验(ABTest)。
目前,A/B实验(ABTest)暂不支持使用角色SSO的访问方式,仅支持通过RAM子账号进行访问。
名词解释
实验管理
实验:实验即为需要AB测试的不同实验版本组合,可包含 AA、 AB、ABC等不同组合方式。实验里的流量来自于实验层上,一个实验层上可以包含多个实验,这些实验之间的流量是互斥的。实验管理的是一组参数配置,可以控制程序执行流程,实验中的每个版本按照流量随机划分,不同的参数也可以对比其不同的效果。
实验项目:业务逻辑的聚合。比如LLM的Agent场景,相似业务场景下的服务都可以作为单独的场景。
实验域:一组流量的集合,也可根据具体的业务划分,由业务的属性来根据条件筛选决定,也可以随机分配。当由业务决定实验域流量的划分,用户可以自定义实现划分逻辑。
实验层:实验域下面包含一个或多个实验层。每个实验层的流量是正交的,每个实验层都会承载所在实验域的所有流量。
流量管理
人群:代表实验接入的一组特定流量ID的集合。
指标管理
指标:代表实验之间进行评判优劣的性能和服务等指标。
数据表:用于统计实验指标所需的数据源和相关字段。
全局配置
发布管理:将实验组中的效果更好的实验进行参数的推全。
计费说明
当前A/B实验(ABTest)功能已邀测发布,功能本身免费使用。其中会涉及到模型在线服务(EAS)和MaxCompute等相关云产品,这些云产品的计费单独收取,详情请参见模型在线服务(EAS)计费说明和MaxCompute计费概述。
权限说明
A/B实验(ABTest)需要进行SLR授权,权限角色名称为AliyunServiceRoleForPAIABTest。涉及到的权限内容如下所示。
{
"Version": "1",
"Statement": [
{
"Action": "ram:DeleteServiceLinkedRole",
"Resource": "*",
"Effect": "Allow",
"Condition": {
"StringEquals": {
"ram:ServiceName": "abtest.pai.aliyuncs.com"
}
}
},
{
"Effect": "Allow",
"Action": [
"odps:ActOnBehalfOfAnotherUser",
"odps:ListProjects",
"odps:ListTables"
],
"Resource": "acs:odps:*:*:users/*"
}
]
}