本篇文档主要介绍在使用大模型服务平台阿里云百炼中常见问题。
计费相关
目前阿里云百炼平台中模型服务中各模型的收费单价是什么?
目前各模型的计费单价已汇总,请点击计费项查看。
模型部署的费用是如何计算的?
如何进行模型部署,请参见:模型部署
计费方式
按时间计费
可包月预付费
按模型调用量计费
计费公式
费用 = 使用时长 × 实例数量 ×实例单价
支持模型丰富
费用 = 调用消耗量 × 部署后调用单价
单价与模型推理(调用)单价相同
计费说明
适合对大模型推理服务有低延迟、高SLA需求的场景。
适合对模型训练的结果进行快速验证。
完整部署费用明细请查看模型部署计费。
通义千问大模型训练单价计费是什么?
计费详情
目前是否有预付费相关的服务?
部分模型部署支持预付费服务。
后付费的账单是月结算吗?
按小时出账,按月结算。
如何查询扣款项及明细?
请前往费用与成本查看。
已经消费的金额,如何申请开票?
登录费用与成本控制台,进入发票管理页面,点击开具发票页签。按照需求进行申请开票即可。
开通服务时提示“您的账户可用额度小于0,请先充值后再尝试购买”,应该怎么办?
需要保证阿里云账户余额≥0,才可以开通服务。
API/SDK相关
Completion API 调用报错提示“参数缺失”,错误码“100004”,是什么问题?
缺少必须参数,如果必须参数没有缺失,则检查参数格式书写是否正确。
正确示例如下:
curl --location 'https://bailian.aliyuncs.com/v2/app/completions' \ --header 'Content-Type: application/json' \ --header 'Authorization: Bearer 85763*************cf050f' \ --data '{ "RequestId":"B8265C3E-9248-56C0-8665-A37A12F06F6B", "AppId":"3cc760a7ef5d47d09255dd28b06b94d8", "Prompt":"今天深圳天气如何?", "User":"1", "Bot":"1" }'如何查看错误码信息?
阿里云百炼模型服务的API调用将返回状态码以标识调用结果。请参见错误信息进行解决。
如何安装SDK?
阿里云百炼目前支持Java、Python编程语言的SDK,点击安装SDK查看详情。
Assistant API 调用 function call ,用户需要依次调用两个本地函数,现在支持吗?
a.目前不支持分别调用两个函数。
b.手动创建两个Assistant API,分别分配两个Assistant API的使用返回。
Assistant API 为什么没有memory相关的能力?Assistant API 有memory相关的能力吗?
memory是一个较为复杂的配置功能,在Assistant API 中实现较为复杂,所以需要在产品页面中配置。目前正在设计方案,希望尽快可以实现。
doc_reference_type 参数设置后不生效?
doc_reference_type 参数只在旧版本应用中生效,新版本应用中直接在应用操作页面开启展示答案来源按钮即可。

产品相关
如何开通阿里云百炼服务?
登录阿里云账号,访问阿里云百炼大模型服务平台。在首页/模型广场/应用广场,均可点击开通模型服务,按需开通即可。详细内容请查看:产品开通。
开通阿里云百炼服务后如何关闭?
目前,阿里云百炼服务开通后暂不支持关闭。如果您通过API来调用模型/应用,您只需要在控制台的API-KEY页面中删除 API-KEY 即可避免后续的调用。
如何体验大模型服务?
阿里云百炼和通义千问的区别是什么?
阿里云百炼是一个提供模型的平台,包含通义千问系列的模型。
我的产品接入了通义千问大模型,需要上架到微信小程序等其他应用商店,需要提供合作协议用于上架产品,应该怎么申请?
a.备案号获取流程请查看应用合规备案;
b.如需申请通义千问系列模型的合作协议,请提交阿里云工单进行申请。
如何实现业务数据隔离,使不同业务线的同学数据之间不关联?
可以通过主账号给不同子账号授予不同的业务空间权限,不同业务空间的数据互不影响,存在隔离。详细操作内容点击业务空间管理查看。
阿里云百炼是否保存模型调用时传入的数据?
通过模型API调用模型时,阿里云百炼不会保存对话数据。调用过程只对调用状态进行脱敏日志记录,调用结束后对明文的提示词以及应答结果进行销毁,不会保存数据。
通过Assistant API调用模型时,阿里云百炼会保存对话数据以增强用户体验,目前暂无数据失效日期。
通过阿里云百炼应用调用模型时,分两种情况:
默认情况(未开启长期记忆功能):对话历史记录默认缓存60分钟,缓存的对话轮数通过“携带上下文轮数”参数指定。如果60分钟内发生一次对话,缓存的失效时间会往后延60分钟。如果60分钟内没有发生对话,对话历史记录将失效,即数据被销毁。
开启长期记忆功能后:阿里云百炼不会保存原始对话记录,仅按照客户配置的画像字段进行内容抽取,该信息目前暂无失效日期。
阿里云严格保护数据隐私,绝不会将您的数据用于模型训练。同时,您在构建应用或训练大模型过程中传输的数据都会经过加密,确保数据安全。
模型中心
完形填空词的数据能作为训练题吗?
可以的,可以通过上传训练集时,指定好问题内容及答案,引导大模型学习。可以点击自定义模型最佳实践参考。
目前阿里云百炼只能训练文字吗?图片可以训练吗?
目前已支持图片训练,qwen-vl-plus模型支持训练微调。
使用高阶模型微调,低阶模型做能力下沉,是想做蒸馏吗?
该技术通过微调高阶模型获取强大知识,然后将其转移至低阶模型,实现模型压缩与性能优化,使得低阶模型在保持小巧、高效的同时,获得接近或超越高阶模型的性能。
所谓大模型参数是怎么存储的?
可以通过魔搭下载模型,会有模型结构的JSON,可以参考JSON内容。一般情况下用开源的Python组件,去解析组件,会有向量信息,可能理解会有点难度。但是可以了解存储过程。
语料数据集的多样性怎么定义?
语料数据集的多样性是指其在语言特征、内容主题、文本类型、写作风格、语言变体、作者背景、时间跨度等多个维度上体现出的丰富程度和差异性,旨在真实反映语言的实际使用情况,提升NLP模型的泛化能力和对多元应用场景的适应性。
个人使用大模型训练时,qwen-turbo和qwen-max应该怎么选?
qwen-turbo注重速度与资源效率,适合对响应速度和部署便捷性有较高要求的场景;qwen-max则聚焦顶级性能与全面知识,适用于对模型精度和处理复杂任务能力有严格要求的环境。其中qwen-turbo的费用要比qwen-max低。根据您的具体需求和条件权衡,选择最适合自己的模型版本。也可以查看模型介绍:通义千问介绍了解具体差异。
模型训练中的自定义模型怎么上传?
模型调优中的自定义模型是指您已训练完成的模型,想要二次训练时,所选择的自定义模型。若是您自己在本地训练的模型不支持上传。
训练完的开源模型是否支持导出?
目前不支持。
通义千问系列模型支持多少种语言?
14种,分别是中文、英文、阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、印度尼西亚语。
当前模型可以对接结构化数据吗?比如MySQL和hive等。
当前不支持。但已经在开发中,优先对接RDS服务。
通义千问升级后, 企业大模型需要重新训练么?
不一定。是否以及何时进行企业大模型的重新训练,取决于客户自己。如果训练出来的模型,效果在客户场景中表现良好,就没必要再训练一遍。基模型的升级,在客户的应用场景会带来什么样的变化,是无法预知的,需要客户用我们的效果评估工具进行评估(如果客户判断需要)。
发现阿里云百炼上的base model模型,有时候模型自己会重复说话,并且在base model上进行微调后,这种现象发现会更严重一些,是什么原因?
这种是大模型的幻觉问题,当你输入的问题大模型没有知识回答的时候就可能出现。如果在base model上训练后更严重,就是没有训练好,训练效果与训练数据质量、多样性、数据等都有关系。
我们现在是训练垂直领域的模型,知识都是安全领域的数据。请问下如果在SFT阶段,不混入通义原始的SFT数据,我们喂的垂直领域的数据越多,是不是越容易过拟合,遗忘了原有的知识。而且在我们这个领域的回答也会重复啰嗦。请问有什么最佳实践建议吗?
(1)只使用领域数据进行SFT训练,会遗忘大模型原有的通用知识。
(2)如何准备好的领域SFT数据:
任务定义要清晰,典型的不清晰是指同一个输入,对应模棱两可的两种答案。
数据质量、准确率要高,答案一定要是准确回答当前问题的,简单明了,最好不要有冗余废话。
多样性,如你所说,同一语义可以用丰富的prompt,避免学到单一prompt的模式信息。训练数据一般没法一次就做好,一般是多次迭代优化,数据很重要,构建成本也比较高,需要逐步迭代质量、多样性这些维度。
在训练的时候发现,数据量少的情况下,比如100条左右,循环次数越大效果越好。但在数据量多的情况下比如1000条以上,循环次数越多越容易过拟合。请问这个超参配置和数据配比,有什么最佳实践?
数据在质量保证的前提下,越多越好,尤其是对于难的任务。循环次数等这些超参数,不同任务可能不一样,没有具体规律,还是要在您的任务上实验下,我们一般在难的任务上,几千条数据的情况,也要训练20轮左右。另外,大模型的过拟合不能只看loss,loss上显示了过拟合,实际效果可能变好,这与传统模型不同,还是要人工看效果。
请问Qwen2、千问-MAX等模型的文字生成速度对所有用户都是固定的吗,有没有调速的途径?
这个速度不是固定的,跟线上资源和用户所有请求有关。
咱们模型限流触发后,一般需要等多长时间再次尝试呢?
这个就和具体限流值相关。比如有的客户的限流是120qpm,执行2次请求每1秒,那比如0.2秒的时候提交了2次请求,再提交就会被限流,然后需要等0.8秒。