文档

常见问题

更新时间:
一键部署

模型训练相关

1.当前百炼里面导入企业文档,进行问答,有进行FT或者某种方式的模型训练吗?

有。导入文档只是通过对文档内容解析-分块-embedding向量化得到文档的向量数据库,然后在问答过程中先根据用户query进行向量检索,然后将检索结果和问题组成prompt,由大模型返回最终答案。「模型训练中心」可以进行sft训练。

2.通义千问升级后, 企业大模型需要重新训练么?

不一定。是否以及什么时候进行企业大模型的重新训练,取决于客户自己。如果训练出来的模型,效果在客户场景是OK的,那是没必要再训练一遍的。基模型的升级,在客户的应用场景会带来什么样的变化,是无法预知的,需要客户用我们的效果评估工具进行评估(如果客户判断需要)。

3.高质量的数据模型优化效果最好,那高质量的数据是什么样的,有没有模板?

高质量数据首先是要准确率高,训练数据的问题要是清晰的,答案是能准确回答问题的。其次是要有多样性,不能所有的数据都是关于一类问题或者都是一些简单的问题。准备训练数据确实是一件非常耗费资源的事情,但大模型要训练好是非常依赖数据的。模板样例:在控制台模型部署--模型数据--上传数据集中有提供

4.发现百炼上的base model模型,有时候模型自己会重复说话,并且在base model上进行微调后,这种现象发现会更严重一些,是什么原因?

这种是大模型的幻觉问题,当你输入的问题大模型没有知识回答的时候就可能出现。如果在base model上训练后更严重,就是没有训练好,训练效果与训练数据质量、多样性、数据等都有关系。

5.我们现在是训练垂直领域的模型,知识都是安全领域的数据。请问下如果在SFT阶段,不混入通义原始的SFT数据,我们喂的垂直领域的数据越多,是不是越容易过拟合,遗忘了原有的知识。而且在我们这个领域的回答也会重复啰嗦。请问有什么最佳实践建议吗?

1.只使用领域数据进行SFT训练,会遗忘大模型原有的通用知识。

2.如何准备好的领域SFT数据:

(1)任务定义要清晰,典型的不清晰是指同一个输入,对应模棱两可的两种答案。

(2)数据质量、准确率要高,答案一定要是准确回答当前问题的,简单明了,最好不要有冗余废话。

(3)多样性,如你所说,同一语义可以用丰富的prompt,避免学到单一prompt的模式信息。训练数据一般没法一次就做好,一般是多次迭代优化,数据很重要,构建成本也比较高,需要慢慢迭代质量、多样性这些维度。

6.建议我们分多次持续进行模型迭代,而不是把数据准备好,一把梭微调?

每次迭代好新的数据,最好把所有的最新数据放一起,从基础模型开始训练,不建议从之前SFT的模型开始训练(百炼支持的这种模型,更多是考虑训练成本,基于每次训练好的模型使用增量数据训练,比全量数据训练更快,但效果没那么好)。

7.在训练的时候发现,数据量少的情况下,比如100条左右,循环次数越大效果越好。但在数据量多的情况下比如1000条以上,循环次数越多越容易过拟合。请问这个超参配置和数据配比,有什么最佳实践?

数据在质量保证的前提下,还是越多越好,尤其对于难的任务。循环次数等这些超参,不同任务可能不一样,没啥具体规律,还是要在你的任务上实验下,我们一般在难的任务上,几千条数据的情况,也要训练20轮左右。另外,大模型的过拟合不能只看loss,loss上显示了过拟合,实际效果可能变好,这与传统模型不同,还是要人工看效果。

8.模型在base model重复回复,冗余的问题,后面base model会解吗?

base model会定期升级,可以通过一些人工对齐的方法缓解问题,但幻觉是大模型最常见的一类问题,几乎不会完全消失。因为跟您的问题和大模型的知识有关,如果它的知识回答不了,它就会自行编造答案。

9.如果百炼支持增量与训练,开放上传100w条语料数据,并且允许基模型全参数调整,先训练一些领域基模型出来,然后再做SFT(默认混入与训练数据),可能对下游SFT任务的表现会更好一些?

继续预训练主要是为了学习领域内的特有知识,有了领域知识后再SFT是会有一定提升,但成本较高,对数据数量、质量、信息量等要求都很高,远不止100w条,一般是千万以上,训练时间、资源消耗对应也会高出很多。另外,现在的SFT就是全量超参数微调。

文档检索相关

1.如果文档很多,比如上百页的PDF, 在不做FT的情况下是如何实现问答的?

同上,文档分块-向量化,然后在问答时,先向量检索,再根据检索结果由大模型回答。

2.「模型测试」功能中,答案来源全部都是上传的文档么? 有没有大模型自己编的内容?

看有没有展示答案来源。如果展示了,就是根据文档回答的;如果没展示,就是根据大模型训练时的原始数据生成的。

3.当前回答有互联网的内容么?

没有。暂未接入搜索引擎。

4.可以让企业专属大模型的回答完全来自于文档么?

当前版本不可以。但是后续可以支持,即要求大模型所有的内容来自文档,如果文档里没有,就说不知道。

5.文档增加和纯插件的能力有什么区别?

文档增加是用于文档embedding的,主要是用于文档检索;纯插件版是调度API的。 两种类型的应用都能开启文档增强以及选择插件。只是当前模型是有侧重的,效果上两个模型有差异。需要分场景选择适合的模型应用。

6.百炼支持总结整篇文档的内容吗?

您好,非常抱歉,整篇文档总结这种能力现在是没有的,如您的业务需要这方面的能力,我们会进行需求收集。

7.为什么文档中有URL的联系,模型反而不透出URL呢?

文档中包含URL,在模型学习过程中,URL会被处理掉,所以会导致无法显示部分URL。该能力目前暂时不支持。

产品使用相关

1.菜单中看不到「系统管理」相关功能?

请查看您使用的阿里云账号是否是RAM账号登录的,RAM账号默认没有业务空间的超级管理员权限。

解决方法1:用主账号登录;

解决方法2:用主账号,点击右上角,进入管理;进入用户管理,在操作的地方 可以授权超级管理员权限。

2.在使用多轮对话时,默认保持多少轮上下文对话记录?

默认保留1个小时内的会话,50轮。

3.通义专属大模型当前QPS是多少?想增加QPS是否支持?

目前测试阶段是1。如需增加并发可以跟业务同学对接沟通诉求。

  • 本页导读 (0)
文档反馈