基于大模型输入输出样例的Prompt自动优化

根据您提供的输入输出样例,Prompt反馈优化能够学习样例内的有效信息,自动生成符合您期望的Prompt。

效果展示

优化前Prompt

优化后Prompt

image

image

推理结果错误:

image

推理结果正确:

image

功能介绍

Prompt反馈优化功能将做以下工作:

  1. 样例数据添加到Prompt中。

  2. prompt评测数据上的结果(由推理模型生成)进行多轮自动化评估、反思和优化,总结生成内容提示。

相较于Prompt自动优化,由于Prompt反馈优化将用户提供的数据作为优化的评估标准,使得prompt在用户实际场景中的回复质量更高。

说明

推理模型推荐选择通义千问-max。

百炼将自动选取样例数据集的部分数据添加到Prompt中,建议包含5~10条数据,且每种场景至少包含一条数据。

百炼将基于Pompt在评测数据集与推理模型上的表现,建议至少包含20条数据,数据越多,Prompt优化效果越好。

image

案例实践

案例背景

为了提高一家汽车论坛的内容管理效率,计划使用大模型进行文章的类型分类。分类标准如下:

下面汽车相关的文章属于下面哪一种类别:
"产品解析",
"车商卖车",
"经典怀旧",
"质量投诉",
"销量表现",
"其他"。
最终的结果请按照{"type":"<类别结果>"}的json格式进行输出。

当您把以上提示信息作为Prompt输入后,发现应用并不能准确地按照您的想法进行分类,比如以下这篇文章应该分类为“销售表现”:

image

经过一段时间的学习,您发现进行Prompt工程是最合适的选择。因此为了让应用更加准确地分类,您手动对典型文章进行了分类。以下为数据样例:

手动分类数据

案例样例数据:

query

answer

文章标题:某品牌车辆底盘异响,车主竟称车内有“鸭子”叫。文章正文:某品牌车辆底盘异响,车主竟称车内有“鸭子”叫。这是一段视频,视频摘要是:一位某品牌车辆的车主反映其车辆在行驶中出现疑似“鸭子”叫的异响。经过检查,问题源于下摆臂胶套移位。车主之前在某维修厂更换了非原厂的总成,但因孔径不匹配导致问题持续存在。鉴于此,维修团队建议车主为确保修复效果和避免反复维修成本,应考虑更换原厂总成。他们强调,修车时不应盲目节约,以免造成时间和金钱的浪费,提倡杜绝不必要的反复修车行为。

{"type": "质量投诉"}

文章标题:某品牌车辆,中保研安全指数全优成绩,让你的安全无忧。某品牌车辆在中保研安全指数评测中取得全优成绩,证明了其卓越的安全性能。某品牌车辆更是凭借其出色的安全配置和稳定性能,成为驾驶者的放心之选。选择某品牌车辆,让安全成为你的座驾标配!#某品牌车辆 #某品牌车辆中保研安全指数全优成绩#某品牌车辆 这是一段视频,视频摘要是:【舆情分析摘要】近期,某品牌车辆在中保研的严格安全测评中荣获了全面优秀的评价。这一成绩充分体现了某品牌车辆在安全性能方面的领先地位,其丰富的安全配置和稳定的机械性能赢得了消费者的高度认可。作为一款可靠的车型,某品牌车辆为驾驶者提供了全方位的安全保障,使其在市场上树立了良好的安全口碑。此次评测结果进一步增强了消费者对某品牌车辆的信任,提升了品牌的市场竞争力。

{"type": "产品解析"}

文章标题:现实中看到台某某汽车不容易。某某汽车算是某某品牌目前轿车里售价最贵的车型了,但在马路上的能见度有时候还不如老款百万级别的某某汽车。昨天洗车时我碰到了一台,一开始以为是某某汽车,看车头有点宽得不可思议,往车尾一看,车标下面带字母,好吧,是某某汽车无疑了。但我左看右看,实在看不出这个外观哪里值三四十万了,还不如某某汽车星空版有档次,难怪一年也卖不出几台。文章正文:现实中看到台某某汽车不容易。某某汽车算是某某品牌目前轿车里售价最贵的车型了,但在马路上的能见度有时候还不如老款百万级别的某某汽车。昨天洗车时我碰到了一台,一开始以为是某某汽车,看车头有点宽得不可思议,往车尾一看,车标下面带字母,好吧,是某某汽车无疑了。但我左看右看,实在看不出这个外观哪里值三四十万了,还不如某某汽车星空版有档次,难怪一年也卖不出几台。

{"type": "其他"}

文章标题:某某汽车不墨迹,直接点,下面有惊喜!!!!文章正文:我承认,我一直都放不下你, 就算我打电话你不接、发信息你不回, 约你见面你也不来我依然放不下你只因为之前你说过,等你有需要买车,会主动联系我,而且还会让你的同学、同事和七大姑八大姨找我买车 某某汽车月底了一台没卖,经理又过来找我10.xx这个价只卖一台,不开玩笑,这关乎我的职业生涯,来扣一,直接报嗯价 #某某汽车掀屋顶了#适合女生开的车#某某品牌 #某某品牌某某汽车 #某某汽车#某某品牌某某汽车 #某某品牌某某汽车 #某某汽车 #某某汽车

{"type": "车商卖车"}

文章标题:某某汽车库存泛滥成灾?车商:清仓处理,1.5万直接开走?#某某汽车 #库存车#汽车质量。这是一段视频,视频摘要是:在上世纪末,某某品牌作为合资车引入中国的先驱,凭借早期车型如某某汽车和捷达在中国市场建立了坚实的基础。这些车型不仅因为进入中国市场时间早,而且在当时是高端、稀缺的商品,象征着生活水平的提升。尽管当时的车价相对高昂,与如今相比是奢侈品,但随着时代变迁,汽车逐渐普及,成为人们的日常代步工具。如今,某某品牌某汽车等经典车型虽然在价格上已大大降低,但仍能在市场上看到,反映出消费者对品牌的持久认可和历史积淀的影响。

{"type": "经典怀旧"}

案例评测数据:

query

answer

文章标题:XXX品牌与XXX品牌集团合资公司——XXX汽车启动ISO9001项目。文章正文:XXXXXX月,XXX顾问启动了XXX品牌与XXX品牌集团合资公司——XXX汽车(北京)科技有限公司的ISO9001质量管理体系咨询项目。关于XXX汽车:XXX汽车(北京)科技有限公司是XXX品牌和XXX品牌集团于XXXXXXXX日注册成立的合资公司,注册资金XX亿元。XXX品牌集团将为此次合作投资约XX亿欧元(约XXX亿元人民币),这是XXX品牌入华近XX年以来的最大一笔单项投资。XXX汽车将整合XXX品牌的软硬结合技术能力以及XXX品牌集团旗下软件公司在智能车身和软件系统整合方面的经验,开发全栈式高级驾驶辅助系统和自动驾驶解决方案,落地智驾方案将搭载于XXX品牌集团在中国市场的纯电动车型。关于XXX顾问:XXX顾问上海XXX公司【中文简称:XXX顾问或XXX咨询,英文简称:XXX】XXX顾问是一家从事可持续发展、智能制造、精益六西格玛、管理体系的咨询和培训的管理顾问机构,面向广大企事业单位传递无文化障碍的先进管理理念与技术,提供国际化与本土化完美结合的管理咨询和培训的专业服务。XXX顾问自XXXXXXXX日成立以来,已为XXXX家不同类型的企业提供管理咨询服务,并为XXXX家企业的数百万人次提供管理培训服务,其中包括超过XX%的国内五百强企业、XXX家世界五百强在华企业和XXXX家国内上市企业。XXX顾问同时也是全国六西格玛推进工作委员会(CCPSS)委员单位、国家认证认可监督管理委员会(CNCA)首批备案批准且批准范围最广的管理顾问公司、中国认证认可协会(CCAA)理事单位以及上海市认证协会(SCA)理事单位。

{"type": "其他"}

文章标题:某某汽车

{"type": "其他"}

文章标题:#某某汽车和某某汽车哪个好#你注重舒适还是配置这看个人。文章正文:#某某汽车和某某汽车哪个好#你注重舒适还是配置这看个人

{"type": "其他"}

文章标题: 在购车过程中,经过长达一个礼拜的仔细考察和比较,我最终做出了选择,决定购买24款某品牌汽车五座2.0T330车型。这款车在我心目中的地位得以确立,主要是因为其出色的性能和相对实惠的价格。文章正文:在购车过程中,经过长达一个礼拜的仔细考察和比较,我最终做出了选择,决定购买24款某品牌汽车五座2.0T330车型。这款车在我心目中的地位得以确立,主要是因为其出色的性能和相对实惠的价格。首先,让我们谈谈车子的性能表现。某品牌汽车2.0T330在动力方面表现出色,搭载的2.0T发动机带来了足够的动力输出,使得驾驶过程中感受到的驾驶乐趣倍增。而且,五座设计更符合我的日常需求,既能满足家庭出行,又不失为一款适合城市通勤的车型。在舒适性和驾驶体验上,某品牌汽车也表现不俗,悬挂舒适度较高,驾驶稳定性也令人满意。其次,我们来分析一下价格因素。裸车售价为135,再加上保险和购置税等费用,总共花费了15万多点。相比之下,另一品牌汽车的价格要贵出将近5万块。这种价格差异在一定程度上影响了我的购车决策。考虑到两款车的三大件和平台都是相同的,某品牌汽车的价格优势是非常明显的。对于我来说,这个价格差异是一个很重要的因素,因为我更愿意用这部分省下来的钱来进行其他方面的投资或者消费。最后,让我们来看看品牌和口碑方面的考量。某国际知名品牌虽然在国内的知名度相对较低,但其在欧洲市场拥有较好的口碑。作为某大型集团旗下的品牌,某国际品牌的品质和可靠性都有一定的保障。而且,某品牌汽车作为其旗下的一款SUV车型,在国内市场也逐渐受到了消费者的认可和青睐。综上所述,我认为某品牌汽车五座2.0T330是一款性能出色、价格实惠的车型,相比之下比另一品牌汽车更具优势。我对我的购车决定感到非常满意,相信这款车能够为我带来更加舒适和愉悦的驾驶体验。#购车经历分享#

{"type": "产品解析"}

文章标题:某品牌2022A7L 2.0TFSI 45TFSI S-line 白法师版 全车车衣 #某品牌a7 #a7 #某品牌 #性能车 文章正文:某品牌2022A7L 2.0TFSI 45TFSI S-line 白法师版 全车车衣 #某品牌a7 #a7 #某品牌 #性能车

{"type": "其他"}

百炼提供了Prompt反馈优化功能,您决定使用该功能,结合手动分类数据,生成符合您期望的应用Prompt。

操作步骤

在百炼的应用组件 > Prompt工程 > Prompt反馈优化页面,单击新增优化任务

步骤一:选择推理模型,百炼将在该模型上进行多轮Prompt评测。

image

image

image

image

步骤二:输入需要优化的初始Prompt

只需要描述任务目标

步骤三(可选):样例选择,支持直接上传和从样例库选择两种方式。

样例数据将添加到优化后的Prompt中,样例数据集建议包含5~10条数据,且每种场景至少包含一条数据。

本次实践使用的样例数据为:sample.xlsx

步骤四:上传评测数据

评测数据将作为评估最优prompt的标准

评测数据集建议至少包含20条数据,数据越多,Prompt优化效果越好。

本次实践使用的评测数据为:evaluation.xlsx

步骤五:开始优化

优化后使用Prompt

  • 支持将优化后的Prompt保存为Prompt模板或直接基于该Prompt创建智能体应用

    image