一、数据准备
可计算的维度属性,需要考虑默认采用平均值的聚合方式,否则影响后续数据的计算。
各个车型的价格、车高、车宽等,会涉及其最高、最小、平均等聚合计算,应视其为度量,同时防止提问的时候出现自动求和,所以默认聚合方式为平均值比较符合常理,如:“各品牌下价格超过30万的车型的销售金额分别是多少?”
数据的单位,需要在数据字段上有所表达,否则影响过滤。
“价格超过10万的品牌的销售金额有多少”,其中价格字段的单位为万,那么后台计算的时候会通过限制>10完成,而非>100000
对常用的维度计数增加计算字段,目前的版本维度字段计量不支持。
“2020年各省份销售额大于10000的客户数分别有多少”,通过数据集进行计算字段建立,可以正常回答,并根据计算输入条件自动去重计算
数据集字段名称、字段说明配置基础原则。
字段名:
字段名需清晰、规范,符合用户的提问方式,字段名称之前避免存在重复情况。
避免直接用底层字段的英文名、不要有过多不必要的注释。
避免携带“最近1天”等较为具体的时间信息,易出现歧义。
字段类型:日期/时间类型的数据,务必在数据集中确认修改为日期类型,否则将影响识别;其他类型的字段也需修改至对应类型(如地理类型维度)。
字段聚合方式:对于度量,需要选择合适的默认聚合方式,当用户没有表达具体的聚合方式时,模型会参考这一配置(如“转化率”,可从业务语义出发,默认选择平均值计算;“累计XX”,默认选择平均值或最大值,而非汇总)。
二、提问注意
对维值组合维度比较模糊的场景,建议输入问题的时候进行明确指定。
“公司客户购买的产品,按销售额排行”,客户类型(维度)中有公司(维值),公司客户在其他模糊语义干扰的情况下,可能会被识别为我们公司的客户,所以建议明确指定:“客户类型为公司,购买的产品按销售额排行”。
对排行排名的度量指定模糊的场景,建议输入问题时进行明确。
“各地区购买的产品排行”,按照产品名、销售额、销售量什么对象排名,目前语义补足不佳,系统会出现返回错误或空,所以建议明确指定:“各地区购买的产品,按销售额排行”。
增速环比场景,用户容易的输入容易表达为增长、增速等,需用年环比、月环比专业术语
“各地区销售额2023年增速为多少”、“各地区销售额2023年比2022年增长多少”,目前需要改写为“各地区销售额2023年年环比”、“2023年,各地区销售额年环比”。
多维占比场景,预计2024年6月版本支持,建议拆解为单维度占比
“各区域、各区域经理的销售额占比”,目前默认呈现绝对值即销售额,需要拆开为“各区域销售额占比”、然后再基于想看的维值进一步查看,“华东区域的区域经理销售额占比”。
单维绝对值与占比混合场景,预计2024年6月版本支持,可通过图形切换查看。
“各区域的销售额及占比”,需要改写为“各区域销售额占比”、然后再切换图形为“柱图、表格等”。
多时间范围场景,用户容易的输入在语句内,容易造成识别为分别与合计的模糊,建议用放在语句前
“各地区销售额近3年年环比为多少”、“各地区销售额2020年至2023年年环比为多少”,目前需要改写为“近3年,各地区销售额年环比”、“2020年至2023年,各地区销售额年环比”。
多维值汇总场景,易形成分别与合计的理解模糊,如需分别计算建议增加关键词“分别”、“每X”、“各X”。
“浙江、江苏的销售额”,“2020年至2023年的销售额”,目前需要改写为“浙江、江苏分别的销售额”、“2020年至2023年的每年销售额”、“2020年至2023年的各年销售额”。
多维值最值场景,在数据领域本质是分组开窗计算,易形成分别与合计的理解模糊、最值理解为分组或不分组的模糊问题,可以转成:单维值最值,或者 维度最值开窗。
“浙江、江苏的哪个月卖得最好”、“浙江、江苏的哪个产品卖得最好”,目前需要改写为“浙江销售量最高的月份”、“各省份销量最高的月份”、“浙江销售额最大的产品”、“各省份销售额最大的产品”。
“浙江、江苏的卖得最好的3个月”、“浙江、江苏的卖得最好的3个产品”,目前需要改写为“浙江销售量前3个月份”、“各省份销量最高的前3个月份”、“浙江销售额前3个产品”、“各省份销售额前3个产品”。
不同维度维值相似场景,容易造成识别维度错误,建议用短语逗号隔开放在语句前。
“每个省份2022年的小型企业购买类别是办公用品的金额”,类别(维度)中有办公用品(维值)、子类别(维度)中有用品(维值),容易混淆和识别错误,目前需要改写为“办公用品,2022年各省份的小型企业购买的金额”。
三、知识库配置
对于业务定义及近义词:
避免定义过于简短的常用词,如“看一下”“最近”“生成”“对比”“分布”“趋势”等 。
避免定义BI领域常用定义,比如“时间”“最大”“预览”“数据”“柱状图”等。
对于业务解释:
避免出现本文第二章中提到的规避内容。
建议使用描述清晰、语义明确的表述,如以下对应。
“业务定义:攻坚时期” -“业务解释:2020年3月到2021年3月”。
“业务定义:业务进展” - “业务解释:月销售额和客户数”。
避免使用模糊的时间范围说明,如“次年”“x月底”等。
知识库暂不进行模糊识别与推理,提问内容中须提到业务定义或近义词,才可生效。
- 本页导读 (0)