文档

数据准备与提问注意事项

更新时间:

一、数据准备

  1. 可计算的维度属性,需要考虑默认采用平均值的聚合方式,否则影响后续数据的计算。

    1. 各个车型的价格、车高、车宽等,会涉及其最高、最小、平均等聚合计算,应视其为度量,同时防止提问的时候出现自动求和,所以默认聚合方式为平均值比较符合常理,如:“各品牌下价格超过30万的车型的销售金额分别是多少?”

  2. 数据的单位,需要在数据字段上有所表达,否则影响过滤。

    1. “价格超过10万的品牌的销售金额有多少”,其中价格字段的单位为万,那么后台计算的时候会通过限制>10完成,而非>100000

  3. 常用的维度计数增加计算字段,目前的版本维度字段计量不支持。

    1. “2020年各省份销售额大于10000的客户数分别有多少”,通过数据集进行计算字段建立,可以正常回答,并根据计算输入条件自动去重计算

  4. 数据集字段名称、字段说明配置基础原则。

    1. 字段名:

      1. 字段名需清晰、规范,符合用户的提问方式,字段名称之前避免存在重复情况。

      2. 避免直接用底层字段的英文名、不要有过多不必要的注释。

      3. 避免携带“最近1天”等较为具体的时间信息,易出现歧义。

    2. 字段类型:日期/时间类型的数据,务必在数据集中确认修改为日期类型,否则将影响识别;其他类型的字段也需修改至对应类型(如地理类型维度)。

    3. 字段聚合方式:对于度量,需要选择合适的默认聚合方式,当用户没有表达具体的聚合方式时,模型会参考这一配置(如“转化率”,可从业务语义出发,默认选择平均值计算;“累计XX”,默认选择平均值或最大值,而非汇总)。

image

image

二、提问注意

  1. 维值组合维度比较模糊的场景,建议输入问题的时候进行明确指定。

    1. “公司客户购买的产品,按销售额排行”,客户类型(维度)中有公司(维值),公司客户在其他模糊语义干扰的情况下,可能会被识别为我们公司的客户,所以建议明确指定:客户类型为公司,购买的产品按销售额排行”。

  2. 对排行排名的度量指定模糊的场景,建议输入问题时进行明确。

    1. “各地区购买的产品排行”,按照产品名、销售额、销售量什么对象排名,目前语义补足不佳,系统会出现返回错误或空,所以建议明确指定:“各地区购买的产品,按销售额排行”。

  3. 增速环比场景,用户容易的输入容易表达为增长、增速等,需用年环比、月环比专业术语

    1. “各地区销售额2023年增速为多少”、“各地区销售额2023年比2022年增长多少”,目前需要改写为“各地区销售额2023年年环比”、“2023年,各地区销售额年环比”。

  4. 多维占比场景,预计2024年6月版本支持,建议拆解为单维度占比

    1. “各区域、各区域经理的销售额占比”,目前默认呈现绝对值即销售额,需要拆开为各区域销售额占比”、然后再基于想看的维值进一步查看,“华东区域的区域经理销售额占比”。

  5. 单维绝对值与占比混合场景,预计2024年6月版本支持,可通过图形切换查看。

    1. “各区域的销售额及占比”,需要改写为各区域销售额占比”、然后再切换图形为“柱图、表格等”。

  6. 多时间范围场景,用户容易的输入在语句内,容易造成识别为分别与合计的模糊,建议用放在语句前

    1. “各地区销售额近3年年环比为多少”、“各地区销售额2020年至2023年年环比为多少”,目前需要改写为近3年,各地区销售额年环比”、“2020年至2023年,各地区销售额年环比”。

  7. 多维值汇总场景,易形成分别与合计的理解模糊,如需分别计算建议增加关键词“分别”、“每X”、“各X”。

    1. “浙江、江苏的销售额”,“2020年至2023年的销售额”,目前需要改写为“浙江、江苏分别的销售额”、“2020年至2023年的每年销售额”、“2020年至2023年的各年销售额”。

  8. 多维值最值场景,在数据领域本质是分组开窗计算,易形成分别与合计的理解模糊、最值理解为分组或不分组的模糊问题,可以转成:单维值最值,或者 维度最值开窗

    1. “浙江、江苏的哪个月卖得最好”、“浙江、江苏的哪个产品卖得最好”,目前需要改写为“浙江销售量最高的月份”、“各省份销量最高的月份”、“浙江销售额最大的产品”、“各省份销售额最大的产品”。

    2. “浙江、江苏的卖得最好的3个月”、“浙江、江苏的卖得最好的3个产品”,目前需要改写为“浙江销售量前3个月份”、“各省份销量最高的前3个月份”、“浙江销售额前3个产品”、“各省份销售额前3个产品”。

  9. 不同维度维值相似场景,容易造成识别维度错误,建议用短语逗号隔开放在语句前。

    1. “每个省份2022年的小型企业购买类别是办公用品的金额”,类别(维度)中有办公用品(维值)、子类别(维度)中有用品(维值),容易混淆和识别错误,目前需要改写为办公用品,2022年各省份的小型企业购买的金额”。

三、知识库配置

  1. 对于业务定义及近义词:

    1. 避免定义过于简短的常用词,如“看一下”“最近”“生成”“对比”“分布”“趋势”等 。

    2. 避免定义BI领域常用定义,比如“时间”最大”“预览”“数据”“柱状图”等。

  2. 对于业务解释:

    1. 避免出现本文第二章中提到的规避内容。

    2. 建议使用描述清晰、语义明确的表述,如以下对应。

      1. “业务定义:攻坚时期” -“业务解释:2020年3月到2021年3月”。

      2. “业务定义:业务进展” - “业务解释:月销售额和客户数”。

    3. 避免使用模糊的时间范围说明,如“次年”“x月底”等。

  3. 知识库暂不进行模糊识别与推理,提问内容中须提到业务定义或近义词,才可生效。

  • 本页导读 (0)
文档反馈