数据准备

当您拥有数据集问数配置权限并且是数据集的所有者或空间管理员时,您可以进行问数配置问数权限配置。获取相关权限的操作请参见角色管理。本文为您介绍如何在数据集里进行问数配置和问数权限配置。

问数配置

在使用小Q问数之前,您需要对数据集进行问数配置。

入口

您可以通过以下两个入口进入问数配置界面。

  • 入口一:在数据集编辑页面,按照图示方式打开问数配置

    image

  • 入口二:在创建数据集,按照图示方式打开问数配置

    image

基础信息

进入问数配置界面并进行基础信息配置。

重要

数据集的字段质量对于问数准确性的提升至关重要,在开启前,您可以根据以下提示再次检测自己的数据集:

  • 优化字段命名

    字段的命名应该清晰易懂,有助于模型理解和处理,避免复杂或模糊的表述。

  • 提供详细字段描述

    为每个字段添加描述信息,以便模型更好地理解其含义和用途。

  • 谨慎开启占位符

    占位符配置可能影响问数结果,开启问数前,建议您关闭占位符。

  • 丰富知识库信息

    在知识库管理中添加和编辑当前数据集的额外知识,以帮助大模型更好地理解用户意图。

image

  • 支持修改数据集展示名称

    说明

    您可以为数据集配置一个更便于业务理解的展示名称,该名称将开放给访问者查看,方便其理解数据内容,例如“2023年各行业营收数据”。

  • 描述

    您可以提供一个简单的描述,方便使用者准确查找。

  • 数据集类型

    选择数据集类型,有助于智能小Q理解您的数据结构特征,从而提升回答的准确率。目前支持明细表、多指标周期表、Key-Value表和其他类型。

    • 明细表

      展示数据的明细信息,每行一条记录,每条记录包含多个不同的维值或指标信息,如“订单ID、用户ID、订单状态、订单金额”。

    • 多指标周期表

      展示指标在不同周期下的统计值,如“7天累计销售额”“15天累计销售额”“30天累计销售额”。

    • 键值对表

      键值对表格,主要包含日期、维度、指标名、指标值字段(如“统计日期”、“KPI指标名”、“KPI实际值”、“KPI目标值”)。

  • 单击立即学习,学习数据集。

    image

    学习完成后,若数据集有变动,可以重新学习

    image

  • 单击下一步,进入字段质量评估页面。

字段质量评估

在字段质量评估页面,系统为您评估当前数据集字段质量,提升最终问数效果。

image

  • 单击开始评估

    说明

    字段质量评估预计需要1-2分钟,您也可以先进行后续步骤,评估完成后将提醒您查看结果。

  • 字段质量评估完成后,会给出智能修改建议,您可以选择是否采纳建议。

    image

  • 单击应用并重新学习后,将同步修改数据集字段信息,单击下一步进入快捷提问页面。

    image

快捷提问

推荐问题将在用户选择数据集后呈现,帮助用户快速开始。支持系统推荐专家自定义按对象推荐三种模式。

image

  • 系统推荐

    您可以预览快捷提问,单击换一换可换一批快捷提问,

  • 专家自定义

    当选择专家自定义模式时,您可以单击添加问题,输入您期望用户在问数时看到的推荐问题。推荐问题默认展示前4个,若您输入大于4个,用户可通过换一换切换展示内容。

    image

    若您需要添加多个快捷提问,您可以单击批量添加并进行录入。

    说明

    一行填一个,最多添加10个。

    image

  • 按对象推荐

    当选择按对象推荐模式时,您可以按照以下步骤进行规则的添加。

    1. 单击添加推荐规则或左下角的添加规则

      image

    2. 添加推荐规则界面。输入推荐规则名称、推荐对象和推荐问题。

      1. 推荐规则名称:给当前规则取个名字以方便检索。

      2. 推荐对象:选择用户作为推荐对象。

      3. 推荐问题:单击添加问题添加单个问题,或批量添加推荐问题。

        说明

        最多添加10个问题。

        image

    3. 选择其他用户适用的规则为系统推荐专家自定义

      image

单击确认修改,完成配置。

完成后,您可以单击前往小Q问数权限管理或直接单击问数权限,进入问数权限配置页面,为用户授权该问数数据集。具体请参见问数权限配置

image

问数权限配置

完成问数配置之后,您可以进行问数权限管理。

  1. 按照图示方式进入问数权限配置页面。

    image

  2. 问数权限配置页面,单击添加授权

    image

    您也可以在上一步问数配置页面,单击添加授权

    image

  3. 选择用户进行授权,支持设置截止日期。

    image

  4. 单击完成,您可以看到该问数数据集的已授权用户,并进行管理。

    image

    若您拥有集中管理权限,您还可以在小Q问数->权限管理页面,进行更多的权限管理,具体请参见权限管理

知识库管理

知识库用于配置企业内知识和用词偏好,配置后,模型会学习该知识并将其用于数据获取和分析。您可以在数据集编辑页面进行知识库管理。支持对业务逻辑正则匹配规则进行配置。

说明

数据集知识库优先级高于企业知识库,企业知识库管理的具体操作请参见企业知识库管理

入口

按照图示方式进入知识库管理页面。

image

添加业务逻辑

知识库管理->来自当前数据集->业务逻辑界面中添加业务逻辑image

  1. 右上角单击添加业务逻辑

  2. 添加业务定义数据解释同义词,并在其他配置中选择是否开启强制改写

    • 业务定义:用于定义企业内的某一通用概念,例如销售进展、财年,最多100个字符,该字段全局唯一,不可重复。您可将问数时,常用的词汇填写在此处。

    • 数据解释:用于填写对该业务定义的具体说明,关联数据指标,以便模型对不同指标进行识别和关联理解,最多3000个字符。

    • 同义词:用于定义该业务的在企业内的不同叫法,以便模型识别不同的问法。

    • 开启强制改写:开启强制改写后,用户提问中匹配到业务定义同义词时,将会被改写为数据解释中的内容,请谨慎开启。

  3. 单击保存

    若您想继续添加,可单击保存并继续添加

添加正则匹配

知识库管理->来自当前数据集->业务逻辑界面中添加正则匹配image

  1. 右上角单击添加正则匹配

  2. 添加业务定义正则表达式数据解释,并在启用方式中选择是否开启强制改写

    • 业务定义:只用于标识正则表达式名称,不参与用户问题匹配,最多100字符,需在数据集中唯一。

    • 正则表达式:用于识别用户问题,依据【应用方式】要求执行操作,请使用 Python 风格编写,最多100字符。

      您可以输入待匹配文本,进行测试,并获得匹配结果

    • 数据解释:用于填写正则表达式中对应内容的具体说明,结合应用方式可以实现对表达式内容的解释或者改写。

    • 开启强制改写:开启强制改写后,用户提问中匹配到业务定义时,将会被改写为数据解释中的内容,请谨慎开启。

  3. 单击保存

    若您想继续添加,可单击保存并继续添加

管理知识库

您可以在知识库管理->来自当前数据集界面中管理知识库。

  1. 您可以在启用栏查看知识的启用状态。

    • 当启用栏对应的知识图标为image时,表示该知识为启用状态,您可以单击该图标进行禁用。

    • 当启用栏对应的知识图标为image时,表示该知识为禁用状态,您可以单击该图标进行启用。

  2. 单击目标知识右边的image图标,可编辑对应知识。

  3. 单击目标知识右边image的图标,可删除对应知识。

    支持多选并进行批量删除。image

  4. 单击来自企业知识库,在知识库管理->来自企业知识库界面中,查看在企业知识库中添加并且对该数据集生效的知识。image

归因分析配置

归因分析配置用于在小Q问数中进行波动归因分析时,确定维度的优先级。例如,当“产品类型”和“物流方式”被配置为优先归因维度时,波动归因将优先展示这两个指标。

image

入口

按照图示方式进入归因分析配置页面。

image

归因分析配置分为全局设置个性设置

全局设置

进行归因分析时,将展示优先归因维度,不足时再从次级归因维度中补齐。未进行个性归因设置的指标,默认使用全局设置。

您可以在全局设置中,从次级归因维度中勾选维度字段,点击image图标并单击保存,选择优先归因维度。

image

若您想把取消优先归因维度,您可以勾选相应维度并单击image图标。

image

个性设置

个性设置中的指标优先于全局配置使用。

您可以在个性设置中,按照以下步骤,选择生效指标并设置优先归因维度。

  1. 选择生效指标。

    单击生效指标右侧的加号图标,选择生效指标并单击确认

    image

  2. 设置优先归因维度。

    从次级归因维度中勾选维度字段,点击image图标并单击保存,设置优先归因维度。

    image

数据集配置建议

  1. 可计算的维度属性,需要考虑默认采用平均值的聚合方式,否则影响后续数据的计算。

    1. 各个车型的价格、车高、车宽等,会涉及其最高、最小、平均等聚合计算,应视其为度量,同时防止提问的时候出现自动求和,所以默认聚合方式为平均值比较符合常理,如:“各品牌下价格超过30万的车型的销售金额分别是多少?”

  2. 数据的单位,需要在数据字段上有所表达,否则影响过滤。

    1. “价格超过10万的品牌的销售金额有多少”,其中价格字段的单位为万,那么后台计算的时候会通过限制>10完成,而非>100000

  3. 常用的维度计数增加计算字段,目前的版本维度字段计量不支持。

    1. “2020年各省份销售额大于10000的客户数分别有多少”,通过数据集进行计算字段建立,可以正常回答,并根据计算输入条件自动去重计算

  4. 数据集字段名称、字段说明配置基础原则。

    1. 字段名:

      1. 字段名需清晰、规范,符合用户的提问方式,字段名称之前避免存在重复情况。

      2. 避免直接用底层字段的英文名、不要有过多不必要的注释。

      3. 避免携带“最近1天”等较为具体的时间信息,易出现歧义。

    2. 字段类型:日期/时间类型的数据,务必在数据集中确认修改为日期类型,否则将影响识别;其他类型的字段也需修改至对应类型(如地理类型维度)。

    3. 字段聚合方式:对于度量,需要选择合适的默认聚合方式,当用户没有表达具体的聚合方式时,模型会参考这一配置(如“转化率”,可从业务语义出发,默认选择平均值计算;“累计XX”,默认选择平均值或最大值,而非汇总)。

image

image