准备数据

更新时间:2025-02-24 06:14:19

当您拥有数据集问数配置权限并且是数据集的所有者或空间管理员时,您可以进行问数配置问数权限配置。获取相关权限的操作请参见角色管理。本文为您介绍如何在数据集里进行问数配置和问数权限配置。

问数配置

在使用智能问数之前,您需要对数据集进行问数配置。

入口

在数据集编辑页面,按照图示方式打开问数配置

image

基础信息

进入问数配置界面并进行基础信息配置。

重要

数据集的字段质量对于问数准确性的提升至关重要,在开启前,您可以根据以下提示再次检测自己的数据集:

  • 优化字段命名

    字段的命名应该清晰易懂,有助于模型理解和处理,避免复杂或模糊的表述。

  • 提供详细字段描述

    为每个字段添加描述信息,以便模型更好地理解其含义和用途。

  • 谨慎开启占位符

    占位符配置可能影响问数结果,开启问数前,建议您关闭占位符。

  • 丰富知识库信息

    在知识库管理中添加和编辑当前数据集的额外知识,以帮助大模型更好地理解用户意图。

image

  • 支持修改数据集展示名称

    说明

    您可以为数据集配置一个更便于业务理解的展示名称,该名称将开放给访问者查看,方便其理解数据内容,例如“2023年各行业营收数据”。

  • 描述

    您可以提供一个简单的描述,方便使用者准确查找。

  • 数据集类型

    选择数据集类型,有助于智能小Q理解您的数据结构特征,从而提升回答的准确率。目前支持明细表、多指标周期表、Key-Value表和其他类型。

    • 明细表

      展示数据的明细信息,每行一条记录,每条记录包含多个不同的维值或指标信息,如“订单ID、用户ID、订单状态、订单金额”。

    • 多指标周期表

      展示指标在不同周期下的统计值,如“7天累计销售额”“15天累计销售额”“30天累计销售额”。

    • 键值对表

      键值对表格,主要包含日期、维度、指标名、指标值字段(如“统计日期”、“KPI指标名”、“KPI实际值”、“KPI目标值”)。

  • 单击开始学习,学习数据集。

    image

    学习完成后,若数据集有变动,可以重新学习

    image

  • 单击下一步,进入字段质量评估页面。

字段质量评估

在字段质量评估页面,系统为您评估当前数据集字段质量,提升最终问数效果。

image

  • 单击开始评估

    说明

    字段质量评估预计需要1-2分钟,您也可以先进行后续步骤,评估完成后将提醒您查看结果。

  • 字段质量评估完成后,会给出智能修改建议,您可以选择是否采纳建议。

    image

  • 单击应用并重新学习后,将同步修改数据集字段信息,单击下一步进入快捷提问页面。

    image

快捷问题

推荐问题将在用户选择数据集后呈现,帮助用户快速开始。支持系统推荐专家自定义两种模式。

image

  • 系统推荐

    您可以预览快捷提问,单击换一换可换一批快捷提问,

  • 专家自定义

    当选择专家自定义模式时,您可以单击添加问题,输入您期望用户在问数时看到的推荐问题。推荐问题默认展示前4个,若您输入大于4个,用户可通过换一换切换展示内容。

    image

单击确认开启,完成配置。

完成后,您可以单击前往智能问数权限管理或直接单击问数权限,进入问数权限配置页面,为用户授权该问数数据集。具体请参见问数权限配置

image

问数权限配置

完成问数配置之后,您可以进行问数权限管理。

  1. 按照图示方式进入问数权限配置页面。

    image

  2. 问数权限配置页面,单击添加授权

    image

    您也可以在上一步问数配置页面,单击添加授权

    image

  3. 选择用户进行授权,支持设置截止日期。

    image

  4. 单击完成,您可以看到该问数数据集的已授权用户,并进行管理。

    image

    若您拥有集中管理权限,您还可以在智能问数->权限管理页面,进行更多的权限管理,具体请参见权限管理

知识库管理

知识库用于配置企业内知识和用词偏好,配置后,模型会学习该知识并将其用于数据获取和分析。您可以在数据集编辑页面进行知识库管理。

说明

数据集知识库优先级高于企业知识库,企业知识库管理的具体操作请参见企业知识库管理

  1. 按照图示方式进入知识库管理页面。

    image

  2. 知识库管理->来自当前数据集界面中添加知识image

    1. 右上角单击添加知识

    2. 添加业务定义数据解释同义词,并在其他配置中选择是否开启强制改写

      • 业务定义:用于定义企业内的某一通用概念,例如销售进展、财年,最多100个字符;您可将问数时,常用的词汇填写在此处。

      • 数据解释:用于填写对该业务定义的具体说明,关联数据指标,以便模型对不同指标进行识别和关联理解,最多300个字符。

      • 同义词:用于定义该业务的在企业内的不同叫法,以便模型识别不同的问法。

      • 开启强制改写:开启强制改写后,用户提问中匹配到数据定义同义词时,将会被改写为数据解释中的内容,请谨慎开启。

    3. 单击保存

      若您想继续添加,可单击保存并继续添加

  3. 知识库管理->来自当前数据集界面中管理知识库。

    1. 单击目标知识右边的image图标,可编辑对应知识。image

    2. 单击目标知识右边image的图标,可删除对应知识。image支持多选并进行批量删除。image

  4. 单击来自企业知识库,在知识库管理->来自企业知识库界面中,查看在企业知识库中添加并且对该数据集生效的知识。image

数据集配置建议

  1. 可计算的维度属性,需要考虑默认采用平均值的聚合方式,否则影响后续数据的计算。

    1. 各个车型的价格、车高、车宽等,会涉及其最高、最小、平均等聚合计算,应视其为度量,同时防止提问的时候出现自动求和,所以默认聚合方式为平均值比较符合常理,如:“各品牌下价格超过30万的车型的销售金额分别是多少?”

  2. 数据的单位,需要在数据字段上有所表达,否则影响过滤。

    1. “价格超过10万的品牌的销售金额有多少”,其中价格字段的单位为万,那么后台计算的时候会通过限制>10完成,而非>100000

  3. 常用的维度计数增加计算字段,目前的版本维度字段计量不支持。

    1. “2020年各省份销售额大于10000的客户数分别有多少”,通过数据集进行计算字段建立,可以正常回答,并根据计算输入条件自动去重计算

  4. 数据集字段名称、字段说明配置基础原则。

    1. 字段名:

      1. 字段名需清晰、规范,符合用户的提问方式,字段名称之前避免存在重复情况。

      2. 避免直接用底层字段的英文名、不要有过多不必要的注释。

      3. 避免携带“最近1天”等较为具体的时间信息,易出现歧义。

    2. 字段类型:日期/时间类型的数据,务必在数据集中确认修改为日期类型,否则将影响识别;其他类型的字段也需修改至对应类型(如地理类型维度)。

    3. 字段聚合方式:对于度量,需要选择合适的默认聚合方式,当用户没有表达具体的聚合方式时,模型会参考这一配置(如“转化率”,可从业务语义出发,默认选择平均值计算;“累计XX”,默认选择平均值或最大值,而非汇总)。

image

image

  • 本页导读 (0)
  • 问数配置
  • 入口
  • 基础信息
  • 字段质量评估
  • 快捷问题
  • 问数权限配置
  • 知识库管理
  • 数据集配置建议
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等