文档

准备数据

更新时间:

当您拥有数据集问数配置权限并且是数据集的所有者或空间管理员时,您可以进行问数配置问数权限配置。获取相关权限的操作请参见角色管理。本文为您介绍如何在数据集里进行问数配置和问数权限配置。

问数配置

在使用智能问数之前,您需要对数据集进行问数配置。

说明

占位符配置可能影响问数结果,开启问数前,建议您关闭占位符。

  1. 在数据集编辑页面,按照图示方式打开问数配置

    image

  2. 进入问数配置界面并检查字段配置

    重要

    为提高问数准确性,我们建议您按照以下规范准备您的数据:

    • 规范字段命名

      字段的命名应该清晰易懂,有助于模型理解和处理。避免使用过于复杂或模棱两可的字段命名。

    • 配置字段描述

      在字段描述中为字段提供注释、描述信息或计算口径,有助于模型更好地理解字段的含义和用途。

    image

  3. 单击我知道了进入数据集配置界面后单击立即学习,学习数据集。

    image

    学习完成后,若数据集有变动,可以重新学习

    image

  4. 支持修改数据集别名

    说明

    您可以为数据集配置一个更便于业务理解的别名,该名称将开放给访问者查看,方便其理解数据内容,例如“2023年各行业营收数据”。

  5. 推荐问题配置

    推荐问题将在用户选择数据集后呈现,帮助用户快速开始。支持系统推荐专家自定义两种模式。

    image

    说明

    当选择专家自定义模式时,您可以输入您期望用户在问数时看到的推荐问题;输入多个问题时,用回车分隔,系统将按从上至下的顺序显示;推荐问题默认展示前4个,若您输入大于4个,用户可通过换一换切换展示内容。

  6. 单击确定,完成配置。

    完成后,您可以单击去授权或单击智能问数->问数权限管理,为用户授权该问数数据集。具体请参见问数权限配置

    image

问数权限配置

完成问数配置之后,您可以进行问数权限管理。

  1. 按照图示方式单击问数权限管理image

  2. 问数权限管理界面,单击添加授权,选择用户进行授权并单击完成

    此时,被授权的用户可以使用该问数数据集进行智能问数。

    image

    完成后,您可以看到该问数数据集的已授权用户,并进行管理。

    image

    若您拥有集中管理权限,您还也可以在智能问数->权限管理页面,进行更多的权限管理,具体请参见权限管理

知识库管理

知识库用于配置企业内知识和用词偏好,配置后,模型会学习该知识并将其用于数据获取和分析。您可以在数据集编辑页面进行知识库管理。

说明

数据集知识库优先级高于企业知识库,企业知识库管理的具体操作请参见企业知识库管理

  1. 按照图示方式单击知识库管理

    image

  2. 知识库管理->来自当前数据集界面中添加知识image

    1. 右上角单击添加知识

    2. 添加业务定义数据解释同义词,并在其他配置中选择是否开启强制改写

      • 业务定义:用于定义企业内的某一通用概念,例如销售进展、财年,最多100个字符;您可将问数时,常用的词汇填写在此处。

      • 数据解释:用于填写对该业务定义的具体说明,关联数据指标,以便模型对不同指标进行识别和关联理解,最多300个字符。

      • 同义词:用于定义该业务的在企业内的不同叫法,以便模型识别不同的问法。

      • 开启强制改写:开启强制改写后,用户提问中匹配到数据定义同义词时,将会被改写为数据解释中的内容,请谨慎开启。

    3. 单击保存

      若您想继续添加,可单击保存并继续添加

  3. 知识库管理->来自当前数据集界面中管理知识库。

    1. 单击目标知识右边的image图标,可编辑对应知识。image

    2. 单击目标知识右边image的图标,可删除对应知识。image支持多选并进行批量删除。image

  4. 单击来自企业知识库,在知识库管理->来自企业知识库界面中,查看在企业知识库中添加并且对该数据集生效的知识。image

数据集配置建议

  1. 可计算的维度属性,需要考虑默认采用平均值的聚合方式,否则影响后续数据的计算。

    1. 各个车型的价格、车高、车宽等,会涉及其最高、最小、平均等聚合计算,应视其为度量,同时防止提问的时候出现自动求和,所以默认聚合方式为平均值比较符合常理,如:“各品牌下价格超过30万的车型的销售金额分别是多少?”

  2. 数据的单位,需要在数据字段上有所表达,否则影响过滤。

    1. “价格超过10万的品牌的销售金额有多少”,其中价格字段的单位为万,那么后台计算的时候会通过限制>10完成,而非>100000

  3. 常用的维度计数增加计算字段,目前的版本维度字段计量不支持。

    1. “2020年各省份销售额大于10000的客户数分别有多少”,通过数据集进行计算字段建立,可以正常回答,并根据计算输入条件自动去重计算

  4. 数据集字段名称、字段说明配置基础原则。

    1. 字段名:

      1. 字段名需清晰、规范,符合用户的提问方式,字段名称之前避免存在重复情况。

      2. 避免直接用底层字段的英文名、不要有过多不必要的注释。

      3. 避免携带“最近1天”等较为具体的时间信息,易出现歧义。

    2. 字段类型:日期/时间类型的数据,务必在数据集中确认修改为日期类型,否则将影响识别;其他类型的字段也需修改至对应类型(如地理类型维度)。

    3. 字段聚合方式:对于度量,需要选择合适的默认聚合方式,当用户没有表达具体的聚合方式时,模型会参考这一配置(如“转化率”,可从业务语义出发,默认选择平均值计算;“累计XX”,默认选择平均值或最大值,而非汇总)。

image

image