析言GBI使用指南
析言GBI提供丰富的版本规格选项,您可按需选择。针对在产品使用中的常见问题,本文档提供了问题解答及操作指导,您可根据所选版本进行问题自查及效果优化。
简介
析言GBI是基于阿里云通义大语言模型在数据分析领域专门增强的原生数据助理,通过自然语言交互实现NL2SQL、数据问答、分析、洞察等多维度的大模型智能分析应用,适用于业务变化较快、数据分析时效性强的一线业务场景。
操作指引
析言GBI产品入口:登录阿里云百炼平台, 。点击“立即体验”即可进入析言控制台页面。析言GBI为每个客户提供200个问题的免费试用额度。超出免费额度后,如需继续使用,请按需购买产品规格。
当试用或购买某个产品规格后,您需要先完成初始化。您可以按照如下步骤进行初始化配置,将您的数据库连接到析言GBI。
关联并授权析言访问指定数据库;
配置您授权析言访问的数据表schema信息;
配置您在使用析言进行问答时可能涉及的业务知识。
数据库连接
配置数据库
首次登录控制台时,您需要在数据管理中进行数据信息维护。点击左侧菜单“数据表管理”,进行数据库授权。
析言支持关联公网可访问的MySQL或PG协议数据库,目前关联MySQL协议数据库效果较好,关联PG协议数据库的功能在持续优化中。
重要每个业务空间下仅能关联一种类型的数据库,关联后不可更改,请谨慎操作。
连接MySQL或PostgreSQL数据库时,请确保您填写的数据库实例URL为公网可访问的地址,这里的数据库地址可以是您在阿里云购买的云上数据库地址,或本地机房的数据库服务地址,如果遇到连接失败的情况,请检查数据库访问是否有IP白名单限制。如有限制,请在白名单中添加析言GBI的IP地址:39.107.142.91。
重要数据库实例URL需要填写标准的JDBC URL。MySQL格式:jdbc:mysql://host:port/db_name;PG格式:jdbc:postgresql://host:port/db_name。其中host是数据库的域名,port是端口号,db_name是目标授权的数据库名。
连接数据库成功后,选择授权析言GBI访问的数据表信息,以完成数据表同步。当数据库中存在大量数据表时,此数据同步过程可能需要更多时间。数据表同步成功后,您可在页面列表中进行管理。
配置数据表schema信息
数据表同步成功后,为使析言GBI能正常接入,需要您在数据表管理维护该表的schema信息,同时确保和源数据库的结构一致。
基础信息:包含数据表描述、数据表的主键、外键信息。
数据表描述:当前表记录的数据内容与颗粒度等,例如:变电站安装记录表,用于xxxx;
数据表主键:用于保证数据完整性,即确保在该表格中每一行记录都是独一无二的,用来快速查找和引用特定记录;
数据表外键:在不同表之间建立联系,用于跟其他表格进行关联;例如: 表a.列名=表b.列名1;表之间若有外键,必须配置,否则表格之间join可能有误。
列信息:
列描述:用简单凝练的语言描述该列的具体含义;
列中文名:选填,在列描述信息缺失的情况下,根据列中文名理解数据表信息;
枚举值:有一些关键的要求和最佳实践需要注意,以确保其有效性和可靠性:
值的唯一性:每个枚举值应该在预定义的范围内是唯一的,不能有重复的值。
值的描述性:枚举值应尽可能具有描述性,这样能够直观地表示其含义。例如,用
'active'
和'inactive'
比1
和0
更具可读性。合理的值数量:枚举值的数量不宜过多,过多可能会增加代码复杂度和维护成本。一般建议控制在10个以内。
企业数据管理
为了帮助析言GBI更好的理解您在数据分析中的目标表述,企业数据管理模块提供了三种工具,可以满足您的业务场景需要。
知识名词解释
对于业务场景的专有名词,可以在知识名词解释中进行配置。例如:在使用自然语言提问时,通常会出现“咨询转化率”一词,但关联数据表中并没有“咨询转化率”列,其值是经“有咨询且下单成功客户”列汇总后,与“有咨询客户”列汇总的结果相除获得。对于这种情况,您可以在该词条描述下定义该指标的计算口径。
同义词解释
使用自然语言提问时,经常涉及某个词汇的多种说法,这些说法被称为同义词。在同义词解释中,您可以维护同义词列表。例如:数据表实际存储值为“北京市”,在使用自然语言提问时,可以使用同义词“首都”来替代。
为提升同义词识别准确度,建议在配置同义词时,将同义词关联到数据表具体的某一列上。
业务逻辑解释
当您使用自然语言提问时,企业特有的业务逻辑通常需要配置在业务逻辑解释中。例如,当查询包含“本月”时,您可以将业务逻辑解释配置为“指从本月1日至今天的数据汇总”。
业务逻辑解释是对模型输出进行调整的高级功能。当模型对数据表的schema信息理解不准确或生成的SQL不准确时,您可以通过优化业务逻辑解释来改进效果。
业务逻辑分为全局和智能两种。全局型业务逻辑对所有用户的问题生效。智能业务逻辑由模型根据用户问题内容选择性生效。
模型输出干预
如果多次调整问题问法和数据管理后,模型依然回答错误,您可以设置特定回复来干预模型输出。
为避免过多干预条件产生负面影响,您应谨慎设置干预条件,并尽量减少使用频率。
问题自查
数据库连接问题自查
错误类型 | 常见错误操作 | 正确指导 |
连通性错误 | URL格式错误 | MySQL连接格式为:jdbc:mysql://host:port/db_name; PG连接格式为:jdbc:postgresql://host:port/db_name。 其中,host是数据库的域名,port是端口号,db_name是授权的数据库名。 |
数据库连通错误,URL非公网可访问地址 | 填写的URL需要是公网可访问的地址。host部分不能填写localhost。如果数据库是在阿里云购买的,您可以在数据库实例的数据库连接菜单下找到公网host。 | |
数据库连通错误,数据库有访问IP限制 | 此情况下,您需要将析言GBI公网IP:39.107.142.91添加到白名单。 如果数据库是在阿里云购买的,您可以在数据库的安全性菜单里配置访问IP白名单。 如果数据库是部署在ECS上的实例,您需要在ECS的安全组里添加入方向IP白名单。 | |
账号密码错误 | 账号错误 | 应填写访问数据库用户名,非数据库名称。 |
效果不达预期问题自查
问题类型 | 优化指导 |
一个用户问题中包含多个查询问题 | 当前,一个用户问题只能生成一条查询SQL。如果用户问题包含多个查询,仅输出一个问题的查询SQL。建议您将复杂问题拆分为多个简单问题。 |
补充数据表描述和列schema信息后生成SQL依然不符合预期 | 您可以尝试添加问题中所包含的业务逻辑。 |
日期相关查询自查
问题类型 | 优化指导 |
日期查询错误 | 数据库中的日期列,建议使用YYYY-MM-DD格式,并且在“列描述中填写:日期列,格式为YYYY-MM-DD”,尽量不要使用YYYYMMDD或者MMDDYYYY等格式。 |
当前日期相关的错误 | 建议在问题中指出明确日期,比如2024-05-30的销量;不要默认省去一些信息,比如“4月20日”这个问法中默认省去了“今年”导致模型难以推理。 |
其他错误自查
问题类型 | 优化指导 |
列不存在 | 很多时候列不存在的错误是模型没有理解列的名字,可以考虑在列描述增加列的中文含义; 列名尽量不要使用中文名,推荐使用英文名; |
表不存在 | "表不存在"错误常发生于模型不理解哪个表能解决用户的问题。建议您配置表描述,用中文说明这个表的用途和存储内容。 |
表join失败 | 这种错误常见于表的外键缺失,可以配置外键以提高这个链接的效果 |
group by错误,错误提示形如 Expression *** of select list is not in group by clause ..... | 需要在MySQL配置中关闭ONLY_FULL_GROUP_BY。 请在 |
常见问题及解答
析言GBI的正式版本会比试用版本多出什么功能?
答:试用版开放少量免费额度不收费,与正式版无功能差异。
操作说明写的是“一种类型”的数据库,是只能链接一个数据库,还是在相同的mysql下可以链接多个数据库?
答:一个业务空间下只能连接一个数据库。
如果只能链接一个数据库情况下,对于实际业务中需要对多数据库查询,有什么好的建议?
答:目前不支持跨库查询,建议根据业务场景进行业务空间隔离,不同业务空间使用不同的数据库。
析言支持私有化吗?
答:不支持私有化,可以支持数据库在本地的混合部署,服务在公共云。
析言产品的并发是指的什么? 同时有2个用户访问,第二个用户需要排队吗?
答:并发指的是同一时刻系统处理的请求数量最大是多少,如果只购买一并发,那么在一个请求处理完之前,第二个请求会被拒绝。
析言是如何计费的?
析言产品分为标准版和定制版两个版本:
标准版提供经过析言在数据分析领域特殊训练的通用NL2SQL模型,按照产品使用的license并发数量单一计价,每月产品费用=并发数*并发月单价。
定制版为有高级定制需求的客户提供专属模型训练与部署服务,采用综合计价模式,产品费用分为以下三部分:
第一部分为产品订阅费,提供产品功能和专属模型定制训练等高级工具及专家指导服务;
第二部分为定制后的模型独占部署的实例并发费用,根据客户需要的并发数量可动态扩缩容,以4并发为最小扩缩容单位。
第三部分为定制模型训练所消耗的机器资源tokens费用,根据每次训练所需的资源计价。
举例说明:
case1:客户购买析言标准版-turbo2个并发,每年产品费用为15000*2*12=360000元。
case2:客户购买析言定制版-turbo4个并发,每年产品费用为:600000+480000+57600=1137600元。
第一部分产品订阅费:50000*12=600000元;
第二部分产品license费:40000*12=480000元;
第三部分模型训练tokens费(以单次训练消耗8kw tokens,每个月训练2次估算):80000*0.03*2*12=57600元。
大多情况下,数据表会有状态字段,且会统计“成功”的数据,但是没有找到相关的地方可以定义默认查询条件,全局的设置里面似乎只是定义自然语言,是否支持定义默认查询条件?
答:目前还不支持对字段状态进行条件设置。