本文介绍知识平台的ONTOLOGY本体构建功能,包括本体建模流程和LLM建模的详细操作步骤。
功能概述
ONTOLOGY本体构建模块是知识平台的核心组件,用于将企业数据建模为语义化的知识图谱。通过本体建模,您可以定义数据之间的语义关系,构建可视化、可查询、可推理的知识网络。该模块包含以下功能:
本体图谱:由实体(Object)和链接(Link)构成的可视化图谱,支持图节点和边的交互式探索和多跳遍历。
类型定义:管理本体的类型元数据,包括对象类型(Object Types)、链接类型(Link Types)和动作类型(Action Types)的定义,支持JSON Schema格式的属性约束。
实例管理:管理本体图中的具体数据实例,包括实体和关系的增删改查,支持批量操作和数据检索。
数据管理(本体构建):提供从数据源自动生成本体定义的建模工具,支持LLM建模、快速建模、结构变更检测和数据同步。
版本管理:追踪本体定义的变更历史,支持版本对比分析和回滚到任意历史版本。
权限管理:细粒度访问控制(FGAC),支持对象级和属性级的数据隔离。
本体建模流程
完整的本体建模流程包括以下步骤:
创建数据集
在ONTOLOGY概览页面,单击右上角的+ 新建创建一个新的数据集(Dataset)。数据集是本体的容器,用于组织和管理相关的本体定义。
生成本体定义
进入数据管理页面,选择建模方式生成本体定义:
LLM建模(推荐):利用大语言模型自动分析数据库Schema,智能生成本体定义。适用于复杂数据结构的建模场景。详情请参见LLM建模详细流程。
快速建模:基于数据库表结构直接映射生成本体定义,每张表对应一个对象类型。适用于结构简单、映射明确的场景。
审核与调整类型定义
进入类型定义页面,审核自动生成的对象类型、链接类型和动作类型。您可以编辑类型名称、属性、描述等信息,确保本体定义符合业务需求。
数据同步
在数据管理 > 数据同步中配置数据同步任务,将源数据库中的数据按照本体定义导入到知识图谱中。
图谱探索与验证
进入本体图谱页面,通过可视化方式查看实体和关系,验证建模结果是否符合预期。支持多跳遍历和交互式探索。
持续迭代
当数据源结构发生变化时,通过数据管理 > 结构变更检测检测差异,并更新本体定义和数据。
LLM建模详细流程
LLM建模采用三步向导式交互,引导您完成从数据库Schema到本体定义的自动生成与注册。
步骤一:连接配置
配置数据源连接和LLM分析参数。数据库连接方式(三选一):
连接方式 | 说明 | 适用场景 |
项目默认实例 | 使用后端配置的PolarDB PostgreSQL版集群,仅需选择源数据库名和Schema。 | 数据源与平台在同一PolarDB PostgreSQL版集群中。 |
数据库连接参数 | 手动输入主机地址、端口、数据库、用户名与密码。 | 数据源为外部独立数据库。 |
DSN连接串 | 输入标准PostgreSQL连接串( | 已有连接串的场景。 |
使用数据库连接参数或DSN连接串方式时,需先单击测试连接验证连通性,测试通过后方可选择Schema。
参数说明
Schema:要分析的数据库Schema,默认为
public,系统会自动列出可用Schema供选择。业务背景(可选):业务的上下文,用自然语言描述业务领域,帮助LLM更准确地理解表结构的业务含义。
输出语言:生成的display_name和description使用的语言(中文/英文)。
生成ActionType:是否让LLM为每个实体推荐可执行的业务操作。
高级选项:
排除表:用逗号分隔的表名模式(支持通配符),排除不需要建模的表。
自定义LLM配置:可指定自定义的LLM模型名称、API Key和Base URL。
宽表实体提取:对宽表中的字段进行实体拆分,生成独立的ObjectType。
分析超时时间:LLM分析的超时时间设置(默认5分钟),复杂Schema可适当延长。
配置完成后,单击开始分析开始建模。系统会依次执行:连接数据库、提取表和列元数据及样本数据、调用LLM分析生成类型定义。
LLM建模仅用于初次建模。如果当前数据集已存在Ontology定义,系统会提示使用数据管理 > 结构变更功能进行增量更新。
步骤二:预览与精炼
LLM分析完成后自动进入预览页面,展示生成的全部类型定义。
查看方式:
列表视图:以卡片形式分标签展示ObjectType、LinkType、ActionType。
图视图:以可视化图谱方式展示类型之间的关系结构。
编辑操作:
编辑类型:单击卡片上的编辑按钮,在JSON编辑器中直接修改类型定义。
删除类型:支持级联删除。删除ObjectType时会自动移除引用该类型的LinkType和ActionType。
从图视图编辑:在图视图模式下也可直接选中节点或边进行编辑。
单击编译检查对当前定义进行完整性验证,检查项包括类型名称唯一性、是否包含id属性、LinkType引用的有效性等。验证支持自动修复功能,可一键修复部分常见问题。
步骤三:注册与数据同步
确认本体定义无误后,执行注册和数据同步。
注册本体定义
系统在注册前自动执行验证,确保所有类型定义的格式和引用关系正确。
确认验证通过后,单击注册将本体定义批量导入到系统中。确认后系统将执行批量导入,依次创建ObjectType、LinkType和ActionType,并在图数据库中创建对应的顶点标签和边标签。
数据同步
注册完成后,系统自动触发数据同步任务,将源数据库中的数据按照本体定义导入到知识图谱中。数据同步使用merge(UPSERT)语义,即:
如果目标实例不存在,则新建(INSERT)。
如果目标实例已存在,则更新(UPDATE)。
根据ID防止重复数据。数据量较小时同步执行,数据量较大时自动转为异步后台任务。
数据同步过程中,请确保源数据库连接正常且数据表可访问。同步完成后,您可以在本体图谱页面查看导入的实体和关系。
后续操作
完成本体构建后,您可以执行以下操作:
图谱探索:在本体图谱页面通过可视化界面浏览实体和关系,支持多条遍历和条件过滤。
实例管理:在实例管理页面查看、编辑和删除具体的数据实例,支持批量操作。
版本管理:在版本管理页面查看本体定义的变更历史,支持版本对比和回滚。
权限管理:在权限管理页面配置细粒度访问控制,实现对象级和属性级的数据隔离。
结构变更检测:当数据源Schema发生变更时,通过数据管理 > 结构变更检测自动识别差异并更新本体定义。