ONTOLOGY本体构建

更新时间:
复制为 MD 格式

本文介绍知识平台的ONTOLOGY本体构建功能,包括本体建模流程和LLM建模的详细操作步骤。

功能概述

ONTOLOGY本体构建模块是知识平台的核心组件,用于将企业数据建模为语义化的知识图谱。通过本体建模,您可以定义数据之间的语义关系,构建可视化、可查询、可推理的知识网络。该模块包含以下功能:

  • 本体图谱:由实体(Object)和链接(Link)构成的可视化图谱,支持图节点和边的交互式探索和多跳遍历。

  • 类型定义:管理本体的类型元数据,包括对象类型(Object Types)、链接类型(Link Types)和动作类型(Action Types)的定义,支持JSON Schema格式的属性约束。

  • 实例管理:管理本体图中的具体数据实例,包括实体和关系的增删改查,支持批量操作和数据检索。

  • 数据管理(本体构建):提供从数据源自动生成本体定义的建模工具,支持LLM建模、快速建模、结构变更检测和数据同步。

  • 版本管理:追踪本体定义的变更历史,支持版本对比分析和回滚到任意历史版本。

  • 权限管理:细粒度访问控制(FGAC),支持对象级和属性级的数据隔离。

本体建模流程

完整的本体建模流程包括以下步骤:

  1. 创建数据集

    ONTOLOGY概览页面,单击右上角的+ 新建创建一个新的数据集(Dataset)。数据集是本体的容器,用于组织和管理相关的本体定义。

  2. 生成本体定义

    进入数据管理页面,选择建模方式生成本体定义:

    • LLM建模(推荐):利用大语言模型自动分析数据库Schema,智能生成本体定义。适用于复杂数据结构的建模场景。详情请参见LLM建模详细流程

    • 快速建模:基于数据库表结构直接映射生成本体定义,每张表对应一个对象类型。适用于结构简单、映射明确的场景。

  3. 审核与调整类型定义

    进入类型定义页面,审核自动生成的对象类型、链接类型和动作类型。您可以编辑类型名称、属性、描述等信息,确保本体定义符合业务需求。

  4. 数据同步

    数据管理 > 数据同步中配置数据同步任务,将源数据库中的数据按照本体定义导入到知识图谱中。

  5. 图谱探索与验证

    进入本体图谱页面,通过可视化方式查看实体和关系,验证建模结果是否符合预期。支持多跳遍历和交互式探索。

  6. 持续迭代

    当数据源结构发生变化时,通过数据管理 > 结构变更检测检测差异,并更新本体定义和数据。

LLM建模详细流程

LLM建模采用三步向导式交互,引导您完成从数据库Schema到本体定义的自动生成与注册。

步骤一:连接配置

配置数据源连接和LLM分析参数。数据库连接方式(三选一):

连接方式

说明

适用场景

项目默认实例

使用后端配置的PolarDB PostgreSQL集群,仅需选择源数据库名Schema

数据源与平台在同一PolarDB PostgreSQL集群中。

数据库连接参数

手动输入主机地址端口数据库用户名密码

数据源为外部独立数据库。

DSN连接串

输入标准PostgreSQL连接串(postgresql://user:pass@host:port/db)。

已有连接串的场景。

说明

使用数据库连接参数DSN连接串方式时,需先单击测试连接验证连通性,测试通过后方可选择Schema。

参数说明

  • Schema:要分析的数据库Schema,默认为public,系统会自动列出可用Schema供选择。

  • 业务背景(可选):业务的上下文,用自然语言描述业务领域,帮助LLM更准确地理解表结构的业务含义。

  • 输出语言:生成的display_namedescription使用的语言(中文/英文)。

  • 生成ActionType:是否让LLM为每个实体推荐可执行的业务操作。

  • 高级选项

    • 排除表:用逗号分隔的表名模式(支持通配符),排除不需要建模的表。

    • 自定义LLM配置:可指定自定义的LLM模型名称、API KeyBase URL。

    • 宽表实体提取:对宽表中的字段进行实体拆分,生成独立的ObjectType。

    • 分析超时时间:LLM分析的超时时间设置(默认5分钟),复杂Schema可适当延长。

配置完成后,单击开始分析开始建模。系统会依次执行:连接数据库、提取表和列元数据及样本数据、调用LLM分析生成类型定义。

说明

LLM建模仅用于初次建模。如果当前数据集已存在Ontology定义,系统会提示使用数据管理 > 结构变更功能进行增量更新。

步骤二:预览与精炼

LLM分析完成后自动进入预览页面,展示生成的全部类型定义。

  • 查看方式

    • 列表视图:以卡片形式分标签展示ObjectType、LinkType、ActionType。

    • 图视图:以可视化图谱方式展示类型之间的关系结构。

  • 编辑操作

    • 编辑类型:单击卡片上的编辑按钮,在JSON编辑器中直接修改类型定义。

    • 删除类型:支持级联删除。删除ObjectType时会自动移除引用该类型的LinkTypeActionType。

    • 从图视图编辑:在图视图模式下也可直接选中节点或边进行编辑。

单击编译检查对当前定义进行完整性验证,检查项包括类型名称唯一性、是否包含id属性、LinkType引用的有效性等。验证支持自动修复功能,可一键修复部分常见问题。

步骤三:注册与数据同步

确认本体定义无误后,执行注册和数据同步。

注册本体定义

  1. 系统在注册前自动执行验证,确保所有类型定义的格式和引用关系正确。

  2. 确认验证通过后,单击注册将本体定义批量导入到系统中。确认后系统将执行批量导入,依次创建ObjectType、LinkTypeActionType,并在图数据库中创建对应的顶点标签和边标签。

数据同步

注册完成后,系统自动触发数据同步任务,将源数据库中的数据按照本体定义导入到知识图谱中。数据同步使用merge(UPSERT)语义,即:

  • 如果目标实例不存在,则新建(INSERT)。

  • 如果目标实例已存在,则更新(UPDATE)。

根据ID防止重复数据。数据量较小时同步执行,数据量较大时自动转为异步后台任务。

说明

数据同步过程中,请确保源数据库连接正常且数据表可访问。同步完成后,您可以在本体图谱页面查看导入的实体和关系。

后续操作

完成本体构建后,您可以执行以下操作:

  • 图谱探索:在本体图谱页面通过可视化界面浏览实体和关系,支持多条遍历和条件过滤。

  • 实例管理:在实例管理页面查看、编辑和删除具体的数据实例,支持批量操作。

  • 版本管理:在版本管理页面查看本体定义的变更历史,支持版本对比和回滚。

  • 权限管理:在权限管理页面配置细粒度访问控制,实现对象级和属性级的数据隔离。

  • 结构变更检测:当数据源Schema发生变更时,通过数据管理 > 结构变更检测自动识别差异并更新本体定义。