核心功能与技术能力深度解析-实时数仓Hologres-阿里云

实时数仓 Hologres

功能集	功能	功能描述	参考文档
计算	SQL开发	兼容PostgreSQL语法，支持完整的DDL、DML等能力，提供多种数据类型和函数，可标准的SQL开发，上手成本低。	数据类型汇总 PostgreSQL兼容函数扩展函数 DML（insert/select/update等）
	引擎扩展能力	提供多种扩展函数，满足流量分析、空间计算、向量计算等多个场景更加低成本的分析计算，包含：PostGIS扩展、Proxima向量计算、Oracle扩展函数、ClickHouse扩展函数、聚合函数、流量分析函数。	PostGIS地理信息分析 Oracle兼容函数 Clickhouse兼容函数
	Hologres Binlog	支持单表级别的Binlog，用于记录表数据的修改记录。通过Hologres Binlog，实现数仓分层间的全链路实时开发，缩短数据端到端加工延迟，同时提升数据开发效率。	订阅Hologres Binlog
	实时物化视图	实时物化视图将对明细表的数据进行预先聚合，存储为物化视图，通过查询物化视图，减少计算量，显著提升查询性能。	实时物化视图（Beta）
	JSON和JSON列存	支持JSON和JSONB数据类型、多种JSON函数，满足标签、画像等场景对半结构化数据分析的需求。同时支持JSONB列式存储，实现JSON数据更高的存储压缩，更低的查询延迟。	列式JSONB JSONB使用
存储	内表多种存储模式和存储介质	1.存储模式上，业务可根据需求选择存储模式，包含：列存、行存、行列共存；行存满足高QPS点查场景、列存支持高性能多维分析、行列共存支持行存和列存的混合查询场景。 2.存储介质上：支持按需将数据进行冷热分层存储，实现更加低成本的数据存储，包含：冷热分层存储。	表存储格式：列存、行存、行列共存数据分层存储
存储	数据湖等外表存储	可直接访问存储MaxCompute、OSS上的数据，实现离线数据加速，数据湖数据加速，包含：OSS存储、MaxCompute存储。	OSS数据湖加速通过创建外部表加速查询MaxCompute数据
开发工具和分析工具	HoloWeb	Holoweb是基于Hologres引擎的可视化数据库管理和开发一站式平台，灵活适用于数据库管理、数据库接入、数据开发、数据分析、性能分析和诊断等用户场景。	连接HoloWeb
	DataWorks	DataWorks是阿里云的一站式开发平台，提供数据开发、数据集成、数据服务、数据地图等能力，Hologres与DataWorks深度集成，可以直接绑定Hologres实例进行一站式实时数仓开发，满足业务的不同场景开发和管理需求。	DataWorks数仓开发概述
	Hologres Client	HoloClient是在JDBC基础上自研的开发接口，可实现自动攒批、自动路由分区、消费Binlog等功能，满足业务的高性能大批量数据写入、高QPS点查和维表关联场景。	通过Holo Client读写数据
	JDBC/ODBC	Hologres提供标准JDBC/ODBC接口，可实现应用低成本直连Hologres。	JDBC
	PSQL/PGAdmin客户端	Hologres兼容PostgreSQL，可以直接连接PG标准客户端，如PSQL、PGAdmin等客户端。	PSQL客户端
	Flink、Spark等Connector	Hologres提供多种数据写入Connector，与Flink、Spark等计算框架原生集成，通过内置Connector，支持大数据实时写入与更新。	数据同步概述
	BI分析工具	可与多种BI工具如Quick BI、Tableau、Datav等无缝对接，实现数据的高性能分析。	BI分析及可视化概述
数据同步	Flink实时写入与读取	1.Hologres作为Flink结果表，实现直接实时写入、（整行、局部）更新写入Hologres；2.Hologres作为Flink维表，实现高性能Flink维表关联查询。3.Hologres可作为Flink源表，实现CDC读取、全增量读等。满足一站式实时数仓建设。	BI分析及可视化概述结果表示例宽表Merge和局部更新功能维表示例源表示例
	Kafka实时写入	提供多种方式将Kafka数据投递至Hologres，包括Flink写入、DataWorks数据集成写入以及Hologres Connector等。	Kafka通过DataWorks实时同步
	MySQL、PostgreSQL等数据库整库实时同步	通过DataWorks数据集成可以实现MySQL、PostgreSQL等数据库的数据全量离线以及增量实时同步至Hologres。	MySQL分库分表实践
	Spark写入Hologres	可以通过Hologres Connector实现Spark写入Hologres，以及读取Hologres，完整数仓开发链路。	Spark的数据写入至Hologres
	SLS日志数据实时写入Hologres	可以通过Flink、DataWorks数据集成等方式将SLS日志服务的数据实时写入Hologres。	日志服务数据同步至Hologres
	MySQL等数据库数据离线写入	可以通过DataWorks数据集成将MySQL等数据库数据离线单表、整库同步到Hologres。	数据库中的数据离线同步至Hologres
	本地文件	可以通过COPY命令行将本地数据一键写入Hologres。	使用COPY命令导入或导出本地数据
	OSS数据湖	在Hologres中可以创建OSS外表，实现OSS数据湖数据加速，也可以将OSS数据导入到Hologres进一步分析，实现湖仓一体。	OSS数据湖加速
	MaxCompute	在Hologres中可以创建MaxCompute外表，加速离线数据查询，也可以通过SQL方式将MaxCompute数据离线导入至Hologres，实现进一步的数仓快速查询，满足BI分析等业务。	通过创建外部表加速查询MaxCompute数据
	Holo shipper	提供实例、表级别的数据同步至Hologres。	迁移工具Holo Shipper
安全&合规	RAM权限管理	提供RAM账号的授权与访问控制。	授予RAM用户权限
	专家和简单权限模型	支持专家、简单权限模型，满足企业对表、库以及实例的多重细粒度权限控制。	-
	数据脱敏	可实现对指定用户、指定表按照一定的规则脱敏，满足对数据的高度保护。	数据脱敏
	IP白名单	可设置指定IP指定用户访问实例，提升实例的安全性。	IP白名单
	数据存储加密和读取MaxCompute加密数据	Hologres支持通过密钥管理服务KMS对数据进行加密存储，提供数据静态保护能力，满足企业监管和安全合规需求。也支持读取MaxCompute加密数据。	数据加密
	传输加密	可通过SSL在传输层对网络连接进行加密，提升通信的安全性和完整性。	传输加密（Beta）
	数据血缘	Hologres通过DataWorks，可以基于解析调度作业等真实数据的流转情况，得出表、字段之间的血缘关系，满足数据治理需求。	数据血缘（Beta）
	数据地图	可以通过DataWorks数据地图提供企业数据目录的管理功能，支持元数据详情查看、数据类目管理等。	数据地图（Beta）
	操作事件日志	Hologres支持通过阿里云操作审计ActionTrail的控制台、OpenAPI、开发者工具等，查询90天内的实例操作事件日志，以完成对事件的审计和问题回溯分析等。	查询事件日志
管理&运维	自助升级	用户可以在管控台实现自助升级，提升运维操作方便性。	实例升级
	云监控	提供数十种监控指标，对接云监控，全面了解实例资源使用、业务运行等情况，及时收到异常告警并响应，保证业务持续正常运行。	云监控
	慢Query日志Query Log	慢Query的查询与分析可以帮助您对系统中发生的慢Query或失败Query进行诊断、分析和采取优化措施。	慢Query日志查看与分析
	表统计信息日志Table info	提供表统计信息日志系统表table_info按日收集实例内表的统计信息，帮助对实例中的表信息进行查看、分析，以便根据这些信息采取优化措施。	表统计信息查看与分析
	备份与恢复	支持自动周期备份和手动备份，以便您在某些场景下，例如数据误操作时，恢复历史数据。	备份与恢复
数据湖加速分析	通过DLF读取OSS数据	Hologres通过与DLF、OSS无缝集成，以外部表的方式，无需移动数据（外表只做字段映射，不真正存储数据），就能直接加速读写存储于OSS上的各种格式类型的数据，降低开发运维成本，打破数据孤岛，实现业务洞察。	OSS数据湖加速
数据湖加速分析	基于OSS-HDFS构建数据湖	对于存储在OSS-HDFS上的数据，Hologres通过DLF实现元数据管理，通过JindoSDK实现数据的直接访问以及回写，回写目前仅支持ORC、Parquet、CSV及SequenceFile格式的表。	基于OSS-HDFS构建数据湖
高可用部署	单实例Shard级多副本	提供实例内部的Shard级多副本能力，通过设置Table Group副本数的方式来提高某个Table Group查询并发能力和可用性。	单实例Shard级多副本
	主从实例读写分离（共享存储）	针对线上生产环境高可用的场景，提供了共享存储的主从多实例部署方式，在该模式下支持故障隔离，负载隔离，有效支撑了高可用场景。	主从实例读写分离部署（共享存储）
	计算组实例	计算组实例是主从实例的升级模式，支持将计算资源分解为不同的计算组（Virtual Warehouse），计算组独立弹性可扩展（弹性分配、按需创建），计算组之间共享数据、元数据，通过计算组可同时支撑读写分离、资源隔离、业务隔离等诸多场景，对用户提供资源隔离、弹性等核心能力。	计算组实例快速入门