增量导入

本章节介绍搜索引擎如何进行增量导入。请参见 RDS增量导入,将增量数据导入到宽表引擎中。导入宽表引擎后,后台会通过BDS服务自动将宽表引擎的增量数据同步到搜索引擎中。注意 同步到搜索引擎的数据仅限于已经配置好的schema映射。

增量导入

本章节介绍搜索引擎如何进行增量导入。请参见 RDS增量导入,将增量数据导入到宽表引擎中。导入宽表引擎后,后台会通过BDS服务自动将宽表引擎的增量数据同步到搜索引擎中。重要 同步到搜索引擎的数据仅限于已经配置好的schema映射。

DataWorks V3.0

DataWorks V3.0核心特性 支持多种计算引擎 DataWorks V3.0全新升级了多引擎插件化架构,在DataWorks V2.0版本仅支持MaxCompute计算引擎的基础上,新增开源大数据引擎E-MapReduce、交互式分析和图计算服务(Graph Compute)等引擎服务。...

数据模型概述

DDM目前支持逻辑模型和物理模型建模,其中物理模型又分为关系型数据模型和非关系型数据模型,支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层,DDM是数据建模工具,支持设置表、字段等物理属性。

DataWorks模块使用说明

使用流程概览:参考文档:DataWorks数据建模 子模块:数据开发(DataStudio)功能说明:数据开发(DataStudio)是一站式大数据开发平台,支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

JindoFS介绍和使用

HDFS有Java onheap限制,而Block模式没有Java onheap和内存限制,可以支持更大的数据规模。Block模式轻运维,不用担心坏盘或坏节点,数据1备份放置在OSS上,支持上下线节点。支持对冷数据做透明压缩和归档,使用多种手段进行成本优化,对接...

DataWorks产品安全能力介绍

数据列级别多级审批:基于底层大数据引擎的访问控制列表与数据分级分类,DataWorks支持按项目与数据分级分类,定义数据列的权限申请及审批策略。说明 仅DataWorks企业版支持您根据业务需要自定义审批流程。数据质量规则:支持管理员配置...

TSDB全量迁移至时序引擎

本文介绍时间序列数据库(Time Series Database,简称TSDB)全量迁移至 云原生多模数据库 Lindorm 时序引擎的方法。前提条件 已安装Linux或者macOS操作系统,并且安装以下环境。已安装Java环境,版本为JDK 1.8及以上。已安装Python环境,...

代码模式建模

DataWorks数据建模的设计与实现解耦,在设计过程中,您无需考虑各个大数据引擎的实现方式,建模引擎会根据FML语言定义的Schema去驱动底层各个数据引擎的执行和操作,仅在实际物化(即把设计的逻辑表转换为底层引擎的物理表)阶段,建模引擎...

什么是DataWorks

DataWorks发展之路 阿里巴巴集团内发展历程 从2009年产品立项开始,DataWorks与阿里巴巴业务共同发展,结合MaxCompute、Hologres等大数据计算引擎的能力,跨越多个技术阶段,支撑阿里巴巴数据中台与数据治理建设。目前阿里巴巴集团内...

引擎

该系列引擎的共同特点是支持数据副本、分区、数据采样等特性。MergeTree 用于插入极大量的数据到一张表中,数据数据片段的形式一个接着一个的快速写入,数据片段按照一定的规则进行合并。Data Replication 用于将数据从一个节点复制到...

简介

HBase Ganos是什么 HBase Ganos是阿里云推出的一款包含管理 空间几何数据、时空轨迹、专题栅格、遥感影像的时空大数据引擎系统。系统兼容开源GeoMesa、GeoServer等生态,内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等,...

Spark概述

Spark是一个通用的大数据分析引擎,具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示,基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库,分别用于离线ETL(Extract-Transform-Load)、在线数据...

搜索索引介绍

汇总搜索引擎的数据,如果需要会自动回查宽表中的数据进行补齐,最后查询结果返回客户端。应用场景 在宽表引擎和搜索索引配合下,不但可以提供高并发低延迟的KV查询,而且能够提供丰富的多维查询、分词查询、聚合分析等。如果您的业务有...

查看连接地址

不同类型的搜索引擎连接地址如下表:连接地址类型 连接方式 服务类型 网络类型 参考文档 搜索SQL地址 通过SQL连接搜索引擎(连接地址为图示中①)Lindorm 专有网络 公网 通过SQL连接并使用搜索引擎 Solr兼容地址 通过Search Shell连接搜索...

预排序

因此,使用预排序功能够幅度提升数据检索性能,优化搜索引擎的服务能力。本章节介绍使用预排序功能的操作步骤。操作步骤 修改solrconfig.xml中的MergePolicy,具体请参见 Customizing Merge Policies。查询时,指定参数...

Java API访问

数据库HBase增强版全文索引服务支持多语言访问,并且完全...使用Solr Java API访问云数据库HBase增强版全文索引服务的操作和使用Solr Java API访问云原生多模数据库Lindorm搜索引擎的操作相同,具体请参见 通过开源Solr API访问搜索引擎。

Java Low Level REST Client

已获取云原生多模数据库Lindorm搜索引擎的连接地址,具体操作请参见 查看连接地址。操作步骤 安装Low Level Rest Client。以Maven项目为例,在 pom.xml 文件的 dependencies 中添加依赖项。示例代码如下:<dependency><groupId>org....

常见问题

数据量在20亿规模以上时,建议搜索引擎的规格选择16核64 GB。如果您在资源评估时需要帮助,请联系Lindorm技术支持(钉钉号:s0s3eg3)。创建搜索索引时,需要关注哪些参数?如果只是想体验搜索索引,并无严格的业务需求,请参见 管理搜索...

购买并登录LTS

宽表引擎的 搜索索引、数据订阅 和 备份恢复 功能依赖LTS服务,首次开通其中一个功能时需购买LTS节点。购买LTS节点后无需再单独购买LTS实例即可完成LTS服务支持的数据迁移等功能。说明 如果开通以上功能的其中一种时购买了LTS节点,则再...

JindoFS实战演示

Impala如何高效查询OSS数据 Impala如何高效查询OSS数据 2021-06-08 Apache Impala是一个开源的大数据查询分析引擎,能够快速查询分析存储在Hadoop集群的PB级数据。如果您已将HDFS数据迁移至OSS中,可通过在Impala中使用JindoFS SDK,高效...

基于向量检索版+LLM构建对话式搜索

行业算法版与高性能检索版的区别:产品概述:OpenSearch简介 OpenSearch是基于阿里巴巴自主研发的规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,在大数据场景下实现千亿数据毫秒级响应,提供订单、物流、保单等场景检索方案。...

基于向量检索版+LLM构建对话式搜索

行业算法版与高性能检索版的区别:产品概述:OpenSearch简介 OpenSearch是基于阿里巴巴自主研发的规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,在大数据场景下实现千亿数据毫秒级响应,提供订单、物流、保单等场景检索方案。...

支持的云服务

开放搜索OpenSearch 开放搜索OpenSearch是一款阿里云自主研发的规模分布式搜索引擎平台。您通过MaxCompute对数据进行计算处理后,可以在OpenSearch平台上通过添加数据源的方式将MaxCompute数据接入,详情请参见 MaxCompute数据源配置。更...

CREATE TABLE

数据写入量较大的场景中可以很好的实现数据均衡,搜索引擎默认按照主键进行HASH分区,同时也支持自定义的业务分区键。使用一级HASH分区时,如果自定义的HASH键存在热点问题,则可能导致大量数据写入同一个分区中,影响查询和写入性能,...

数据归档

本文介绍时序引擎的数据归档功能的使用方法。功能概要 在时序数据库持续写入的场景下,早先写入的时序数据会随着时间推移,查询频度逐渐降低。这样的数据通常被称为“冷数据”,与之相对的概念被称为“热数据”。随着冷数据体量的不断变...

使用MaxCompute访问

hadoop fs-cat/maxcompute2lindormstore/*验证文件引擎数据同步至MaxCompute 以下示例用来验证文件引擎数据是否同步到了MaxCompute上。说明 在验证文件引擎数据同步到MaxCompute中时,文件引擎上的测试数据是使用 验证MaxCompute数据同步至...

通过流引擎实现地理围栏监控

场景说明 通过流引擎的数据存储和实时计算能力,结合Ganos时空引擎技术,对车辆的点位数据进行地理围栏(指定的路径数据)监控判断。在地理围栏监控场景中,根据业务需求提前将地理围栏数据记录在Lindorm宽表中(图中的route_table表)。...

将时空数据写入宽表引擎

写入数据,使用Kafka客户端写入数据到数据流表,具体操作请参见 通过开源Kafka客户端写入Lindorm流引擎数据。完整的代码示例如下:import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer....

开通指南

LindormDFS存储容量在同一Lindorm实例内共享,同时LindormDFS也是多模引擎数据的共享存储,关于多模引擎数据存放路径的详细信息,请参见 LindormDFS目录结构说明。控制台开通 警告 开通文件存储服务后,多模引擎数据变为可见。使用文件引擎...

ALTER SYSTEM

宽表引擎数据文件的默认版本是2。说明 如果您在使用过程中遇到报错 Cell Tag is not supported since ldFileVersion is too small=2,可以将文件版本号修改为5来解决该问题。SLOW_QUERY_RECORD_ENABLE Boolean 宽表引擎 设置是否启用宽表...

一站式HTAP服务公测公告

公测开始时间 2023年04月01日 公测结束时间 2023年05月01日 简介 PolarDB PostgreSQL版 提供了一站式的HTAP服务,通过简单的SQL就可以将OLTP引擎的数据快速迁移到内置的OLAP存储和引擎上,内置的同步链路将会自动维持两份数据的一致性。...

产品架构

也可以作为宽表引擎、时序引擎的索引存储,对用户保持透明,即宽表/时序中的部分字段通过内部的数据链路自动同步搜索引擎,而数据的模型及读写访问对用户保持统一,用户无需关心搜索引擎的存在,跨引擎之间的数据关联、一致性、查询聚合、...

CREATE STREAM

tableProperties 是 指定数据流表的属性,包括以下配置项:VALUE_FORMAT:必选项,指定数据源写入Lindorm流引擎的数据格式,包括CSV、Avro、JSON等格式。KEY_VALUE:必选项,指定数据流表的主键列。STREAM_TOPIC:必选项,指定数据流表的...

系统管理

本文介绍了在数据分析中设置系统管理的具体操作。您可以在系统管理中管理SQL查询...说明 网络连通性测试为添加对应引擎的数据源时进行的资源组配置,连通性测试结果可在数据源页面查看。配置数据源测试网络连通性的操作请参见 配置数据源。

释放引擎

如果您不再使用 Lindorm实例 中的LTS服务或搜索引擎,可以通过Lindorm管理控制台手动释放,避免造成资金浪费。本文介绍通过控制台释放引擎的方法及相关注意事项。前提条件 实例的 服务类型 为Lindorm。如何查看服务类型,请参见 产品系列。...

通过开源Kafka客户端写入Lindorm流引擎数据

Lindorm流引擎完全兼容开源Kafka API,您可以通过Kafka API编写程序写入Lindorm流引擎数据,也可以通过开源的三方工具采集并写入Lindorm流引擎数据,例如FluentD、Debezium等。本文介绍通过开源Kafka客户端连接Lindorm流引擎并写入Lindorm...

通过开源Kafka客户端写入Lindorm消息引擎数据

Lindorm消息引擎完全兼容开源Kafka API,您可以通过Kafka API编写程序向Lindorm消息引擎写入数据,也可以通过开源的三方工具采集并写入Lindorm消息引擎数据,例如FluentD、Debezium等。本文介绍通过开源Kafka客户端连接Lindorm消息引擎并...

通过MySQL命令行连接并使用宽表引擎

数据库 default 连接Lindorm宽表引擎的数据库。如未指定,则默认连接 default 数据库。使用宽表引擎。执行以下语句创建名为test1的数据库。CREATE DATABASE test1;执行以下语句使用test1数据库。USE test1;在test数据库中创建名为tb的数据...

对接使用CDH与CDP

以下简称 CDH)与CDP(Cloudera Data Platform,以下简称CDP)集群对接的能力,在保留CDH集群或CDP集群作为存储和计算引擎的前提下,您可以使用DataWorks的任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理功能...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库备份 云数据库 RDS 智能开放搜索 OpenSearch 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用