Databricks数据源

本文为您介绍DataWorksDatabricks数据同步的能力和支持情况。

使用说明

  • 使用限制

    • 资源组:Databricks Reader 仅支持 Serverless资源组,并且需要为资源组绑定的VPC配置公网 NAT 网关EIP。

    • 读取模式:数据同步仅支持 JDBC模式读取数据。

  • 并发读取与数据一致性问题

    Databricks Reader 通过 splitPk 配置对数据进行切分,并启动多个并发任务以提高同步效率。但请注意以下关键点:

    • 多个并发任务不属于同一个数据库事务,且存在时间间隔。

    • 在数据源持续写入的情况下,并发读取可能导致获取的数据快照不完整或不一致。

    解决方案:由于技术限制,无法实现跨多线程的完美一致性快照。我们提供以下两种工程上的解决方案,请根据业务场景权衡选择:

    • 方案一:配置为单线程同步,不设置数据切片(splitPk)。可以保证数据严格一致,但同步速度较慢。

    • 方案二:在同步期间确保数据源为静态。例如,通过锁表、临时关闭应用写入或暂停备库同步等方式。同步速度较快,但可能对线上业务造成影响。

  • 编码处理

    Databricks Reader 底层使用 JDBC 进行数据抽取,JDBC 会自动处理不同数据库的编码识别与转换。因此,您无需手动配置编码。

  • 增量数据同步

    Databricks Reader 通过执行 SELECT ... WHERE ... 语句来抽取数据,实现增量同步的关键在于 WHERE 条件的构造。

    1. 推荐方式(基于时间戳字段):

      1. 在您的源数据库表中,设计一个时间戳字段(例如 modify_time)。

      2. 当应用对数据进行新增或更新(包括逻辑删除)时,务必同步更新该时间戳字段。

      3. 在同步任务中,使用该时间戳字段作为 WHERE 条件,即可拉取上一同步点之后发生变化的数据。

    2. 不支持的情况:如果业务表中没有可用于区分新增或修改的字段(如时间戳或自增ID),Databricks Reader 无法进行增量同步,只能进行全量数据同步。

支持的字段类型

在进行离线读取时,Databricks Reader支持大部分Databricks类型,但也存在个别类型未被支持的情况,请注意检查您的数据类型。

Databricks Reader针对Databricks类型的转换列表,如下所示。

类型分类

Databricks数据类型

整数类

TINYINT、SMALLINT、INT、BIGINT

浮点类

FLOAT、DOUBLE、DECIMAL

字符串类

STRING

日期时间类

DATE、TIMESTAMP、TIMESTAMP_NTZ

布尔类

BOOLEAN

复杂类型

ARRAY、MAP、STRUCT

其他类型

INTERVAL、 BINARY、GEOGRAPHY(srid)、GEOMETRY(srid)

创建数据源

在进行数据同步任务开发时,您需要在DataWorks上创建一个对应的数据源,操作流程请参见数据源管理详细的配置参数解释可在配置界面查看对应参数的文案提示

数据同步任务开发

数据同步任务的配置入口和通用配置流程可参见下文的配置指导。

单表离线同步任务配置指导

常见问题(FAQ)

  • Q:读取报错:[Databricks][JDBCDriver](500313) Error getting the data value from result set: Column13:[Databricks][JDBCDriver](500312) Error in fetching data rows: Timestamp Conversion has failed.

    A:Databricks 的 TIMESTAMP 类型取值范围超过 JAVA Timestamp 取值范围,如果出现了超出范围的值,JDBC Driver 会报错。可以通过修改 column 配置解决,例如"column": ["CAST(col_timestamp AS STRING)"]

附录:脚本Demo与参数说明

离线任务脚本配置方式

如果您配置离线任务时使用脚本模式的方式进行配置,您需要按照统一的脚本格式要求,在任务脚本中编写相应的参数,详情请参见通过脚本模式配置离线同步任务,以下介绍脚本模式下数据源的参数配置详情。

Reader脚本Demo

{
  "type": "job",
  "version": "2.0",
  "steps": [
    {
      "stepType": "databricks",
      "parameter": {
        "datasource": "databricks",
        "schema": "schema1",
        "table": "table1",
        "readMode": "jdbc",
        "where": "id>1",
        "splitPk": "id",
        "column": [
          "c1",
          "c2"
        ]
      },
      "name": "Reader",
      "category": "reader"
    },
    {
      "stepType": "stream",
      "parameter": {},
      "name": "Writer",
      "category": "writer"
    }
  ],
  "setting": {
    "errorLimit": {
      "record": "0"
    },
    "speed": {
      "concurrent": 1
    }
  }
}

Reader脚本参数

参数

描述

是否必选

默认值

datasource

数据源名称,脚本模式支持添加数据源,此配置项填写的内容必须要与添加的数据源名称保持一致。

column

所配置的表中需要同步的列名集合,使用JSON的数组描述字段信息。

  • 支持列裁剪,即可以导出部分列。

  • 支持列换序,即可以不根据表Schema信息顺序导出列。

  • 支持常量配置,您需要遵循DatabricksSQL语法格式。

举例:"column":["id", "1", "'const name'", "null", "upper('abc_lower')", "2.3" , "true"]

  • id为普通列名。

  • 1为整型数字常量。

  • 'const name'为字符串常量(需要加上一对单引号)。

  • null为空指针。

  • upper('abc_lower')为函数表达式。

  • 2.3为浮点数。

  • true为布尔值。

column必须显式需指定同步的列集合,不允许为空 。

splitPk

Databricks Reader进行数据抽取时,如果指定splitPk,表示您希望使用splitPk代表的字段进行数据分片。数据同步系统会启动并发任务进行数据同步,以提高数据同步的效能:

  • 推荐用户使用表主键作为splitPk,因为表主键通常情况下比较均匀,因此切分出来的分片也不容易出现数据热点。

  • 目前splitPk仅支持整型数据切分,不支持浮点、字符串和日期等其它类型。如果您指定其它非支持类型,Databricks Reader将报错。

where

过滤条件,Databricks Reader根据指定的columntablewhere条件拼接完整,并根据该SQL抽取数据。 在实际业务场景中,通常会选择当天的数据进行同步,可以指定where条件为gmt_create>${bizdate}where条件可以有效地进行业务增量同步。如果该值为空,代表同步全表所有的信息。

schema

所选取的需要同步的schema。

table

所选取的需要同步的表,一个作业只能支持一个表同步。

readMode

数据读取模式,目前仅支持JDBC模式。

jdbc