本文为您介绍SQL Server Writer支持的数据类型、字段映射和数据源等参数及配置示例。

SQL Server Writer插件实现了写入数据至SQL Server主库的目标表的功能。在底层实现上, SQL Server Writer通过JDBC连接远程SQL Server数据库,并执行相应的insert into语句,将数据写入SQL Server,数据库本身会分批次提交数据入库。
说明 开始配置SQL Server Writer插件前,请首先配置好数据源,详情请参见配置SQL Server数据源

SQL Server Writer面向ETL开发工程师,通过SQL Server Writer从数仓导入数据至SQL Server。同时SQL Server Writer可以作为数据迁移工具,为数据库管理员等用户提供服务。

SQL Server Writer通过数据同步框架获取Reader生成的协议数据,通过insert into(当主键/唯一性索引冲突时,冲突的行会写不进去)语句,写入数据至SQL Server。另外出于性能考虑采用了PreparedStatement + Batch,并且设置了rewriteBatchedStatements=true,将数据缓冲到线程上下文Buffer中。当Buffer累计到预定阈值时,才发起写入请求。
说明
  • 目标表所在数据库必须是主库才能写入数据。
  • 整个任务至少需要具备insert into的权限,是否需要其它权限,取决于您配置任务时在preSqlpostSql中指定的语句。

SQL Server驱动版本支持列表

SQL Server Writer使用驱动版本是com.microsoft.sqlserver sqljdbc4 4.0,驱动能力具体请参见官网文档。该驱动支持的SQL Server版本如下所示:

版本 支持性(是/否)
SQL Server 2016
SQL Server 2014
SQL Server 2012
PDW 2008R2 AU34
SQL Server 2008 R2
SQL Server 2008
SQL Server 2019
SQL Server 2018
Azure SQL Managed Instance
Azure Synapse Analytics
Azure SQL Database

支持的字段类型

SQL Server全量的字段类型请参见SQL Server帮助文档。以下以SQL Server 2016为例,为您列举常见的字段类型的支持情况。
sql server 2016字段类型 SQL Server Reader SQL Server Writer
bigint 支持 支持
bit 支持 支持
decimal 支持 支持
int 支持 支持
money 支持 支持
numeric 支持 支持
smallint 支持 支持
smallmoney 支持 支持
tinyint 支持 支持
float 支持 支持
real 支持 支持
date 支持 支持
datetime2 支持 支持
datetime 支持 支持
datetimeoffset 不支持 不支持
smalldatetime 支持 支持
time 支持 支持
char 支持 支持
text 支持 支持
varchar 支持 支持
nchar 支持 支持
ntext 支持 支持
nvarchar 支持 支持
binary 支持 支持
image 支持 支持
varbinary 支持 支持
cursor 不支持 不支持
hierarchyid 不支持 不支持
sql_variant 支持 支持
Spatial Geometry Types 不支持 不支持
table 不支持 不支持
rowversion 不支持 不支持
uniqueidentifier 支持 支持
xml 支持 支持
Spatial Geography Types 不支持 不支持

类型转换列表

SQL Server Writer支持大部分SQL Server类型,但也存在个别没有支持的情况,请注意检查您的数据类型。

SQL Server Writer针对SQL Server的类型转换列表,如下所示。
类型分类 SQL Server数据类型
整数类 BIGINT、INT、SMALLINT和TINYINT
浮点类 FLOAT、DECIMAL、REAL和NUMERIC
字符串类 CHAR、NCHAR、NTEXT、NVARCHAR、TEXT、VARCHAR、NVARCHAR(MAX)和VARCHAR(MAX)
日期时间类 DATE、TIME和DATETIME
布尔类 BIT
二进制类 BINARY、VARBINARY、VARBINARY(MAX)和TIMESTAMP

参数说明

参数 描述 是否必选 默认值
datasource 数据源名称,脚本模式支持添加数据源,此配置项填写的内容必须要与添加的数据源名称保持一致。
table 选取的需要同步的表名称。
column 目标表需要写入数据的字段,字段之间用英文逗号分隔。例如"column":["id","name","age"]。如果要依次写入全部列,使用*表示,例如"column":["*"]
preSql 执行数据同步任务之前率先执行的SQL语句。目前向导模式仅允许执行一条SQL语句,脚本模式可以支持多条SQL语句,例如清除旧数据。
postSql 执行数据同步任务之后执行的SQL语句。目前向导模式仅允许执行一条SQL语句,脚本模式可以支持多条SQL语句,例如加上某一个时间戳。
writeMode 选择导入模式,可以支持insert方式。 当主键/唯一性索引冲突时,数据集成视为脏数据但保留原有的数据。 insert
batchSize 一次性批量提交的记录数大小,该值可以极大减少数据同步系统与SQL Server的网络交互次数,并提升整体吞吐量。如果该值设置过大,会导致数据同步运行进程OOM异常。 1,024

向导开发介绍

  1. 选择数据源。
    配置同步任务的数据来源数据去向选择数据源
    参数 描述
    数据源 即上述参数说明中的datasource,通常填写您配置的数据源名称。
    即上述参数说明中的table
    导入前准备语句 即上述参数说明中的preSql,输入执行数据同步任务之前率先执行的SQL语句。
    导入后完成语句 即上述参数说明中的postSql,输入执行数据同步任务之后执行的SQL语句。
    主键冲突 即上述参数说明中的writeMode,可以选择需要的导入模式。
  2. 字段映射,即上述参数说明中的column。左侧的源头表字段和右侧的目标表字段为一一对应关系。字段映射
    参数 描述
    同名映射 单击同名映射,可以根据名称建立相应的映射关系,请注意匹配数据类型。
    同行映射 单击同行映射,可以在同行建立相应的映射关系,请注意匹配数据类型。
    取消映射 单击取消映射,可以取消建立的映射关系。
    自动排版 可以根据相应的规律自动排版。
  3. 通道控制。通道控制
    参数 描述
    任务期望最大并发数 数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。
    同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。
    错误记录数 错误记录数,表示脏数据的最大容忍条数。
  4. 通道控制。通道配置
    参数 描述
    任务期望最大并发数 数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。
    同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。
    错误记录数 错误记录数,表示脏数据的最大容忍条数。
    分布式处理能力

    数据同步时,可以将任务切片分散到多台执行节点上并发执行,提高同步速率。该模式下,配置较大任务并发数会增加数据存储访问压力,如需使用该功能,请提前评估数据存储的访问负载。该功能仅支持在独享数据集成资源组配置,详情请参见独享数据集成资源组新增和使用独享数据集成资源组

脚本开发介绍

通过脚本模式开发的详情请参见通过脚本模式配置离线同步任务

配置写入SQL Server的作业,具体参数填写请参见参数说明。
说明 实际运行时,请删除下述代码中的注释。
{
    "type":"job",
    "version":"2.0",//版本号。
    "steps":[
        {
            "stepType":"stream",
            "parameter":{},
            "name":"Reader",
            "category":"reader"
        },
        {
            "stepType":"sqlserver",//插件名。
            "parameter":{
                "postSql":[],//执行数据同步任务之后率先执行的SQL语句。
                "datasource":"",//数据源。
                "column":[//字段。
                    "id",
                    "name"
                ],
                "table":"",//表名。
                "preSql":[]//执行数据同步任务之前率先执行的SQL语句。
            },
            "name":"Writer",
            "category":"writer"
        }
    ],
    "setting":{
        "errorLimit":{
            "record":"0"//错误记录数。
        },
        "speed":{
            "throttle":true,//当throttle值为false时,mbps参数不生效,表示不限流;当throttle值为true时,表示限流。
            "concurrent":1, //作业并发数。
            "mbps":"12"//限流
        }
    },
    "order":{
        "hops":[
            {
                "from":"Reader",
                "to":"Writer"
            }
        ]
    }
}