文档

Dataphin中管道任务从MaxCompute同步Emoj数据到MySQL8出现脏数据

更新时间:
一键部署

概述

Dataphin中管道任务从MaxCompute同步Emoj数据到MySQL8出现脏数据。

"jdbcUrl":"jdbc:mysql://rm-rn0e2179640.mysql.rds.aliyuncs.com:3306/da?\bcharacterEncoding=UTF-8mb4"

详细信息

  • 执行以下命令查询MySQL数据集相关参数:
SHOW VARIABLES WHERE Variable_name LIKE 'character_set_%' OR Variable_name LIKE 'collation%';

8个 character_set 变量:
  一、character_set_client
  二、character_set_connection
  三、character_set_database
  四、character_set_filesystem
  五、character_set_results
  六、character_set_server
  七、character_set_system
  八、character_sets_dir

一、character_set_client
  主要用来设置客户端使用的字符集。

二、character_set_connection
  主要用来设置连接数据库时的字符集,如果程序中没有指明连接数据库使用的字符集类型则按照这个字符集设置。

三、character_set_database
  主要用来设置默认创建数据库的编码格式,如果在创建数据库时没有设置编码格式,就按照这个格式设置。

四、character_set_filesystem
  文件系统的编码格式,把操作系统上的文件名转化成此字符集,即把 character_set_client转换character_set_filesystem, 默认binary是不做任何转换的。

五、character_set_results
  数据库给客户端返回时使用的编码格式,如果没有指明,使用服务器默认的编码格式。

六、character_set_server
  服务器安装时指定的默认编码格式,这个变量建议由系统自己管理,不要人为定义。

七、character_set_system
  数据库系统使用的编码格式,这个值一直是utf8,不需要设置,它是为存储系统元数据的编码格式。

八、character_sets_dir
  这个变量是字符集安装的目录。

在启动MySQL后,我们只关注下列变量是否符合我们的要求
character_set_client
character_set_connection
character_set_database
character_set_results
character_set_server
下列三个系统变量我们不需要关心,不会影响乱码等问题
character_set_filesystem
character_set_system
character_sets_dir
更改以上字符集直接 set character_set_XXX = “gbk”;(XXX是写以上的变量名)

  • uft8mb4字符集

什么是utf8mb4

MySQL在5.5.3版本之后增加了这个utf8mb4的编码,mb4就是most bytes 4的意思,专门用来兼容四字节的unicode。

utf8与utf8mb4的联系
utf8mb4是utf8的超集(也就是说utf8mb4包含utf8),理论上原来使用utf8,然后将字符集修改为utf8mb4,也会不会对已有的UTF8编码读取产生任何问题。当然,为了节省空间,一般情况下使用utf8也就够了。

为什么要用utf8mb4
低版本的MySQL支持的UTF8编码,最大字符长度为3字节,如果遇到4字节的字符就会出现错误了。三个字节的UTF-8最大能编码的Unicode字符是0xFFFF,也就是 Unicode 中的基本多文平面(BMP)。也就是说,任何不在基本多文平面的 Unicode字符,都无法使用MySQL原有的UTF8字符集存储。
这些不在BMP中的字符包括哪些呢?最常见的就是Emoji 表情(Emoji 是一种特殊的 Unicode 编码,常见于 ios 和 android 手机上),和一些不常用的汉字,以及任何新增的 Unicode 字符等等。

  • 修改为以下链接问题解决:
"jdbcUrl":"jdbc:mysql://rm-rn0e2179640.mysql.rds.aliyuncs.com:3306/da?useUnicode=true&autoReconnect=true&com.mysql.jdbc.faultInjection.serverCharsetIndex=45",

适用于

  • Dataphin
  • 本页导读
文档反馈