当您需要将RDS MySQL中的数据同步到阿里云Elasticsearch(简称ES)中时,可使用阿里云Logstash的logstash-input-jdbc插件,通过管道配置功能实现。logstash-input-jdbc插件默认已安装,不可卸载。

使用限制

使用logstash-input-jdbc插件实现阿里云ES和MySQL同步的本质是该插件会定期对MySQL中的数据进行循环轮询,从而在当前循环中找到上次插入或更改的记录。因此要让同步任务正确运行,ES和MySQL必须满足以下条件:
  • ES中的_id字段必须与MySQL中的id字段相同。

    该条件可以确保当您将MySQL中的记录写入ES时,同步任务可在MySQL记录与ES文档之间建立一个直接映射的关系。例如当您在MySQL中更新了某条记录时,同步任务会覆盖ES中与更新记录具有相同id的文档。

    说明 根据ES内部原理,更新操作的本质是删除旧文档然后对新文档进行索引,因此在ES中覆盖文档的效率与更新操作的效率一样高。
  • 当您在MySQL中插入或者更新数据时,对应记录必须有一个包含更新或插入时间的字段。
    Logstash每次对MySQL进行轮询时,都会保存其从MySQL所读取的最后一条记录的更新或插入时间。在读取数据时,Logstash仅读取符合条件的记录,即该记录的更新或插入时间需要晚于上一次轮询中最后一条记录的更新或插入时间。
    注意 logstash-input-jdbc插件无法实现同步删除。如果您要删除ES中的数据,需要在ES中执行相关命令,手动删除。

准备工作

  1. 创建阿里云ES实例,并开启自动创建索引功能。
    具体操作步骤请参见创建阿里云Elasticsearch实例开启自动创建索引。本文使用7.4版本的实例。
  2. 创建阿里云Logstash实例,并上传与RDS MySQL版本兼容的SQL JDBC驱动。
    创建时所选专有网络VPC(Virtual Private Cloud)和版本要与目标ES实例相同,具体操作步骤请参见创建阿里云Logstash实例配置扩展文件本文使用mysql-connector-java-5.1.35.jar驱动)。
    说明 您也可以使用公网环境的服务,前提是需要通过配置NAT网关实现与公网的连通,详情请参见配置NAT公网数据传输
  3. 准备测试数据,并在RDS MySQL的白名单中加入阿里云Logstash节点的IP地址(可在基本信息页面获取)。
    设置白名单的具体步骤请参见设置白名单
    本文使用的建表语句如下。
    CREATE table food(
    id int PRIMARY key AUTO_INCREMENT,
    name VARCHAR (32),
    insert_time DATETIME,
    update_time DATETIME );
    插入数据语句如下。
    INSERT INTO food values(null,'巧克力',now(),now());
    INSERT INTO food values(null,'酸奶',now(),now());
    INSERT INTO food values(null,'火腿肠',now(),now());

配置Logstash管道

  1. 登录阿里云Logstash控制台
  2. 在顶部菜单栏处,选择地域。
  3. 实例列表页面,单击目标实例ID/名称链接,或者单击操作列下的实例管理
  4. 单击左侧导航栏的管道管理
  5. 管道列表区域,单击创建管道
    创建管道
  6. 创建管道任务页面,进行Config配置。
    本文使用的Config配置如下。
    input {
      jdbc {
        jdbc_driver_class => "com.mysql.jdbc.Driver"
        jdbc_driver_library => "/ssd/1/share/ls-cn-xxx/logstash/current/config/custom/mysql-connector-java-5.1.35.jar"
        jdbc_connection_string => "jdbc:mysql://rm-bp1xxxxx.mysql.rds.aliyuncs.com:3306/my_library?useUnicode=true&characterEncoding=utf-8&useSSL=false&allowLoadLocalInfile=false&autoDeserialize=false"
        jdbc_user => "xxxxx"
        jdbc_password => "xxxx"
        jdbc_paging_enabled => "true"
        jdbc_page_size => "50000"
        statement => "select * from food where update_time >= :sql_last_value"
        schedule => "* * * * *"
        record_last_run => true
        last_run_metadata_path => "/ssd/1/ls-cn-vxxxx/logstash/data/last_run_metadata_update_time.txt"
        clean_run => false
        tracking_column_type => "timestamp"
        use_column_value => true
        tracking_column => "update_time"
      }
    }
    filter {
    }
    output {
     elasticsearch {
        hosts => "http://es-cn-0h****dd0hcbnl.elasticsearch.aliyuncs.com:9200"
        index => "rds_es_dxhtest_datetime"
        user => "elastic"
        password => "xxxxxxx"
        document_id => "%{id}"
      }
    }
    表 1. input参数说明
    参数 描述
    jdbc_driver_class JDBC Class配置。
    jdbc_driver_library 指定JDBC连接MySQL驱动文件。
    jdbc_connection_string 配置数据库连接的域名、端口及数据库。
    jdbc_user 数据库用户名。
    jdbc_password 数据库密码。
    jdbc_paging_enabled 是否启用分页,默认false。
    jdbc_page_size 分页大小。
    statement 指定SQL语句。
    schedule 指定定时操作,"* * * * *"表示每分钟定时同步数据。
    record_last_run 是否记录上次执行结果。如果为true,则会把上次执行到的tracking_column字段的值记录下来,保存到last_run_metadata_path指定的文件中。
    last_run_metadata_path 指定最后运行时间文件存放的地址。目前后端开放了/ssd/1/ls-cn-xxxxxxx/logstash/data/路径来保存文件。
    clean_run 是否清除last_run_metadata_path的记录,默认为false。如果为true,那么每次都要从头开始查询所有的数据库记录。
    use_column_value 是否需要记录某个column的值。
    tracking_column_type 跟踪列的类型,默认是numeric。
    tracking_column 指定跟踪列,该列必须是递增的,一般是MySQL主键。
    注意
    • 以上配置按照测试数据配置,在实际业务中,请按照业务需求进行合理配置。input插件支持的其他配置选项请参见官方Logstash Jdbc input plugin文档。
    • 如果配置中有类似last_run_metadata_path的参数,那么需要阿里云Logstash服务提供文件路径。目前后端开放了/ssd/1/ls-cn-xxxxxxx/logstash/data/路径供您测试使用,且该目录下的数据不会被删除。因此在使用时,请确保磁盘有充足的使用空间。
    • 为了提升安全性,如果在配置管道时使用了JDBC驱动,需要在jdbc_connection_string参数后面添加allowLoadLocalInfile=false&autoDeserialize=false,否则当您在添加Logstash配置文件时,调度系统会抛出校验失败的提示,例如jdbc_connection_string => "jdbc:mysql://xxx.drds.aliyuncs.com:3306/test-database?allowLoadLocalInfile=false&autoDeserialize=false"

    更多Config配置详情请参见Logstash配置文件说明

  7. 单击下一步,配置管道参数。
    管道参数配置
    表 2. 管道配置参数说明
    参数 说明
    管道ID 必选,自定义输入。
    管道工作线程 并行执行管道的Filter和Output的工作线程数量。当事件出现积压或CPU未饱和时,请考虑增大线程数,更好地使用CPU处理能力。默认值:实例的CPU核数。
    管道批大小 单个工作线程在尝试执行Filter和Output前,可以从Input收集的最大事件数目。较大的管道批大小可能会带来较大的内存开销。您可以设置LS_HEAP_SIZE变量,来增大JVM堆大小,从而有效使用该值。默认值:125。
    管道批延迟 创建管道事件批时,将过小的批分派给管道工作线程之前,要等候每个事件的时长,单位为毫秒。默认值:50ms。
    队列类型 用于事件缓冲的内部排队模型。可选值:
    • memory:默认值。基于内存的传统队列。
    • persisted:基于磁盘的ACKed队列(持久队列)。
    队列最大字节数 请确保该值小于您的磁盘总容量。默认值:1024MB。
    队列检查点写入数 启用持久性队列时,在强制执行检查点之前已写入事件的最大数目。设置为0,表示无限制。默认值:1024。
    警告 配置完成后,需要进行保存和部署才能生效。保存和部署操作会触发实例变更,请在不影响业务的前提下,继续执行以下步骤。
  8. 单击保存或者保存并部署
    • 保存:将管道信息保存在Logstash里并触发实例变更,但不会触发配置。保存后,系统会返回管道管理页面。可在管道列表区域,单击操作列下的立即部署,触发配置。
    • 保存并部署:保存并且部署后,才会真正触发配置(也会触发实例变更)。

验证结果

  1. 登录目标阿里云ES实例的Kibana控制台。
    登录控制台的具体步骤请参见登录Kibana控制台
  2. 在左侧导航栏,单击Dev Tools(开发工具)。
  3. Console中,执行以下命令,查看同步成功的索引数量。
    GET rds_es_dxhtest_datetime/_count
    {
      "query": {"match_all": {}}
    }
    运行成功后,结果如下。
    {
      "count" : 3,
      "_shards" : {
        "total" : 1,
        "successful" : 1,
        "skipped" : 0,
        "failed" : 0
      }
    }
  4. 更新MySQL表数据并插入表数据。
    UPDATE food SET name='Chocolates',update_time=now() where id = 1;
    INSERT INTO food values(null,'鸡蛋',now(),now());
  5. 在Kibana控制台,查看更新后的数据。
    • 查询name为Chocolates的数据。
      GET rds_es_dxhtest_datetime/_search
      {
        "query": {
          "match_all": {
            "name": "Chocolates"
         }}
      }

      返回结果如下。

      返回结果
    • 查询所有数据。
      GET rds_es_dxhtest_datetime/_search
      {
        "query": {
          "match_all": {}
        }
      }

      返回结果如下。

      返回结果