配置Milvus数据源与数据同步任务-大数据开发治理平台 DataWorks-阿里云

Milvus数据源为您提供写入Milvus向量数据库的通道，本文为您介绍DataWorks对Milvus数据同步的能力支持情况。

支持的Milvus版本

Milvus: 2.4.x
Milvus：2.5.x

支持的字段类型

Milvus Writer针对Milvus的类型转换列表，如下所示。

类型分类	Milvus数据类型
LONG	Int8、Int16、Int32、Int64
DOUBLE	Float、Double，FloatVector
STRING	String、VarChar、SparseFloatVector、JSON、Array
BOOLEAN	Bool
BYTES	BFloat16Vector、Float16Vector、BinaryVector

创建数据源

在进行数据同步任务开发时，您需要在DataWorks上创建一个对应的数据源，操作流程请参见数据源管理，详细的配置参数解释可在配置界面查看对应参数的文案提示。

数据同步任务开发

数据同步任务的配置入口和通用配置流程可参见下文的配置指导。

单表离线同步任务配置指导

操作流程请参见向导模式配置、脚本模式配置。
脚本模式配置的全量参数和脚本Demo请参见下文的附录：脚本Demo与参数说明。

附录：脚本Demo与参数说明

离线任务脚本配置方式

如果您配置离线任务时使用脚本模式的方式进行配置，您需要按照统一的脚本格式要求，在任务脚本中编写相应的参数，详情请参见脚本模式配置，以下为您介绍脚本模式下数据源的参数配置详情。

Reader脚本Demo

{
  "job": {
    "content": [
      {
        "reader": {
          "parameter": {
            "endpoint": "http://xxxx.milvus.aliyuncs.com:19530",
            "collection": "testColection",
            "database": "default",
            "password": "xxxxxxx",
            "username": "root",
            "column": [
              {
                "name": "id",
                "type": "Int64",
                "primaryKey": "true"
              },
              {
                "name": "int8col",
                "type": "Int8"
              },
              {
                "name": "int16col",
                "type": "Int16"
              }
            ]
          },
          "name": "milvusreader"
        },
        "writer": {
          "stepType": "stream",
          "parameter": {

          },
          "name": "Writer",
          "category": "writer"
        }
      }
    ],
    "setting": {
      "errorLimit": {
        "record": "0"
      },
      "speed": {
        "throttle": false,
        "concurrent": 1,
        "channel": 1
      }
    }
  }
}

Reader脚本参数

参数	描述	是否必选	默认值
collection	读取Milvus的集合（表名）	是	无
batchSize	批量读取的大小	否	1024
filter	数据读取过滤条件，相当于where语句，配置方式参考：https://milvus.io/docs/zh/boolean.md	否	无
column	源端读取的milvus字段，支持两种方式配置动态字段同步：所有动态字段作为一个JSON同步字段。 `"cloumn":[{ "name":"dynamicName", "type":"json", "dynamicFileType":"allDynamicField" }]` 单动态字段同步，{singleDynamicName}为集合中动态字段名称。 `"cloumn":[{ "name":"{singleDynamicName}", "type":"int", "dynamicFileType":"singleDynamicField" }]`	是	无

Writer脚本Demo

{
  "transform": false,
  "type": "job",
  "version": "2.0",
  "steps": [
    {
      "stepType":"stream",
      "parameter":{},
      "name":"Reader",
      "category":"reader"
    },
    {
      "stepType": "milvus",
      "parameter": {
        "schemaCreateMode": "createIfNotExist",     //集合创建模式
        "enableDynamicSchema": true,            //集合创建时是否开启动态字段
        "envType": 1,
        "datasource": "zm_test",
        "column": [  //同步字段
          {
            "name": "floatv1",
            "type": "FloatVector",
            "dimension": "3"
          },
          {
            "name": "incol",
            "type": "Int16"
          }
        ],
        "writeMode": "insert",  //写入方式
        "collection": "test",  //写入集合
        "batchSize": 1024      // 单次写入批量大小
      },
      "name": "Writer",
      "category": "writer"
    }
  ],
  "setting": {
    "errorLimit": {
      "record": "0"
    },
    "speed": {
      "concurrent": 2,
      "throttle": false
    }
  }
}

Writer脚本参数

脚本参数名	描述	是否必选	默认值
datasource	数据源名称，脚本模式支持添加数据源，该配置项输入的内容必须和添加的数据源名称保持一致。	是	无
collection	写入Milvus的集合名。	是	无
partition	写入Milvus集合的分区，不填写入_default默认分区。	否	_default
column	Milvus 同步写入Field字段，配置为数组形式，单字段信息配置为JSON格式，内容包含： name： Field字段名 type： Field字段类型字段属性：如向量字段的维度`"dimension":3`	是	无
writeMode	Milvus数据库支持upsert和insert两种写入方式： upsert: 在非autoid表下根据主键更新 Collection 中的某个 Entity；autoid表Milvus 会将 Entity 中的主键替换为自动生成的主键，并插入数据。 insert: 多用于autoid表插入数据milvus自动生成主键，非autoid表下使用insert会导致数据重复。	否	upsert
batchSize	单次写入Milvus的批量大小。	否	1024
schemaCreateMode	在同步前进行集合检查，根据配置的模式进行集合操作，支持如下三种模式： createIfNotExist：检查集合不存时，根据配置的column等信息，创建对应集合进行同步。 Ignore：检查集合不存时，报错集合不存在 recreate：每一次同步，先删除原集合，然后根据column等信息重新创建集合进行同步。	是	createIfNotExist
enableDynamicSchema	创建集合是否启用动态schema。	否	true