HDFS是一个分布式文件系统,为您提供读取和写入HDFS双向通道的功能,本文为您介绍如何配置HDFS数据源。
背景信息
使用限制:目前不支持阿里云文件存储HDFS版。
标准模式的工作空间支持数据源开发和生产环境隔离功能,您可以分别添加开发环境和生产环境的数据源,并进行隔离,以保护您的数据安全。
- defaultFS的配置请以oss://为前缀。例如,oss://bucketName。
- 您需要在高级参数中配置连接OSS服务时需要的参数,示例如下。
{ "fs.oss.accessKeyId":"<yourAccessKeyId>", "fs.oss.accessKeySecret":"<yourAccessKeySecret>", "fs.oss.endpoint":"oss-cn-<yourRegion>-internal.aliyuncs.com" }
操作步骤
- 进入数据源管理页面。
- 登录DataWorks控制台。
- 在左侧导航栏,单击工作空间列表。
- 选择工作空间所在地域后,单击相应工作空间后的进入数据集成。
- 在左侧导航栏,单击数据源,进入数据源管理页面。
- 在数据源管理页面,单击右上角的新增数据源。
- 在新增数据源对话框中,选择数据源类型为HDFS。
- 在新增HDFS数据源对话框中,配置各项参数。HDFS数据源包括连接串模式和CDH集群内置模式两种类型:
- 以新增HDFS > 连接串模式类型的数据源为例。
参数 描述 数据源名称 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。 数据源描述 对数据源进行简单描述,不得超过80个字符。 适用环境 可以选择开发或生产环境。 说明 仅标准模式工作空间会显示该配置。DefaultFS Hadoop HDFS文件系统中nameNode节点地址,格式为 hdfs://ServerIP:Port
。连接扩展参数 HDFS插件的hadoopConfig配置参数,您可以配置与Hadoop相关的高级参数,例如Hadoop HA的配置。 特殊认证方式 选择数据源是否需要进行身份认证。默认选择无。目前认证方式仅支持选择Kerberos认证。关于Kerberos认证详细介绍请参见附录:配置Kerberos认证。
keytab文件 如果特殊认证方式选择为Kerberos认证,请选择需要使用的keytab文件。
如果没有可用的keytab文件,请单击新增认证文件进行添加。
conf文件 如果特殊认证方式选择为Kerberos认证,请选择需要使用的conf文件。
如果没有可用的conf文件,请单击新增认证文件进行添加。
principal 填写Kerberos认证的主体,即Kerberos账户,格式为:主名称/实例名称@领域名。例如****/hadoopclient@**.*** 。
- 以新增HDFS > CDH集群内置模式类型的数据源为例。
参数 描述 数据源名称 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。 数据源描述 对数据源进行简单描述,不得超过80个字符。 适用环境 可以选择开发或生产环境。 说明 仅标准模式工作空间会显示该配置。选择CDH集群 选择已创建的CDH集群。 特殊认证方式 选择数据源是否需要进行身份认证。默认选择无。目前认证方式仅支持选择Kerberos认证。关于Kerberos认证详细介绍请参见附录:配置Kerberos认证。
keytab文件 如果特殊认证方式选择为Kerberos认证,请选择需要使用的keytab文件。
如果没有可用的keytab文件,请单击新增认证文件进行添加。
conf文件 如果特殊认证方式选择为Kerberos认证,请选择需要使用的conf文件。
如果没有可用的conf文件,请单击新增认证文件进行添加。
principal 填写Kerberos认证的主体,即Kerberos账户,格式为:主名称/实例名称@领域名。例如****/hadoopclient@**.*** 。
- 以新增HDFS > 连接串模式类型的数据源为例。
- 选择资源组连通性类型为数据集成。
- 在资源组列表,单击相应资源组后的测试连通性。数据同步时,一个任务只能使用一种资源组。您需要测试每个资源组的连通性,以保证同步任务使用的数据集成资源组能够与数据源连通,否则将无法正常执行数据同步任务。如果您需要同时测试多种资源组,请选中相应资源组后,单击批量测试连通性。详情请参见配置资源组与网络连通。说明
- (推荐)资源组列表默认仅显示独享数据集成资源组,为确保数据同步的稳定性和性能要求,推荐使用独享数据集成资源组。
- 如果您需要测试公共资源组或自定义资源组的连通性,请在资源组列表右下方,单击更多选项,在警告对话框单击确定,资源组列表会显示可供选择的公共资源组和自定义资源组。
- 测试连通性通过后,单击完成。