文档

大数据上云及巡检服务内容说明

更新时间:
一键部署

1.服务说明

1.1. 大数据迁移服务说明

随着云计算的普及,越来越多的企业客户选择将计算平台迁移至云上。大数据平台迁移服务提供计算平台迁移相关的迁移方案设计和迁移实施过程(包括数据迁移、任务迁移)中的技术支持。帮助客户制定满足客户业务系统的大数据平台迁移改造技术方案,快速高效的实现数据/作业的迁移,保证数据的一致性。以解决以下客户痛点:

  • 对云计算平台产品不熟悉,对大数据迁移没有设计经验,缺乏相应的迁移方案设计能力。

  • 数据迁移整体流程不熟悉,缺少实操经验,包括流程管控和迁移实施经验,迁移前后的数据的一致性,以及迁移工具使用出现问题,不知如何定位和排查,缺少技术指导和支持。

  • 任务迁移整体流程不熟悉,缺少实操经验,包括流程管控和迁移实施经验,以及迁移工具使用出现问题,不知如何定位和排查,缺少技术指导和支持。

本服务包含四项子服务,客户可以结合自身业务需求进行购买:

  • 大数据迁移方案设计服务(可选)

  • 大数据迁移方案实施基础服务(可选数据迁移、任务迁移两种子服务其中之一)

  • 大数据迁移方案实施增补服务(可选)

服务注意事项如下:
  • 本SOW在一次售卖中仅包括迁移咨询、数据迁移、业务迁移这三个服务其中之一

  • 迁移实施(包括数据迁移、任务迁移)的工作量评估,都建立在迁移资源可以及时到位的前提下。

  • 迁移的资源成本不包括本服务包成本内,本服务包仅负责资源的使用。

  • 如无特别要求,默认迁移周期>=2个月。

  • 本服务包所支持的迁移场景列表如下,一个服务包的一次售卖中,仅包括下列场景之一:

    • 开源Hive/Hadoop -> 阿里云EMR-Hive

    • 开源Spark -> 阿里云EMR-Spark

    • 开源Hive/Hadoop -> 阿里云Maxcompute

    • 开源Spark -> 阿里云Maxcompute(非pyodps)

    • 开源Flink -> 阿里云 Flink

    • ClickHouse -> 阿里云ClickHouse

    • 云上/下Maxcompute -> 云上/下Maxcompute

    • 不在以上范围内的,具体项目分析

  • 本文提到的『任务量』的计量与场景、任务类型、调度等诸多因子相关,请线下与服务包PD咨询,要根据客户情况来计算。

1.2. 大数据巡检服务说明

基于阿里云大数据平台运维巡检最佳实践,为客户提供云原生、EMR商业开源平台监控采集配置服务,根据运维周期按次提供主动运维巡检健康检查,并结合数据业务现状输出健康分析报告。以解决客户耍得的大数据产品配置不合理、资源利用率不高、架构可用性隐患、生产任务频繁故障,无法提前感知等痛点。

服务注意事项如下:
  • 声明本服务支持产品范围为:

    • 开源EMR

    • 阿里云EMR

    • 阿里云Maxcompute/Dataworks/Hologress

    • 不在以上范围内的,基于项目具体分析

2.服务范围

各项子服务服务范围如下:

2.1.迁移方案设计服务范围

针对客户业务系统链路改造上阿里云计算平台的整体迁移链路技术方案设计:通过调研客户当前的业务系统、链路架构、上云要求,设计满足客户要求的包括数据及任务的增量迁移/存量迁移/增全量合并/一致性校验/sql改造一整套迁移链路设计,包括业务系统到云上产品链路、迁移所用工具以及关键步骤的实施说明,以及割接要点说明。

  • 方案设计的技术参数有如下约束:

源端集群数

调度组件数

数据量

表数量

任务量

<=4

<=2

10P

1万

3000

2.2.迁移实施基础服务之数据迁移服务范围

基于迁移规划产出的方案,为客户大基于迁移规划产出的方案,为客户大数据平台数据迁移过程中提供工具部署使用培训以及技术支持,问题解决,保障实施过程顺利进行,并配合完成数据迁移的割接。

  • 迁移规模有如下约束:

源端集群数

调度组件数

数据量

表数量

任务量

<=2

1P

1000

2.3.迁移实施基础服务之任务迁移技术支持服务范围

基于迁移规划产出的方案,为客户大数据平台任务迁移过程中提供工具部署使用培训以及技术支持,问题解决,保障实施过程顺利进行,并配合完成任务迁移的割接。

  • 迁移规模有如下约束(其中任务量的计算受迁移的组件异构性、任务是否改造等多种因子影响,具体要根据售前调研情况来确定):

源端集群数

调度组件数

数据量

表数量

任务量(仅参考)

<=2

<=1

售前调研来定

2.4.迁移实施增补之服务范围

作为大数据平台迁移实施基础服务的补充,除按工作量扩充基础服务之外,也可以为客户大数据平台迁移过程中提供基础服务之外的升级服务,如驻场护航、技术答疑、技术培训等标准化的迁移升级服务。

  • 升级服务有如下约束(其中任务量的计算受迁移的组件异构性、任务是否改造等多种因子影响,具体要根据售前调研情况来确定):

服务类型

服务内容

服务范围

数据迁移或者任务迁移技术支持的工作量扩充

扩充同一场景下基础服务包未能覆盖的迁移工作量

与方案设计、数据迁移、任务迁移等保持一致

技术答疑

仅对应一种大数据产品的Landing使用,包括资源评估、用户权限设计、网络分配等

  • Dataworks/Maxcompute/Hologress,

  • EMR(Spark、Hadoop、Hive)

  • EMR-Flink

技术培训

仅对应一种大数据产品使用培训,不超过2人天课程,3人天课后答疑

  • Dataworks/Maxcompute/Hologress,

  • EMR(Spark、Hadoop、Hive)

  • EMR-Flink

驻场护航

客户重大活动或者重大项目(如平台改造、平台迁移、营销大促等)运行期间,提供驻场护航服务,不超过10人天驻场支持

  • Dataworks/Maxcompute/Hologress,

  • EMR(Spark、Hadoop、Hive)

  • EMR-Flink

2.5.大数据平台巡检服务范围

序号

主要工作内容

详细描述

需求阶段

现状调研

调研客户当前的大数据架构数据链路等,调研客户大数据平台巡检的需求范围和日常痛点

需求确认

理解客户需求,梳理关键指标清单和巡检目标,与客户确认需求

系统巡检

巡检实施

通过Prometheus、或自研工具等方式为部署巡检采集服务,获取需求阶段的指标清单,如集群运行环境(cpu、内存、磁盘、网络等),大数据服务运行信息(服务占用cpu、内存、中间目录等)

分析诊断

基于收集的指标和配置信息,输出集群运行状态巡检报告,对集群资源使用异常、服务异常等情况进行诊断

产出报告

产出报告

1)从环境配置、运行性能、存储合理、安全等多维度评估巡检产出,形成报告文档 2)针对高频可优先、或使用风险场景给出问题诊断和优化建议,如大数据集群配置任务消耗资源度、高频低效运算、小文件堆积、分区异常等情况

2.6.本服务不包括以下内容

  • 本服务不包括应用迁移/数据库平迁/应用程序改造/应用程序设计/数据库逻辑结构设计。

  • 迁移未明确认定为“范围内”的应用系统。

  • 迁移未明确认定为“范围内”的数据。

  • 云平台基础架构设施及环境的设计与搭建。

  • 实施所需的通信基础架构和组件。

  • 安装或配置电气、电子通信、布线基础架构和组件,以及为其提供支持。

  • 非IT设备以及桌面设备(如办公桌椅、打印设备、空调、UPS、磁带等)等的安装配置。

  • 本服务不承诺提供任何应用改造,仅负责限定范围内的数据及任务迁移,因平台替换导致的兼容性问题由客户负责改造。

  • 乙方不为具体进度负责,由甲方原因导致的进度不符合预期,乙方不承担延期责任。

3.前提条件

  • 客户应提前至少15个自然日申请该服务,以便于阿里云评估客户业务目标及时间计划可行,确认是否承接该服务申请。

  • 如客户的申请涉及大批量资源需求,建议客户提前一个月申请,具体视供应链评估情况协商。

  • 客户应在阿里云承接服务后,提供场地、设备、必要的非生产环境及远程访问通道、权限、明确的业务目标(如迁移范围、迁移产品方案等)等,协助阿里云开展服务。

  • 客户应审核阿里云制定的项目实施计划,以书面形式(包括但不限于电子邮件)确认阿里云提供的具体实施计划。客户如无正当技术理由,不得否定双方已确认的技术建议或方案,以确保及时实现本服务目的。

  • 按双方协商约定时间实施具体的迁移服务。

4.分工边界

4.1.客户与阿里云

项目阶段

甲方

乙方

项目准备

1. 指定一名具备合适技能和经验的项目经理作为与乙方沟通的主要联系人,代表甲方直接负责项目实施的计划、协调、监督与控制以及升级问题与风险,同时全权代表甲方在本项目的各个方面做出决策。

2. 项目经理应协同乙方人员针对项目准备阶段的所有事项(见本工作说明书《2.1 项目准备》)进行确认。

3. 办公环境准备与人员出入许可权限批准。

4. 管理甲方项目组相关人员且和各阶段需投入人员进行沟通交流并取得投入项目的承诺与时间。

5. 管理甲方项目组相关人员。

1. 指派一名有经验的项目经理执行项目管理,并引入、管理乙方项目组人员,与甲方项目经理沟通

2. 针对项目准备阶段的所有事项(见本工作说明书《2.1 项目准备》)提出方案与计划与甲方项目经理进行确认并书面记录在案

现状调研阶段

1.根据项目计划与访谈计划,组织关键用户参与调研访谈

2.根据乙方提供的需求调研表格,提供现有业务概况,如所用组件,数据源类型,数据源数量,迁移作业数,作业类型, 作业运行方式,了解用户迁移所用阿里云组件,数据迁移方式(存量迁移方式/增量迁移方式),作业迁移方式,一致性校验标准等作为乙方评估调研评估输入 3.确认乙方的数据上云策略与风险控制策略 4.部署乙方提供的数据探查采集工具,并上传采集结果完成评估分析 5.指定验收人负责审核乙方交付物并提供反馈与确认

1. 提供访谈计划并根据访谈结果评估现有系统架构/部署架构。

2.根据调研评估结果提出数据上云策略与风险控制策略,并与甲方达成一致

3.协助甲方分析数据迁移评估结果

4.根据甲方验收反馈确保最终交付物符合验收标准

方案设计阶段

1.配合乙方进行数据架构选型和设计。

2.配合乙方进行数据迁移方案的设计。 3.根据乙方的作业改造建议,进行sql代码检查,确认具体改造的范围和改造方案

4.指定验收人负责审核乙方交付物并提供反馈与确认验收

1.根据服务范围,结合客户具体场景进行组件选型和架构设计。

2.根据客户当前系统、云上产品、数据规模和大小,业务特点,设计数据迁移方案,推荐合适的迁移工具。

3.分析目标作业与源作业的兼容性,提供作业改造建议以及sql代码检查建议。

4. 根据甲方验收反馈确保最终交付物符合验收标准

方案验证阶段

1.根据作业兼容性分析、sql改造建议,进行1个示例作业改造,并进行业务验证

2.验证数据迁移方案

1.协助并指导甲方开通或购买云资源以及基础架构搭建与配置

2.提供作业改造过程的相关技术支持

3.协助甲方验证数据迁移方案,提供迁移过程中的答疑、工具培训、技术支持

4.在该阶段只选择1个示例进行咨询方案的验证。

迁移实施阶段

1.根据作业兼容性分析以及改造建议,执行作业代码改造等实施工作

2.执行数据迁移、割接演练

3.根据应用测试、割接演练结果准备业务割接

1.协助并指导甲方开通或购买云资源以及基础架构搭建与配置

2.提供作业改造的相关技术支持

3.协助甲方数据迁移,提供迁移过程中的答疑、工具培训、技术支持

割接与护航

1.确认业务割接到阿里数据平台的计划并指定相应的协同割接人员

2.清理测试数据并确认生产资源准备就绪

3.在计划时间窗口内完成系统割接工作,并验证切换后的业务测试

4.若遇非乙方系统或服务问题,协助乙方协调第三方系统相关人员进行问题修复

5.指定运维接口人与乙方交接业务上线后的注意事项

6.指定验收人负责审核乙方交付物并提供反馈与确认验收

1.协助甲方进行系统割接准备并对系统割接计划与甲方达成共识

2.根据甲方指定的具体业务系统,在割接演练期间提供计算平台相关技术支持和问题解决。

3.协助甲方进行系统割接并在系统割接过程中提供阿里云计算平台相关的技术支持、问题排查与解决方案

4.在系统切换完成后,提供运维问题排查,针对在项目范围内的问题提供修复或临时解决方案

5.与甲方运维接口人进行运维交接

巡检实施

1.配合乙方进行实施巡检配置,包括产品开通、部署、必要的配置工作协作等。

1.根据服务范围,实施巡检配置,覆盖调研阶段所提出的指标需求。

2.收集巡检指标结果,建立数据分析模型,形成巡检决策结果

巡检报告

1.确认验收

1.负责产出结果报告,并给出必要的建议

4.2.完工标准

满足下列条件之一,则视为完工:

  • 完成2.服务范围内的工作量,并由客户验收后,即可视为完工。

  • 如果因客户侧原因导致项目暂停或终止,但阿里云已按时间期限提供了20人天服务,则也算完工。

5.服务项

阿里云针对客户的业务目标,包含以下服务:

5.1.方案设计

主要工作内容

详细描述

现状调研

1、调研客户所指定迁移范围内的端大数据系统的相关信息,包括当前所用组件,数据源类型,数据源数量,迁移作业数,作业类型, 作业运行方式。

2、对应售前方案,确定迁移目标端所使用的阿里云大数据组件信息(规格、版本、网络连通性等),数据迁移方式(存量迁移方式/增量迁移方式),作业迁移方式,迁移工具,一致性校验标准。

数据迁移设计

基于需求详细调研的结果,设计【XXX】项目的数据迁移方案

  • 增量数据迁移方案设计

  • 存量数据迁移方案设计

  • 数据割接方案设计

任务迁移设计

基于需求详细调研的结果,设计【XXX】项目的任务迁移方案

  • 作业迁移方案设计

  • 作业改造方案设计

  • 数据一致性验证方案设计

  • 任务割接设计

关键点验证及割接方案设计

1、根据项目需求,对方案中的关键点进行验证,如新迁移工具的引入、数据规模超过常规等

2、设计割接方案,如集群双跑涉及的工作步骤说明和风险点说明等

5.2.数据迁移

主要工作内容

内容描述

存量数据迁移

提供存量数据迁移、校验支持

增量数据迁移

提供增量数据迁移、校验支持

割接演练

协助进行割接方案设计,并进行割接演练确保割接方案可行

割接实话

协助进行最终割接实施上云

5.3.任务迁移

主要工作内容

内容描述

作业任务迁移支持

提供作业任务迁移、sql任务兼容性改造支持

数据一致性校验支持

提供迁移过程中的数据一致性校验技术支持

割接演练支持

协助进行割接方案设计,并进行割接演练确保割接方案可行

割接实施支持

协助进行最终割接实施上云

5.4.平台巡检

主要工作内容

详细描述

现状调研

调研客户当前的大数据架构数据链路等,调研客户大数据平台巡检的需求范围和日常痛点

需求确认

理解客户需求,梳理关键指标清单和巡检目标,与客户确认需求

巡检实施

通过Prometheus、或自研工具等方式为部署巡检采集服务,获取需求阶段的指标清单,如集群运行环境(cpu、内存、磁盘、网络等),大数据服务运行信息(服务占用cpu、内存、中间目录等)

分析诊断

基于收集的指标和配置信息,输出集群运行状态巡检报告,对集群资源使用异常、服务异常等情况进行诊断

产出报告

1、从环境配置、运行性能、存储合理、安全等多维度评估巡检产出,形成报告文档 2、针对高频可优先、或使用风险场景给出问题诊断和优化建议,如大数据集群配置任务消耗资源度、高频低效运算、小文件堆积、分区异常等情

6.服务流程

6.1.大数据迁移服务流程

申请时间限制:客户须至少应于本服务开始日之前提前15个自然日提出申请。

  • 需求调研(链路、平台架构、范围梳理、计划制定) -> 方案设计(数据迁移方案设计、任务迁移方案设计、数据校验方案、割接方案设计等) -> 开发实施(环境搭建、方案验证、数据迁移、任务迁移、双跑验证) -> 系统割接(监控告警、割接准备)-> 上线维保(正式上线、知识转移、项目验收)

  • 请注意,以上为购买完整大数据迁移全套服务的服务流程,包括了方案设计、数据迁移、任务迁移支持等,而现实中的服务流程取决于客户实际购买的服务内容项。

6.2.大数据平台巡检服务流程

申请时间限制:客户须至少应于本服务开始日之前提前15个自然日提出申请。

项目准备 -> 需求调研 -> 系统巡检 -> 产出报告

7.验收标准

大数据迁移服务验收时,乙方须根据客户购买的具体服务子项(方案设计、数据迁移、任务迁移这三者其中之一),交付2.服务范围和3.2服务项中约定的服务内容(主要是工作量,如约定的数据量、任务量的迁移,含增补服务量),或者约定规模下的迁移方案设计,并提交以下验收交付物,由客户确认。

交付内容

交付物

交付物类型

迁移方案设计服务

《大数据平台迁移方案设计》,《大数据平台数据迁移方案验证问题清单》

文档

数据迁移服务

《大数据平台数据迁移实施报告》

文档

任务迁移服务

《大数据平台任务迁移实施支持报告》

文档

大数据平台巡检服务时,乙方须按照服务范围内约定,交付3.2中的服务项,并提交以下验收交付物,由客户确认。

交付内容

交付物

交付物类型

迁移方案设计

《大数据集群情况汇总表》、

《客户需求清单》,《大数据指标清单及巡检目标》

文档

巡检实施

《大数据集群指标巡检大盘》

报表

产出报告

《大数据集群巡检报告》

文档

8.完成标志

实施结束并完成客户验收工作。