云原生可观测服务内容说明
1. 服务概述
1.1 服务说明
云原生可观测服务是在客户系统上云、用云过程中,提供以阿里云产品体系为主,开源生态组件为辅的统一可观测方案设计、验证与落地的专家服务。该服务基于客户现实情况,以及可观测治理目标,为客户提供统一可观测平台设计与落地、业务指标梳理与提取、应用及基础设施指标梳理及提取、决策支撑大盘设计与绘制、告警梳理与落地的技术服务。
云原生可观测服务包含 3 个版本,客户可以结合自身业务需求进行购买,注意,任何未在本SOW中定义的工作内容或方案均不包含在本项目的交付范围中。
云原生可观测服务 (必选,基础版与标准版 2 选 1;实施支持版按需购买)
基础版
基础咨询服务:基于客户现状及治理诉求进行方案设计与落地,整体设计与落地基于阿里云 Arms、Prometheus、Grafana、SLS的原生能力。基础版覆盖基础设施以及应用,不包含业务层可观测能力以及任何需要定制开发的工作。
包含基于以上方案的技术验证工作,确保设定的技术方案具备落地能力。
包含上述方案的实施工作,整体方案可落地,且符合客户预期。
标准版
标准咨询服务:基于客户现状及治理诉求进行方案设计与落地,整体设计与落地基于阿里云 Arms、Prometheus、Grafana、SLS的原生能力。标准版覆盖基础设施、应用以及业务可观测。适用于对在业务可观测诉求比较强的客户。
包含基于以上方案的技术验证工作,确保设定的技术方案具备落地能力。
包含上述方案的实施工作,整体方案可落地,且符合客户预期。
实施支持版
如果客户需要阿里云团队提供基础版或标准版 SoW 以外的可观测能力建设,或基于可观测能力建设结果的衍生能力建设,包括但不限于:CI/CD Pipeline 观测能力建设、弹性架构改造、容量规划等,可购买实施支持版服务,根据项目实际工作量来评估需要购买服务包的数量。
本服务包以远程服务为主,可结合项目需求与客户实际情况进行调整。
如客户有额外的集成需求,或项目范围大于标准版,结合实际情况进行沟通。
2. 服务范围
以下服务范围按照3个版本分类,分别是云原生可观测服务基础版,云原生可观测服务标准版,云原生可观测服务_实施支持版,不同版本类型服务范围如下。
2.1 云原生可观测服务基础版服务范围
云原生可观测服务基础版内容如下:
可观测现状调研与目标评估
通过远程信息收集及现场沟通的方式,对客户的业务现状及应用系统进行全面调研,了解客户对于业务及应用的长期规划。
调研客户现行监控告警架构、业务目标调研、技术架构调研、运维体系调研、监控目标指定、应用弹性现状调研。
可观测方案设计
基于调研与评估的结果,为客户设计可观测方案,包含:
基于阿里云 ARMS、Prometheus、Grafana 产品能力囊括指标、链路追踪数据的采集、存储和分析使用的统一可观测性平台设计。
针对ACK 部署架构应用以及 ECS 部署架构应用,指标、链路追踪数据的接入方案设计。
应用指标设计:根据应用情况,设计应用指标,用于反应应用健康度,并暴露应用运行时信息,包括但不限于PV/UV/QPS,应用健康度、应用接口健康情况、JVM 运行情况、慢 sql 、异常等指标。并设计相对应的指标数据聚合方案等。1、 覆盖应用需满足 ARMS手动安装探针,使用组件需满足ARMS应用监控支持的Java组件和框架。
基础设施指标设计:根据基础设施使用情况,设计基础设施指标,用于反应基础设施的健康程度。包括但不限于ACK 各层指标,ECS 等云产品指标。并设计相应的指标聚合方案。
大盘展示方案设计:根据具体的可视化展示需求,以及上述定义的指标数据,设计从决策层到实施层,不同维度的大盘展示方案,用于支撑决策并提速问题排查。
告警方案设计:依据业务情况,针对核心指标进行告警方案设计,并通过系列手段,提高告警信噪比。
方案不包含如下内容:
基础设施及应用指标、日志、链路追踪数据采集方案均只基于阿里云 Arms、SLS 原生能力,如 Arms、SLS 等云产品不支持,则不在本期交付范围内,例如对 Ruby、PHP 等非 Arms 能支持的应用指标采集,或 Arms 所不支持的Java、组件版本指标采集等,均不在本次交付范围内。
如有全球应用观测需求,涉及到合规问题,需要客户侧提供专业合规支持,数据传输报备等合规相关工作内容不在本项目范围内。
由于全链路观测业务相关性极强,定制化程度高,且设计、实施成本不可预测,本项目不承诺进行全链路观测设计和实施,链路追踪能力基于 Arms产品提供的原生能力来建设。
大数据应用可观测不在本项目范围内。
日志数据的采集、存储、分析和使用不在本项目范围内。
业务指标以及需要通过自实现采集器进行获取的指标的采集、存储、聚合规则等设计内容不在本项目范围内。
一切其他不在本 SoW 描述服务范围内的工作均不在本服务包交付范围中。
技术验证
对确认的方案进行技术验证,满足可落地性的需求。
对技术验证的结果进行记录。
方案实施工作:
可观测架构配置与落地
基于可观测性方案设计,进行统一可观测架构所需资源的拉起和配置工作。
指标、链路追踪数据接入支持工作,(具体操作由客户侧团队执行):1、 进行非生产环境的数据接入支持工作,并和客户一起产出接入操作手册。2、 进行生产环境的数据接入支持工作。
基于方案设计,进行指标的聚合规则编写。
大盘配置工作,基于方案设计,基于非生产环境数据,进行可视化大盘配置工作,并在生产环境数据接入后,完成非生产数据源到生产数据源的切换。
告警配置,报警规则配置和报警渠道对接。
实施不包含:
实施服务仅覆盖1-2 个典型架构应用,旨在快速看到可观测落地效果,并在实施过程中完成知识传递,本服务不承诺完成所有客户应用的实施。如有额外数量的应用可观测性实施接入需求,需额外购买实施支持版以弥补工作量。
实施工作仅针对符合阿里云云原生观测能力的应用,比如 Java 应用且组件版本受 Arms 支持,如有需要使用开源组件支撑的应用,比如 PHP 应用等,需要实施支持版或通过标准版进行覆盖。
一切客户生产环境的操作不在实施范围内,包括但不限于生产环境的agent 安装、配置等。
客户应用以及三方产品的开发、改造和配置等工作不在实施范围内。
本项目实施均基于阿里云产品以及开源工具原生采集指标。涉及到自定义指标采集器设计和实现等工作不在本项目范围内。不在范围内的内容包括但不限于从数据库、日志等原始数据中提取,通过代码实现自定义指标采集器进行编写和设计。
由甲方原因导致的进度不符合预期,乙方不承担延期责任。
乙方按照项目需要通过现场或远程方式进行详细调研以及咨询方案设计,并产出最终结果。
乙方不负责提供除阿里云官方文档、项目交付范围内文档之外的任何技术文档。
乙方不负责甲方业务系统规划、架构设计、上云改造、应用过程中的任何实施与维护责任。
乙方不负责非阿里云平台以外(第三方软件、应用系统)问题处理、技术的支持和答疑工作。
2.2 云原生可观测服务标准版服务范围
云原生可观测服务基础版内容如下:
可观测现状调研与目标评估
通过远程信息收集及现场沟通的方式,对客户的业务现状及应用系统进行全面调研,了解客户对于业务及应用的长期规划。
调研客户现行监控告警架构、业务目标调研、技术架构调研、运维体系调研、监控目标指定、应用弹性现状调研。
可观测方案设计
基于调研与评估的结果,为客户设计可观测方案,包含:
基于阿里云 ARMS、Prometheus、Grafana 以及 SLS产品能力辅以OpenTelemetry 开源组件能力,囊括指标、链路追踪数据、日志数据的采集、存储和分析使用的统一可观测性平台设计。
针对ACK 部署架构应用以及 ECS 部署架构应用,指标、链路追踪以及日志数据的接入方案设计。
业务指标设计:根据业务需求和现状,设计1-2个核心业务指标,并依据业务指标数据来源,设计相对应的日志改造方案、指标聚合方案等。
应用指标设计:根据应用情况,设计应用指标,用于反应应用健康度,并暴露应用运行时信息,包括但不限于PV/UV/QPS,应用健康度、应用接口健康情况、JVM 运行情况、慢 sql 、异常等指标。并设计相对应的指标数据聚合方案等。
基础设施指标设计:根据基础设施使用情况,设计基础设施指标,用于反应基础设施的健康程度。包括但不限于ACK 各层指标,ECS 等云产品指标。并设计相应的指标聚合方案。
大盘展示方案设计:根据具体的可视化展示需求,以及上述定义的指标数据,设计从决策层到实施层,不同维度的大盘展示方案,用于支撑决策并提速问题排查。
告警方案设计:依据业务情况,针对核心指标进行告警方案设计,并通过系列手段,提高告警信噪比。
方案不包含如下内容:
如有全球应用观测需求,涉及到合规问题,需要客户侧提供专业合规支持,数据传输报备等合规相关工作内容不在本项目范围内。
由于全链路观测业务相关性极强,定制化程度高,且设计、实施成本不可预测,本项目不承诺进行全链路观测设计和实施,链路追踪能力基于 Arms产品提供的原生能力来建设。
大数据应用可观测不在本项目范围内。
方案设计可能引入如 OpenTelemetry、Nginx Exporter、Kong Exporter等开源工具来进行三方组件指标采集,方案设计将基于开源工具现有能力进行,针对开源工具的新功能开发、新需求跟进、变更、问题兜底等工作内容均不在该项目范围内。
日志数据的采集、存储、分析和使用不在本项目范围内。
业务指标以及需要通过自实现采集器进行获取的指标的采集、存储、聚合规则等设计内容不在本项目范围内。
技术验证
对确认的方案进行技术验证,满足可落地性的需求。
对技术验证的结果进行记录。
方案实施工作:
1-2个典型应用的可观测架构配置与落地:
基于可观测性方案设计,进行统一可观测架构所需资源的拉起和配置工作。
指标、链路追踪数据接入支持工作,(具体操作由客户侧团队执行):1、 进行非生产环境的数据接入支持工作,并和客户一起产出接入操作手册。2、 进行生产环境的数据接入支持工作。
基于方案设计,进行指标的聚合规则编写。
基于业务监控需要,进行自定义指标采集器设计与编写,业务指标如果涉及到从数据库、日志等原始数据中提取,通过代码实现自定义指标采集器进行编写和设计。
大盘配置工作,基于方案设计,基于非生产环境数据,进行可视化大盘配置工作,并在生产环境数据接入后,完成非生产数据源到生产数据源的切换。
告警配置,报警规则配置和报警渠道对接。
实施不包含:
实施服务覆盖1-2 个典型架构应用,旨在快速看到可观测落地效果,并在实施过程中完成知识传递,本服务不承诺完成所有客户应用的实施。如有额外数量的应用可观测性实施接入需求,需额外购买实施支持版以弥补工作量。
一切客户生产环境的操作不在实施范围内,包括但不限于生产环境的agent 安装、配置等。
客户应用以及三方产品的开发、改造和配置等工作不在实施范围内。
本项目实施均基于阿里云产品以及开源工具原生采集指标。涉及到自定义指标采集器设计和实现等工作不在本项目范围内。不在范围内的内容包括但不限于从数据库、日志等原始数据中提取,通过代码实现自定义指标采集器进行编写和设计。
由甲方原因导致的进度不符合预期,乙方不承担延期责任。
乙方按照项目需要通过现场或远程方式进行详细调研以及咨询方案设计,并产出最终结果。
乙方不负责提供除阿里云官方文档、项目交付范围内文档之外的任何技术文档。
乙方不负责甲方业务系统规划、架构设计、上云改造、应用过程中的任何实施与维护责任。
乙方不负责非阿里云平台以外(第三方软件、应用系统)问题处理、技术的支持和答疑工作。
2.3 云原生可观测服务_实施支持版
基于可观测能力建设结果,评估额外工作量,进行工作量实施支持,工作内容可能包括但不限于:
CI/CD pipeline 可观测能力设计与落地。包括 CI/CD pipeline 构建数据采集、接入、大盘绘制,告警设计与配置等。
弹性架构能力设计与落地。包括基于 ECS 部署架构以及基于 ACK 部署架构的应用层无状态弹性架构能力的设计与落地,以及基于阿里云云原生数据库serverless 能力的数据库层弹性架构设计与落地。
应用可观测体系接入实施。基础版与标准版承诺完成 1-2 个典型应用的接入,如需阿里云服务团队协助进行更多应用接入,可通过实施支持版来弥补工作量。
客户可根据实际服务范围采购多个实施服务包。
本服务不包含:
实施支持版不承诺提供任何额外书面交付物。
乙方服务过程中不负责甲方应用的部署、应用代码的改造、数据代码改造、数据迁移等具体的实施工作,具体的实施工作由甲方执行,在实施过程中乙方只负责阿里云侧云上环境设置与集成,并协助甲方解决阿里云产品使用相关的问题。
由甲方原因导致的进度不符合预期,乙方不承担延期责任。
3. 前提条件
客户应提前至少15个工作日申请该服务,以便于阿里云评估客户业务目标及时间计划可行,确认是否承接该服务申请。
如客户的申请涉及大批量资源需求,建议客户提前一个月申请,具体视供应链评估情况协商。
客户应及时向乙方提供所有需要的合理的文档、信息、数据、图表以及必要的系统权限、远程访问通道以使乙方可以提供服务。且所有这些资料将受到本协议项下的保密条款的约束。甲方同意向乙方已披露的或将要披露的所有信息是真实、准确并且不会产生误导。
云原生可观测服务基础版和云原生可观测服务标准版,乙方的办公地点不受项目约束,服务的提供方式主要以:电话、钉钉、邮件等方式。
本项目交付过程中,实施主体为甲方,乙方主要提供方案设计及技术验证过程中的问题处理,具体的云原生可观测实施动作需要由甲方进行。
乙方将在正常业务时间,即星期一到星期五的正常业务时间,即北京时间上午 9:00 到下午 6:00(国家法定节假日除外)提供本项目的交付服务。
双方在项目实施期间采用双方同意的通讯方式,由双方的项目经理负责传递本项目所需的书面信息,可选择的通讯方式包括:钉钉,互联网、FAX、电子邮件等。
所有项目交付物为中文(简体),工作语言为中文。所有交付作品采用Microsoft Office(包括PPT,WORD,Excel,Visio)格式,并以电子拷贝方式提交。
甲方与乙方应须按双方事先达成一致的工作计划、人员资源计划与系统确定的工作起止日期投入项目工作。如遇到甲方相关业务系统迭代延期上线,相关项目进度将会产生顺延,乙方对此不承担责任。
如需引入第三方,甲乙双方应分别负责同各自第三方签订合同。乙方不对甲方的其他分包商或厂商(除乙方的分包商外)的行为负责、亦不对由其造成的延迟负责;甲方不对乙方的其他分包商或厂商(除甲方的分包商外)的行为负责、亦不对由其造成的延迟负责。
任何一方均不对本合同项下的特殊、附带、或间接损害或后果性经济损害(包括利润或节省金额损失)负责,即便该方已被告知该等损害赔偿的可能性。
4.分工界面
4.1 客户与阿里云
客户购买云原生可观测服务(基础版+标准版),经过阿里云审核及交流后确认服务成立,
针对该服务期限内,双方商定并确认具体业务目标及范围。
具体分工界面见下表:
服务类型 | 阶段 | 任务名称 | 任务明细 | 客户 | 阿里云 |
云原生可观测服务 | 现状调研 | 业务目标调研 | 1、着重分析用户的技术架构和业务目标,收集当前的技术信息,运维体系,监控现状和目标。 2、通过调研明确现状以及监控需求,确定项目计划和目标 | A/S/C/I | R/I |
技术架构调研 | A/S/C/I | R/I | |||
运维体系调研 | A/S/C/I | R/I | |||
监控目标指定 | A/S/C/I | R/I | |||
方案设计 | 可观测方案设计 | 1、根据调研现状与建设目标,对云上可观测性架构进行设计,该工作项为整个项目提出总体的目标与愿景 2、方案包含内容如下: a. 统一可观测性平台设计 b. 数据的接入方案设计 C. 业务指标设计 d. 应用指标设计 e. 基础设施指标设计 f. 大盘展示方案设计 g. 告警方案设计 | A/S/C/I | R/I | |
技术验证 | 方案落地验证 | 1、对确认的方案进行技术验证,满足可落地性的需求 2、对技术验证的结果进行记录 | A/R/I | S/C/I | |
可观测性配置落地 | 可观测性架构改造 | 1、基于可观测性方案设计,进行统一可观测架构所需资源的拉起和配置工作。 2、指标、链路追踪数据接入支持工作,(具体操作由客户侧团队执行): a. 进行非生产环境的数据接入支持工作,并和客户一起产出接入操作手册。 b. 进行生产环境的数据接入支持工作。 3、基于方案设计,进行指标的聚合规则编写, 4、大盘配置工作 5、告警配置,报警规则配置和报警渠道对接。 | A/R/I | S/C/I | |
日志接入 | |||||
观测大盘配置 | |||||
监控告警配置 |
责任简称:R-Responsible执行人,A-Accountable负责人,C-Consulted征求意见人,I-Informed被告知人,S-Support负责配合“R”完成指标的工作。
4.1.1 客户
客户指定一名具备合适技能和经验的项目经理作为与阿里云沟通的主要联系人,代表客户直接负责项目实施的计划、协调、监督与控制以及升级问题与风险,同时全权代表客户在本项目的各个方面做出决策。
根据项目情况,由甲方项目经理协调各方资源主导可观测调研以及技术验证工作。
项目开始由甲方提供可观测相关的资料和规范文档,并明确说明执行要求。
4.1.2 阿里云
指派一名有经验的技术经理执行云原生可观测服务项目管理,并引入、管理乙方项目组人员,与甲方项目经理沟通。
通过现状调研了解客户系统的基本架构、业务使用场景、技术组件和开发框架等信息,并对可观测现状及目标进行评估
基于现状调研设计云原生可观测治理方案。
配合甲方进行可观测技术方案验证,协助解决技术验证过程中遇到的各类问题。
4.1.3 完工标准
云原生可观测服务基础版完工标准
云原生可观测方案设计完成并经过甲方确认,包含覆盖应用以及基础设施的统一可观测架构、指标设计、大盘设计、告警设计四部分内容。
方案内容落地客户环境 1-2 个应用。
产出交付物:《云原生可观测基础版方案》
云原生可观测服务标准版完工标准
云原生可观测方案设计完成并经过甲方确认,包含覆盖业务、应用和基础设施的统一可观测架构、指标设计、大盘设计、告警设计四部分内容。
方案内容落地客户环境 1-2 个应用。
产出交付物:《云原生可观测标准版方案》
云原生可观测实施支持服务完工标准
该服务为实施支持版服务,依据实际项目沟通的实施支持内容进行完工标准的确认。
4.2 服务目录
服务内容:云原生可观测服务针对客户的业务目标,包含以下服务:
服务名称 | 阶段名称 | 子阶段名称 | 基础版服务包 | 标准版服务包 | 可观测增补包 |
可观测架构治理服务 | 需求调研 | 基础设施调研 | 包含 | 包含 | 用于增补基础版或者标准版范围外的可观测需求,如 CI/CD pipeline 观测、负责的大盘绘制、复杂的自定业务指标义采集器实现等需求。 |
技术架构调研 | 包含 | 包含 | |||
运维体系调研 | 包含 | 包含 | |||
监控目标调研 | 包含 | 包含 | |||
业务目标调研 | 包含 | ||||
方案设计 | 可观测技术架构设计 | 包含 | 包含 | ||
数据采集方案 | 包含 | 包含 | |||
基础设施观测方案 | 包含 | 包含 | |||
应用观测方案 | 包含 | 包含 | |||
业务观测方案 | 包含 | ||||
大盘展示方案 | 包含 | 包含 | |||
告警方案设计 | 包含 | 包含 | |||
方案验证 | 基于设计方案的技术验证 | 包含 | 包含 | ||
实施 | 基于方案设计实施可观测实施落地 | 包含 | 包含 |
5. 服务SLA
提供云原生可观测服务
在服务期间内向客户提供方案技术验证支持群以及按需的现场保障
按对应服务规格提供《云原生可观测基础方案》、《云原生可观测标准方案》
6. 服务流程
云原生可观测服务流程
7. 验收标准
7.1 验收分项清单
阶段名称 | 子阶段名称 | 任务名称 | 子任务名称 | 交付物名称 |
项目调研 | 项目调研阶段 | 现状调研和评估 | 业务目标调研 | 无 |
技术架构调研 | ||||
运维体系调研 | ||||
监控目标指定 | ||||
应用弹性现状调研 | ||||
数据库现状调研 | ||||
方案设计 | 可观测性方案设计 | 可观测性架构设计 | 可观测性架构设计 | 《可观测性设计方案》 |
弹性架构改造方案设计 | 弹性架构方案设计 | 弹性架构方案设计 | 《基于 ACK的弹性架构方案》 《数据库弹性架构方案》 | |
方案落地验证 | 方案落地验证 | 技术验证 | 方案落地验证 | 无 |
改造实施 | 可观测性配置落地 | 可观测性架构改造 | 可观测性架构改造 | 《可观测性实施方案》 |
日志接入 | 针对各服务及需求范围内的日志进行接入 | |||
观测大盘配置 | 基于监控指标、日志信息、应用信息配置监控大盘,指标满足设计需求 | |||
监控告警配置 | 报警规则配置,报警渠道对接 | |||
弹性架构改造支持 | 弹性架构改造支持 | 弹性架构改造支持 | 无 | |
护航与验收 | 项目验收 | 系统验收 | 完成验收 | 《系统验收报告》 |
7.2 验收标准
乙方项目交付过程中提供云原生可观测方案设计与实施工作,并将关键信息记录在文档内,因此文档类交付成果应着重文档实质内容的验收,确认乙方提交内容符合甲方需求。
若甲方业务流程要求在乙方提交交付成果前需进行各类内部评审,甲方应在约定的验收时点前推动并及时完成其内部所需评审和汇报。
文档内容经过评审会,若需要修改,乙方修改后提请甲方进行验收,由甲方指定的代表进行签收确认。验收在公共云服务系统页面上点击验收确认按钮。
7.3 验收计划
根据《7.1验收分项清单》所列示各阶段的交付内容与交付物,本项目将按照以下验收计划进行项目验收,甲方同意根据此验收计划对乙方的交付物进行验收。
云原生可观测服务基础版验收计划
编号 | 验收里程碑 | 验收内容 | 验收完成标志 |
1 | 《云原生可观测基础版方案》设计与验证完成 | 《云原生可观测基础版方案》 | 甲方在线确认验收方案 |
云原生可观测服务标准版验收计划
编号 | 验收里程碑 | 验收内容 | 验收完成标志 |
1 | 《云原生可观测标准版方案》设计与验证完成 | 《云原生可观测标准版方案》 | 甲方在线确认验收方案 |
8.完成标志
客户验收完成。