本文介绍了数云上架到计算巢的方案。
背景信息
2021年12月21日,在弹性计算年度峰会上,数云CRM运维总监陈延宗发表了主题为《计算巢最佳实践--数云CRM一键云上交付》的演讲,介绍了数云CRM在阿里云计算巢平台的最佳实践。原文请查看基于阿里云计算巢,云数CRM一键云上交付。
下图为数云CRM运维总监陈延宗。
传统交付的四个痛点
数云目前已发展成为国内领先的全域消费者增长解决方案提供商,客户群体基本都偏向于大中型企业商家。这些商家客户中的一部分会要求做私有化部署,在其阿里云平台上部署业务系统。
在阿里云平台上,数云为企业提供了CRM交付落地时可能需要用到的组件,如上图所示。组件的种类非常多,包括安全、日志SLS、对象存储OSS以及AKS等,其中的组件,特别是SLS、WAF、安全组都可能被使用到,它们都有一个特点,配置会很复杂化、业务化。
传统的交付过程中,对于一个比较大的企业级应用交付,基本流程分为四步:
商务流程
需要先跟客户沟通具体的采购和合同的商务事宜。
采购过程
与客户商定好以后,运维工程师会提交数云的资源清单给客户,资源清单会包含上面提到的组件的组合,这些资源都是要客户手动购买。如果有To B业务经验的可能会比较清楚,不同的B端客户,他们IT团队不一样,每家情况都不一样。有的IT团队就一个人,对于阿里云的熟悉度并不高。
这个过程中,数云会提供一些建议,比如提供购买方法、资源型号等;可是仅仅一个ECS型号就有大几百个,客户很难选择,我们又需要点对点地沟通解释,这个过程付出了非常多的人力沟通成本,单纯的采买过程可能只要一天,但是沟通过程就需要5个工作日。
安装过程
安装过程是比较快,基本是一键部署,由人手动操作的,资源检查也是人来操作的,只要人操作就可能会出错。系统初始化工作比较艰难,例如,一个比较大型的客户,整个流程可能需要两周。
业务使用
我们把系统初始化完成以后交付到客户方,客户来做相关的使用。
在传统交付过程中,总结有如下四个痛点:
检查
整个资源配置的结果是需要人工核查,有些客户不会提供账号,那就需要我们来盲猜,如猜一下机器的安全组等信息,然后需要手动去做;另外,资源的配置点比较多,资源清单种类也比较多,检查工作就比较重。
操作
整个过程都是手动来操作的,包括采买,这样就容易出现相关的错误。当阿里云平台推出一些新的资源型号,做一些改动,那文档的更新就比较麻烦,因为它不是自动化的;另外,文档的更新会出现一些延迟,可能给到客户是一个错误的文档。
沟通
沟通的成本非常大。
时间
往往大量时间一直浪费在沟通和出错成本上,理论上这些应该都是要避开的。
阿里云计算巢让云上交付自动化
接入到阿里云计算巢之后,对比传统交付的过程和操作就变得比较简单了。我们需要把整个过程实例化出来,放到资源编排ROS里面来做。当客户需要来购买软件的时候,我们会给出资源清单,客户只需要关注数量即可,比如某个组件购买一个还是几个;客户买完以后基本上无需检查,因为他购买的资源一定是按照我们的标准来定义的,包括ECS、数据库型号及版本等。
优化过程后,可以为服务商带来以下收益:
检查
检查部分不再需要做,因为配置模板化。
操作
实现了自动化,客户只需选择购买的数量。
沟通
只需要提供最基础的业务内容介绍文档就可以,不再需要细节沟通。
时间
整体时间缩短,现在已经通过阿里云计算巢部署了5、6家客户,每家的时间不超过一天,包括沟通、采买到最后初始化完成交付的时间。
未来规划与升级
阿里云计算巢发布到现在有大概半年时间,我们真正对接也是近几个月开始的。未来,我们会将一些自动化的程序加到里面去,做到更智能、更自动,具体分为3个方面:
租户关系开通
租户开通的时候,都会通过阿里云计算巢的开通关系跟租户系统中的开通租户沟通;也会包括增值账户的开通,企业类的租户可能有一些预充值的费用,这一块主要为数云内部的系统流程。
主机应用层初始化的优化
我们需要监控所有客户主机的运行情况,比如日志的SLS、Metrics以及一些基础的运行数据,或者一些特别指标(如tracing数据);同时包括K8s集群的初始化优化;我们将会把这些内容整合到计算巢中,实现可选的自动化插件。
完善保障体系
To B业务有一个难点就是多环境、多租户的维护问题,我们的口号概括为三个数字“1、5、10”,就是1分钟发现问题、5分钟定位问题、10分钟解决问题。主要是使用自动化的工具,缩短可以来促进“1、5、10”目标达成的相关过程。
计算巢上的交付演示
上图主要展示了我们资源清单的样例。左边就是管理的节点,右边是后端模块使用的具体节点,比如说ECS、PolarDB、DTS、Redis等,这些我们都会用到。这里展示的每一个节点的购买可能都需要非常复杂的文档,客户在采买的时候,可能会问非常多的问题。
基于计算巢的CRM资源采买过程视频如下:
该视频展示的是我们采买的过程。客户对采买的数量、实例的类型、系统的版本、交换机数量、购买时间等基础信息进行选择,从而完成部署。
根据视频demo演示,可以看到整个过程基本没有手动操作,运维人员可以看到相关的资源信息;如果客户已经通过数云购买了资源,我们可以通过阿里云计算巢看到后台的资源状态,甚至一些系统级别的事件可以直接看到,这点对于我们运维来说也是非常友好的。