阿里云 阿里云智能GTS-SRE团队

阿里云智能GTS-SRE团队于2019年正式成立,由原专有云、公共云的TAM团队及集团高可用基础技术团队融合而成,是阿里为确保客户平台稳定、业务连续而打造的核心支撑团队,致力于服务广大阿里云企业客户上云、用好云,让客户云上业务运行更加稳定可靠。

前言

2020年初,新冠肺炎疫情爆发。春节后,企业要复产,百姓要复工,政府需尽快保障各项工作有序开展。如何精准防控,统筹疫情期间的各项工作,有序稳健恢复经济社会秩序,成为当务之急。对此,阿里巴巴快速反应,除各种物资支持、政策响应外,还配合多地政府开发健康码,充分运用大数据手段助力疫情防控和复工复产,实现数字化防疫,让政府相关人员更快速、更清晰、更精准地进行防控管理决策。

健康码开发期间,SRE团队发挥团队优势,紧急召开专题会议,成立专项应急小组,协调各方资源,并在第一时间赶往各省市,配合相关团队完成资源准备、业务压测、业务优化等工作,保证了多地健康码的顺利上线。健康码上线后,SRE团队持续对各项关键指标数据进行监控,确保健康码应用可以承受业务高峰压力并顺利运作。

河南健康码——一“码”当先

河南省疫情防控指挥部依据《国务院应对新型冠状病毒肺炎疫情联防联控机制关于依法科学精准做好新冠肺炎疫情防控工作的通知》等相关法律法规,结合河南省实际情况,制定“健康码”管理办法。项目3月5日正式启动,按照局方要求3月9日上线投入使用,团队接到通知提前一天3月4日第一个到达现场。

团队到现场后,首先梳理资源需求与系统部署架构,提前完成资源开通准备及远程环境准备,以保障其它团队可远程交付。其次评估系统压测目标,并对系统进行多轮多场景压测,压测过程中发现并处置1处业务逻辑问题、3处产品优化、1处APIServer资源瓶颈扩容问题,最终达到压测目标并设置AHAS限流控制保障系统稳定运行。安全方面全部使用https域名证书并接入WAF,对系统安全访问进行加固。运维监控方面接入ARMS、TAC、封神、铜雀等运维监控巡检平台保障系统运行稳定。系统顺利于3月9日18:00正式上线,截至3月15日健康码累计申领人数380W。接下来政府将对全省各市级推广,阿里云SRE团队将继续支持客户保障健康码业务稳定。

图1:河南健康码项目情况

海南健康码——一心战“疫”

面对新型冠状病毒肺炎疫情的迅猛爆发,针对海南省精准防控、疫情统筹与经济社会秩序恢复的指导方针,海口市政府与市科工信局等单位立即展开多方协同,要求第一时间上线疫情申报相关应用,即海南省健康一码通应用。这是首个全省健康码应用,政府采取多种方式推广,需要在上线第一周内完成全省900多万市民的注册和使用。

由于海口城市大脑云平台资源已经接近饱和,阿里云SRE-TAM团队紧急召开专题会议,迅速成立专项应急小组,与AM团队一起争分夺秒协调海南其他项目组,完成紧急资源释放、扩容及相关并网,并通过全链路压测、资源的提前储备(ECS、SLB)、应用同步改异步(MQ)、数据库读写分离(RDS)以及业务限流(AHAS)等优化手段,为海南健康码保驾护航。健康码准时上线并向全省推广,在此期间阿里云SRE-TAM团队、应用团队以及AM团队联合进行每日的护航保障,通过个性化运维监控方案实现关键资源、核心实例、业务指标等监控,并进行网络相关保障,确保健康码应用可以承受业务高峰压力并顺利运作。截止3月24日,健康码应用注册使用量达到300万+,预计在4月底注册使用量将超过1000万。该系统将有助于更加科学高效地防范疫情,更好地服务广大人民群众安全,为打赢这场全民战役贡献一份力量!

苏州健康码——阿里速度

为解决大量外来人口返苏复工的管理难题,提升人员流动效率,苏州市政府、苏州市疫情防控指挥部决定上线苏城码(苏州健康码)。阿里云数字政府华东大区江苏团队和集团GR团队、蚂蚁团队、GTS团队和数据智能团队,从接到需求、立项、进场部署仅仅耗时40小时就完成了“苏城码”上线,这是除浙江省外第一个运用阿里数据引擎短时间完成上线的城市,我们充分运用数字化防疫,为中国最强地级市打造便捷、高效的管理模式!

  • 【与时间赛跑,火速拉齐,投入战斗】

    客户根据本地情况提出了很多定制化开发的需求,面对客户需求,团队快速分析、展开调研、拿出最终方案,客户最终同意将整个系统部署在苏州城市大脑平台上,充分发挥城市大脑在算力、数据融合方面的强大能力。

    图3:客户现场讨论方案
  • 【不眠不休展开部署】

    确定方案之后,项目团队不眠不休,火速在现场展开各项部署,与时间赛跑。数字政府和支付宝团队项目经理在现场合理组织交付节奏和方案实施。数据智能的精兵强将,现场与客户的各个专班展开对接,确定客户各项需求的实施方案。GTS的交付同学精准实施,从硬件到软件的全维度保证了项目上线。

    客户对于苏州团队的努力和付出非常感动和认可,苏州市副市长江海同志亲自到现场慰问项目团队,感谢团队成员争分夺秒为苏州全市人民平稳复工复产所做出的努力。

    图4:市领导慰问现场项目团队
  • 【践行客户第一的价值观,组织重保团队力保稳定运行】

    2020年2月22日晚9:30分,苏州市疫情防控指挥部正式下发第9、10号公告,在全市正式推广“苏城码”。在公告下发之后的2小时之内完成了40万的健康码发码,平台瞬间流量激增,业务平台受到了极大考验,现场GTS同学密切监控、随时排障,苏州城市大脑平台经受住了考验。

    图5:项目顺利上线

    为保证项目能够长期稳定可靠地运行,GTS同学快速拉通GOC团队建立项目重保机制,得到客户首肯。江海副市长和李晶处长现场说,只有把业务放在阿里云上才放心!并且表示要把苏城码在城市通行场景方面做有力探索,让苏城码成为苏州市民通行的电子码。与此同时,也有其他政府部门开始思考苏城码与各自业务的结合,比如园林局考虑是否可以把苏城码和园林的进出和电子票进行结合,加强园林的管理和通行效率。

    “一心战一疫”,“客户第一”!借助苏州健康码项目的火速上线,再次刷新了健康码快速上线的速度,既服务了客户,也激发了团队强大的战斗力,同时为数字政府在苏州乃至江苏的破局打下了坚实的基础!

上海健康码——健康出行

上海“一网通办”依托移动端“随申办”打造的“随申码”于2月17日试点上线。依托上海市大数据资源平台汇聚的国家及本市公共管理机构数据,经过数据建模、分析评估后,测算出红色、黄色、绿色三种风险状态供参考,赋予“随申码”健康出行、防控管理的相关信息。

结合新冠肺炎疫情防控的需求,随申码的发码与查码量不断攀升,系统负载不断加大,阿里云GTS团队迅速介入,帮助随申码搭建高可用高可靠系统平台。GTS团队用一个晚上的时间快速确定高并发方案,在确认方案后SRE团队基于阿里云中国政务云平台快速为随申码搭建可扩展的高可用云平台,TM和产品研发团队基于云平台部署定制化的数据智能码引擎,并通过全链路压测、应用弹性扩容、基础架构优化、应用逻辑优化、业务限流(AHAS)等优化手段将随申码的并发承载能力提升百倍以上。2月28日8:00阿里云-随申码平台正式上线,承载的用户并发突破万次每分钟,累计查码量突破一千万次,覆盖上海全部的两千四百万人口,并保持不断的产品迭代,在后续的企业码、亲情码业务中持续给与技术和资源支持。

图6:项目人员加班加点保障上海随申码上线