割接与上线
割接上线前的准备
应用的割接上线是整个应用上云迁移实施的最关键环节,这一环节出问题,可能会造成重大故障。针对割接上线的重要性,我们建议在实施应用割接前,制定详细的割接前检查清单,这个清单的严谨程度很大程度上决定了割接成功率。根据我们以往的经验,对割接上线前的准备工作,以下给出几点经验:
割接前需要严格确认是否所有需要预先准备的工具、迁移环境(客户本地数据中心端、网络、云端)等已经就绪。
检查和确认云环境Landing Zone已经就绪,并且确认云环境中的规模,安全,控制,网络以及身份验证与设计保持一致。
割接上线时需多方人员参与,软件厂商、集成商、用户方、云厂商等,确认这些相关人员是否已经就绪。支持的方式是现场、远程还是电话。
回滚预案是否就绪。割接过程好像在打一场大的战役,很多的任务或子任务会分配半小时内计划执行结束,整个过程可能会非常紧张。为降低压力,即使因为某个主客观原因导致迁移无法成功进行,如果有补救措施会让整个迁移团队降低很多压力。这个补救措施之一就是回滚预案,也即是失败后回滚到客户的原数据中心恢复业务应用,需要在割接时预留回滚执行的时间。回滚执行后,然后拥有充足的时间排查问题,以备下一个割接窗口期内再次割接。
根据项目实际场景,设计一个检查清单,这个清单包含了迁移割接任务的全部前置条件。下图给出一个检查清单的示例模板,在具体的项目中可以根据项目需求来设计定制。
制定详细的割接实施方案
迁移项目是复杂的,大部分迁移割接的时候都会或多或少的遇到一些无法预料的问题。造成割接失败,可能有主观原因和客观因素。主观原因可能因为迁移调研问题、迁移方案设计缺陷、迁移验证过程不够全面等。客观因素通常是客户IDC、运营商网络、云数据中心故障等。无论哪种问题导致,都可能会对迁移割接造成失败。根据以往的项目经验,我们建议在割接前制定详细的割接实施方案,以下是关于割接实施方案的一些建议。
数据验证,确认割接时与割接前数据保持一致。通常客户的大部分服务器镜像及数据会在割接前预先在云端复制完成。在割接窗口期开启后需要确保云端复制的数据与客户数据中心下线前保持严格一致。
并非所有问题都会导致迁移失败。遇到问题的时候,首先评估问题的严重程度,如果不是关键业务应用的重要的问题,可以将割接流程继续进行,同时该问题继续解决。与客户协商,该问题是否会对业务有很大影响,如果客户可以接受的话,可以先上线,然后尽快解决该问题。
迁移时间拖延问题处理。如果割接时不够顺利,因为种种主客观原因导致迁移割接时间长于计划时间,可以与客户协调,一起决定是否可以延迟一些时间上线。通常设计割接计划时都会留出一些缓冲时间,如果需要延迟的时间过长是客户无法接受的,那就只能执行回滚预案了。
网络切换问题处理。比如IP,端口,网络配置,DNS等问题,在之前的调研和检查中出现遗漏。这种问题在割接时经常会遇到,出现这种问题紧急联系相关负责方尽快解决,但并不一定会影响割接整体进行。
迁移的不仅是服务器或数据。而是整个企业的IT应用及环境,客户应用需要的身份管理、安全配置、数据及系统备份、高可用性架构配置,容灾方案等都需要完成。
严格按照迁移设计方案中指定的云服务型号匹配云上资源。拿VM举例,通常云上会提供十几个系列,数百种VM型号,使用错误的VM即使能够将服务启动起来,但会带来性能、功能以及成本的问题。
迁移过程确保安全合规。数据迁移严格使用加密数据传输,加密数据存储。证书、密码、权限按照合规的方式申请和使用,杜绝泄露隐患。避免因安全合规性问题带给客户严重损失。
制定详细的割接及回滚步骤,明确每个步骤执行时间点,前置条件,相关责任人等。以下是割接及回滚步骤的示例模板,在具体的项目中可以根据项目需求来设计定制。
割接实施步骤模板示例:
回滚实施步骤模板示例:
割接后持续观察验证
割接后对迁移的应用云上运行情况持续观察验证,做好业务和数据做好监控,持续观察业务的运行状态,直到确认完全没有问题,割接执行工作才算基本结束。