孟亮 阿里云智能GTS-SRE团队 技术服务经理

主持过2016和2017年12306春运护航,2015年至今深耕服务于阿里云重要客户——微博,通过阿里云的弹性能力帮助微博解决不可预期、不可估量的热点事件应对问题,解决客户最关心的大并发量快速弹性扩容难题并不断优化。

前言

上期本文对混合云组网建设的前提条件、需要评估的方面以及相关规划进行了介绍。组网建设完成后,后续还会涉及到相关运维如流量监控、并网、网络升级等内容,本期将继续进行介绍。

流量监控

监控专线带宽使用情况是日常网络维护的重要手段,目前主要通过监控线下IDC的接专线端口的网络流量即可知道专线网络的使用情况。如果是双线ECMP(Equal-Cost Multipath Routing,等价多路径)模式,当专线带宽使用总量超过50%,如果其中一条专线中断,仅存的一条专线将无法承接中断专线带来的流量。这时候需要扩容专线带宽,使专线带宽的冗余保持在50%以上。

图1:流量监控示意图

并网

公司间的兼并收购带来两个公司的信息数据共享,网络合并势在必行。网络合并最大的难题是两个公司的网络地址规划可能有重合,网络地址可能会互相冲突。并网前需要优先解决网络地址规划,一般解决方法为其中一家公司重新规划网络地址段,避开冲突网段。

如果两个公司地址没有冲突,那么可以直接进行并网,并网的方式有两种:一种是把收购公司的VPC和本公司的边界路由器之间通过高速通道连接,这样能做到本公司IDC网络、本公司VPC网络和收购公司VPC网络三方互通。另一种是把收购公司的VPC和本公司VPC网络通过高速通道打通,这样只能做到云上两个VPC直接互通,给自己IDC的网络留一点“私密空间”。

图2:三方互通并网示意图图3:仅VPC互通并网示意图

网络升级

  • 带宽升级

    随着已经上云业务的增长以及更多业务上云,专线带宽的资源会有扩容的需求。一般通过增加网络设备端口可以满足,但量变引起质变,之前建设时选用10G的端口类型,扩容到200G以内带宽还是可承受的,但再往上扩容会涉及到增加端口多、带宽升幅不大的问题,日后一旦出现专线带宽丢包问题,庞大的端口数量给排查带来的难度可想而知。所以扩容到一定程度必须更换网络设备,选取拥有更大端口带宽的网络设备。

  • 专线网络设备升级
    • 升级方案评估
      • 租运营商带宽还是扩容自己的网络设备。
      • 在原有链路上升级还是选新的接入点。
    • 两种割接方案

      新旧设备并行割接方案:新建链路接到新边界路由器上,新边界路由器可以理解为新购买的网络设备。这样做可以让新老链路同时在线,后期割接只修改路由,如果新链路有问题回退也快捷,只需更改路由就可回退原有网络路径。

      图4:新旧设备并行割接方案示意图

      逐边升级割接方案:不用新租链路,在原有链路上升级,升级时保持一边原有链路不动,切断一边原有链路接到新设备上,检查链路质量、配置新设备上的路由。待新链路得到验证后,如法炮制把另一条原有链路升级。该方案需注意:首先保证割接时专线使用带宽低于总带宽的50%,保证单边能承载。第二,该方案在割接时中断的时间比并行方案时间长,且回退复杂,条件允许的情况下还是推荐并行方案。

      图5:逐边升级割接方案示意图1图6:逐边升级割接方案示意图2