阿里云Lindorm数据库让数字时代运维“灵动”起来,本文以东软集团有限公司为例,该集团归属于运营商、政务、汽车、医疗等行业。

业务/技术亮点

  • 移动端到云端业务全链路海量运维大数据存储。
  • 指标、日志等多源异构监控数据融合分析。
  • 99.99%数据可用性的高可靠低成本存储。

客户感言

利用阿里云新一代云原生多模数据库Lindorm“灵动”引擎驱动的政府、企业数字信息系统智能运维解决方案,东软做到了实时、海量、异构监控数据一站式存储,实现指标、日志、代码链路和网络包等异构数据融合分析,高可靠数据保障和遍在可达实时监控数据存储云端服务。如下图所示,阿里Lindorm数据库在赋能政企数字运维团队更强大的运维大数据分析能力的同时,大幅度提升了政府、企业数字系统性能和在线服务的客户数字体验,降低了低价值密度监控数据存储管理成本。
图 1. 阿里云Lindorm数据库驱动的IT运维监控系统
阿里云Lindorm数据库驱动的IT运维监控系统

客户简介

东软创立于1991年,是中国第一家上市的软件公司,一直以来致力于以信息技术的创新,推动社会发展,创造美好生活。东软集团以软件技术为核心,业务领域覆盖智慧城市、医疗健康、智能汽车互联及软件产品与服务。目前,东软在全球拥有近20000名员工,在中国建立了覆盖60多个城市的研发、销售及服务网络,在美国、日本、欧洲等地设有子公司。此外,东软连续四次入选普华永道“全球软件百强企业”,还曾荣获最具全球竞争力中国公司20强、中国50强全球挑战者、亚洲最受赏识的知识型企业、亚太地区最佳雇主等奖项。

业务要求与挑战

线上互联网化的信息服务繁荣发展为政府、企业数字系统运维应用维稳和客户数字体验保障提出了更高要求。在互联网服务场景下,运维监控数据量激增,采集监控的数据类型更加多样(时序指标、日志、代码链路等),现有运维系统采用的单模引擎(如RRD数据库、openTSDB时序数据库、ElasticSearch检索类数据库)应对这些实时、高并发采集,且价值密度较低的监控数据存储和检索场景时,已经显得力不从心。

根据Forrest统计数据,目前有57%的企业客户IT运维部反馈至少每周会发生一次影响应用性能和可用性的问题;每天都发生问题的比例占到了28%。对于愈加依赖应用面向客户实现企业价值,提升工作效率的当今企业来说,这种问题越来越无法忍受。统计数据显示有超过一半的企业认为由于应用性能问题直接导致业务用户和IT部门生效率降低和时间浪费;有42%的企业认为应用性能问题直接影响了企业收入。总得来说,造成这种现象的主要问题原因,可总结为以下两个方面:

  • 新需求推动IT系统监控数据量激增: 移动智能终端设备的普及使应用逐渐渗入到我们工作生活的方方面面,企业应用数量激增。企业面向客户、合作伙伴和内部员工建设IT系统及应用复杂度和数量会随着产品智能、互联化的深入持续增长,对映可用性保障运维监控采集数据采集种类,以及需要存储的数据量同步激增,现有监控系统基于RRD数据库或关系数据库搭建的单模引擎的存储、检索能力和需求脱节。
  • 产品数字化导致应用结构愈加复杂,监控数据类型更加多样:技术方面,诸如混合云、数据分析、物联网、车联网、体域网等新技术的持续演进也使得应用结构愈加复杂,保障应用性能更加困难。据统计,超过一半(52%)的企业IT运维部门在监控管理工具上的投入是被动、针对特定问题且分散的。但由于存储能力有限,单模存储引擎功能单一,数据存储分散、碎片化,难以应对未来以应用为核心的IT监控运维新需求和技术演进。随着时间的推移,现有IT运维数据存储分析问题会恶化。

    激增的应用复杂度及监控数据采集量和在网运维系统有限的监控运维数据存储检索能力之间的矛盾在加剧。目前,东软在物联网、互联网等新场景下面临的IT系统运维主要问题与挑战有:多模型数据融合分析困难,面向海量数据采集终端同时写入数据的并发能力弱,数据量大且价值密度低导致存储成本高,基于开源软件自建数据存储集群稳定性低运维成本高等问题,东软急需新型运维大数据存储引擎支撑,来对运维系统存储引擎升级改造。

解决方案

东软集团围绕运营商、政务云和汽车等行业新一代数字信息系统IT运维场景海量监控数据存储分析痛点,将从遍布全国多地域的手机、平板等终端连接应用系统业务服务的数字足迹和客户数字体验数据、云端&数据中心网络抓包分析数据,应用运行代码链路和日志数据全量采集存储于阿里云Lindorm灵动云原生多模数据库,如下图所示。
图 2. 基于阿里云Lindorm的运维多模数据融合存储分析
基于阿里云Lindorm的运维多模数据融合存储分析
以阿里云的云端Lindorm云原生多模数据库为核心,东软围绕运营商、汽车等目标场景监控运维特点,进一步扩展了应用智能运维产品RealSight APM和云管理产品SaCa Aclome能力,实现了高通量、高并发监控数据的实时、低成本存储。利用内置多模数据引擎处理能力,阿里云Lindorm完美适配东软客户IT运维监控场景数据存储分析需求。东软基于Lindorm打造,面向政企互联网化数字信息系统运维监控场景的新一代IT智能运维系统部署架构如下图所示,其中Lindorm作为核心运维数据存储、检索引擎全量接收来自移动终端、网络嗅探器、业务监控探针、日志采集器等多种数据来源实时采集的异构监控数据,以高并发、高通量数据写入方式将数据入库。在运维过程中,用户通过实时监控仪表盘、统计分析报表或风险定位、检测工具对接Lindorm多模引擎海量数据检索、分析能力,来满足不同应用场景的运维大数据信息提取需要。
图 3. 东软新型IT智能运维系统部署方案
东软新型IT智能运维系统部署方案

适用场景

  • 实时状态大屏展现。
  • 应用海量日志检索。
  • 定点用户行为追踪。
  • 故障数据全量回溯分析。
  • AI辅助异常检测等场景。

客户价值

  • 一体化指标、日志、代码链路、网络包等结构化、半结构化、无结构数据存储、检索、分析能力,降低开发部署复杂度。
  • 云端低成本海量运维数据存储,TCO大幅降低。
  • 高性能、高通量监控数据入库,轻松搞定大日活量应用系统监控。
  • 实时日志、指标等多模异构数据监控和回溯分析,简化低价值密度数据的信息提取。
  • 99.99%数据可用性,降低数据丢失风险。
  • 云端接入遍在可达,简化网络配置管理。
  • 开箱即用免维护,进一步降低系统维护成本。
  • 提供实时高精度全量监控数据存储和分析能力,为监控目标系统保驾护航,间接提升客户数字体验。

建设效果

目前系统已经在阿里云端支撑某行业领先车企存储、检索从全球客户终端采集的用户数字足迹和客户体验数据,应对日活量上万客户访问监控数据采集,日均实时监控指标数据采集1.2亿元组,节约数据存储和系统维护成本达4成,建设效果如下图所示。
图 4. 运维大数据可视化界面效果图1
运维大数据可视化界面效果图1
图 5. 运维大数据可视化界面效果图2
运维大数据可视化界面效果图2
图 6. 运维大数据可视化界面效果图3
运维大数据可视化界面效果图3
图 7. 运维大数据可视化界面效果图4
运维大数据可视化界面效果图4