分布式存储帮助金融客户更好的管理数据

王超
  • 收获赞:13
  • 擅长领域:阿里云高级架构师,15年技术经验。擅长领域:云计算,灾备,项目管理

本文通过某城商行影像系统解决方案,为您介绍分布式存储如何帮助金融客户更好的管理数据。

背景

金融业作为知识经济时代的支柱产业之一,近年来一直走在电子化的前沿, 随着业务的不断拓展,以纸面文件作为媒介的各种信息资料呈爆炸性增长。如何有效管理这些信息资料,不断提高信息的使用效率,仍而最终提高自身的核心竞争力,已绊成为金融业的一个重要课题。信息技术的兇迚不否成为商业银行在激烈的市场竞争环境中取胜的关键。这对银行的信息管理技术就提出了更高的要求。

在日常业务中,银行会产生大量的业务凭证,包括会计传票、储蓄凭单、支票、信贷合同等,这些凭证每天都在大量地产生,再加上历叱遗留凭证,数量是非常惊人的。对于这些凭证,如何迚行分类、保存和归档,如何能够高效的查询,一直是一件非常棘手的事情。

银行的影像系统就是在这个基础上产生的,采用影像管理技术银行可以有效的解决传统手工纸面凭证管理面临的难题,大大提高客户服务的质量及工作效率。 目前银行影像系统要处理的主要有以下几种类型的文件:

类型

特点

会计凭证\储蓄凭证

数量大,保存期长,纸张大小不一,薄厚不一,占用空间大,调阅频率短期较高,历史档案多,各分行多数未采取仸何方式备仹

信贷文件

文件种类琐碎繁杂,建贷前文件内容变化大,翻阅频率高:建贷后文件仌需调阅,文件有增减、替换现象,还贷后文件需长期保管,目前无有效安全措施

信用卡文件

信用卡签购单量大,保存期短;申请单文件种类较多,保存期长

办公文件

纸张大小较规范,流劢性强,需各级领导批阅,部门间、分行间需异地传送, 阅读,部分文件需永久保存

清算文件

原始文件及报表打印量大,保存期长,纸张文件大小不一,占用空间大,调阅量适中

通过了解上述行业现状,我们不难理解越来越多客户会依赖高性能计算平台来替代传统的IT分析系统,通过借助机器的算力为业务决策和产品竞争力争取更多的机会。为了满足业务线的诉求,客户在做IT规划的时候,往往会先采用自建传统的文件存储或者使用云上的文件存储,下图为某行业头部企业在自建机房搭建的计算存储架构。

行业问题

银行在业务运营中会产生大量纸制凭证以及视频图像,使得非结构化数据的发展速度迅猛增长。但是在金融信息化建设之路上,金融行业一直专注于业务管理信息系统的发展。相比之下,与金融业务控制、内部管理关系十分密切的票据影像类的基础数据管理与保存建设,还存在很大的改善空间。同时随着大数据分析对银行运营和产品策略的影响越来越大,注定了需要把银行采集的各种纸质凭证和音视频资料进行筛选分析,成为大数据分析的数据源。由此,银行建设集档案录入、图像处理、智能识别、数据核对、统计分析、海量存储、精确查询于一体的票据影像集中管理平台已成为其必由之路。

在这个过程中银行客户大致有如下问题:

  • 既要保证海量小文件的高速录入、查询,又可以提供大文件的性能保证。

  • 票据影像的数据量未来会有一个非常快速的增长,必须保证未来的扩容便捷性。

  • 新建设的票据影像管理系统要和已有的票据影像IT设备之间保持兼容。

  • 必须满足监管部门对系统可靠性及数据保护的监管要求。

  • 行内不同的品牌和技术栈,没有统一的性能监控界面,也无法横向扩展,给日常维护管理带来不便。

  • 支持的协议较单一,也不支持与云上对接打通,一旦业务系统使用了更丰富的协议接口,便要求业务侧做改造升级,同时也无法充分利用云端的资源。

某城商行影像系统解决方案

某市商业银行资产规模突破 1000 亿元,其影像系统资料数据大约 10T , 服务器架极是采用比较老的 pcserver 通过 scsi 线直连存储,两台 ibm 的 x3650 服务器组成 oracle10G 的双机系统,应用中间件采用的是 weblogic 10,分别跑在 Linux 服务器上,而且没有相关的数据备份系统。 同时由于银行内部还有文件存储需求,所以行内同时还有多套NAS文件系统在运行,性能较差且不具备扩展性。多种文件存储并存也造成了整体运维复杂度和更多潜在故障点。

其老旧影像系统架极图如下:

目前这套系统上线已经很长时间了,2009年底上线的,随着数据量的增长, ds3400 存储在扩展能力上已经不满足目前业务的需要了,而在 io 高峰期间, 存储处理时间较长,经常出现 io 等待,而也没有采用相应的数据备份机制。而ds3400 这期间故障率也偏高,硬盘、cache 电池均更换过,设备出现老化现象。服务器和存储均早已过原厂保修期。

分布式存储系统设计:

基于阿里云CPFS分布式存储满足客户对于存储能力的多种需求:

改造后带来的技术优势:

  1. 通过引入协议转换服务,解决多终端和多协议混用。CPFS提供基于Posix协议的客户端,在Linux环境的计算节点上可以支持大规模部署,通过客户端可以直接访问CPFS后端存储。但是现网还没有超过100个Windows节点直接使用客户端读写CPFS的先例,可能会存在未知的性能风险,因此引入CPFS协议转换节点,Windows节点直接通过SMB协议对接,最终通过协议转换节点与CPFS后端存储互通。

  2. 通过分布式的协议节点、存储节点,节点存储容量和性能弹性扩容。CPFS采用分布式架构,不仅数据本身支持三副本或EC冗余保护,而且元数据也支持分布式管理,这种技术架构很好地解决了传统分布式NAS存储的性能扩展问题,在性能出现瓶颈时仅需要增加协议节点和存储节点即可横向快速扩容。

  3. 通过在计算节点、CPFS客户端、协议节点和存储节点划分一定容量的内存缓存,加速计算过程的数据读写。本方案设计了上述的三级缓存机制,应对高并发的计算数据读写请求,通过热点数据缓存管理,实现高性能数据读写的软着陆,有效解决了传统NAS存储直接使用后端存储去应对业务访问的难题。

  4. 采用SSD+HDD混布的模式,降低计算冷热数据存储成本。CPFS支持灵活的SSD/HDD配比,存储节点配置NVMe高速缓存盘和HDD固态物理硬盘,可配置分层策略,利用高速盘加速热数据访问速度,利用HDD盘承接冷数据的存储,降低客户海量数据存储的成本。

方案价值

  • 以较高性价比,满足了客户业务需求

通过一套CPFS一体机,直接替代了原有自建多套文件存储,无需改造业务系统,即可满足超过上千台服务器多种应用同时并发的高性能计算存储的需求,同时CPFS稳定性采用的元数据分布式架构和数据冷热分层设计在系统稳定性和先进性上要优于传统的文件存储。在业务对比实测中,客户也看到采用CPFS后性能和计算时延抖动较原有存储系统小。

  • 性能和容量支持在线线性扩展,业务远期规划无忧

CPFS存储系统支持不中断业务的热升级方式,充分考虑了客户未来业务发展,直接通过增加存储节点和协议机节点便可实现快速扩容。

  • 减少运维工作量,让客户更专注于业务本身

CPFS提供了一整套运维监控服务,包括秒级硬件巡检、检测和修复能力,也能提供告警接口主动提示系统异常,省却了客户原来管理多套独立存储系统带来的不便。

  • 支持与公共云无缝对接,为客户未来业务延伸创造了想象力

通过CPFS一体机无需额外购买其他硬件设备、也无需做额外的适配开发,便可以快速将线下数据迁移到云端的CPFS和对象存储OSS,在未来部分业务可以上公有云或互金业务上线时,可快速做出业务调整。