大型金融机构数据平台演进的源动力
来源:金融时报 更新时间:2023-06-12

   数据对于社会发展的重要性不言而喻。金融行业是对数据平台化、数据资产化、数据智能化实践最早、最深入的头部行业。从二十一世纪初开始,直至今日,历经20年的银行数仓建设,呈现出规模化和普惠化的趋势,也面临着降本增效、核心技术能力突破、自主创新突围等关键难点。

金融级云原生分布式架构

满足银行降本增效核心诉求

降本增效是一个企业经营的核心,金融机构数据积累和使用规模已经达到10年前的百倍。随着外部竞争加剧,金融机构对降低成本有迫切需求。Teradata虽然最终有所开放,不过模式还是以软件+硬件+实施一体化为主,给客户带来的ROI(投资回报率)越来越低,个别客户合作关系开始出现裂缝。

纵观20年数仓发展史,2011年是第一个分水岭。在此之前的中国市场,Teradata在巅峰时期曾占据中国金融业数据仓库市场50%以上的市场份额。不少中国知名企业都曾是其客户,诸如工商银行、中国银行、中国电信、中国国际航空等。出于复刻Teradata成功道路的目的,IBM、Oracle和EMC也分别推出同类型产品Netezza、Exadata和Greenplum。IBM和Oracle延续了Teradata一体机路线,Greenplum采用了软件+开放硬件的路线。

2022年是个新的里程碑。老牌的以软硬件为一体为核心的传统数据数仓企业逐渐没落,乃至相继退出中国。与此同时,华为云GuassDB(DWS)数据仓库成了工商银行、招商银行、交通银行、光大银行、民生银行等头部客户共同的选择,在国有大行和股份制银行的市场占有率达55.6%,中国金融数仓市场本地部署排名前列。

技术一直在进步。Teradata的MPP(大规模并行处理)架构相对单机版的Oracle等是巨大的进步,Greenplum支持对开放硬件也曾经迈上新的台阶。但更多的是在模仿,而没有实现超越。市场“用脚投标”,金融机构对降本增效的本质追求没有变化,更为先进的基于金融级云原生分布式GuassDB(DWS)不觉之间已成为如今金融行业数仓的事实标准。

极致性能+高可用+安全可靠

支撑业务稳健发展

MPP数据库的核心能力,在于数据库内核和高速网络,这个难关逐步被头部产业突破,甚至超越。

尽早完成批量数据加工,支持业务尽早用数——这一诉求貌似简单,但在实际情况中困扰了金融机构很多年。大型金融机构每天加工作业量多达几十万,运行的SQL数量达千万级,单表包含的记录量达十亿级。在过去,批量加工完成时间的SLA(服务等级协议)只能以不跨天为目标。而如今使用华为云GuassDB(DWS)等产品进行替换后,SLA已经从逐步从12:30提前至10:30甚至8:30或更早,例如华为云让光大银行在早晨八点半前实现“数据开门”,创造了金融数仓运行新速度。

数据备份也是数据安全保障的基本要求。某大型金融客户曾试过耗费两个周末的空闲时段也无法完成海量业务数据备份。而基于华为云GuassDB(DWS)高达150TB/小时的备份速度和能力,该金融客户仅需不到10小时即可完成在线备份。这令其他厂商大为惊叹。

平台的可靠性和稳定性同样是各大金融机构要考虑的关键因素。当前大型客户的集群规模越来越大,工商银行单一集群300节点以上其他局点也越来越多;承载业务越来越丰富,包括数仓、数据集市、反洗钱应用、CRM应用等。这对平台的稳定性和可靠性产生极大的挑战。幸运的是,这个难题通过了近10年各方共同努力,已经在上千家机构的实际场景中摸索出了解决方案。

除此之外,华为云GuassDB(DWS)还正式获得全球权威信息技术安全性评估标准CC EAL2 + ALC_FLR.2级别认证,是唯一通过该项认证的数据仓库产品。

“融合/自主创新”

促进产品创新到业务创新

随着数智化浪潮的推动,金融科技创新是大势所趋,通过产品创新支持业务创新,成为新动力来源。开放的架构,以及金融机构和头部产业的联合创新,让工商银行实现了从TB及到PB的跨越;支持了上万名用户的在线灵活查询分析。

数据安全方面,从基本的数据备份,到人工参与的平台容灾,到系统级自动化容灾(对等集群),到共创中的系统级细粒度容灾,技术与能力一直在突破。创新的数据库安全环技术,两个副本成本相当三副本的可靠性,支持物理节点故障不影响系统的可用性。通过自带加解密模块,做到支持国密和通用加密算法,保障数据安全,性能损耗极低。高速互联互通,实现平台之间,高速和低时延的数据同步。

此外,新能力如雨后春笋般不断涌现,推动着业务难题的解决,促进了业务的创新。例如,基于LakeFormation全域数据管理能力,华为云数智融合平台让统一元数据全局资源可见可得,帮助客户实现“湖仓一体”;随着云化演进和存算分离技术的发展,用户可实现集群快速发放、计算存储独立扩展、一键升级扩容,更好地解决云成本问题;而数智融合的深度实践,则成功让算力、算法、数据实现统一管理,推动一站式开发,加速企业数智化转型。

大型金融机构当前数据平台规模已达PB级别,集群可达几千物理节点,且朝不断扩大的趋势演进中。面对高昂的建设成本,降本增效是第一要素。而平台的稳定性和可靠性则是“生死存亡”的基础,随着等保三对数据平台要求进一步明确,容灾的需求将越来越多。最后,随着数智化浪潮的到来,创新成为第三要素,金融机构和头部产业通过联合实验室,进行人才培养、自主可控等方面深度合作,促进从产品创新到业务创新的发展。