耗时6年生成代码1.6亿行,农业银行大数据平台打造攻略!

摘要: 耗时6年,135个项目,8000页需求,累计投入11000多人月,生成的代码行1.6亿行,支持了8大业务领域,33条业务线,120多个应用场景,这就是中国农业银行大数据平台。

近日,中国人民银行公布了2017年度“银行科技发展奖”(银发奖)获奖项目。其中“中国农业银行自主可控大数据平台”项目荣获2017年度银发奖一等奖。

据了解,银发奖是中国人民银行于1992年设立的、我国金融业唯一的部级奖项。

在正式开始介绍中国农业银行(以下简称:农业银行)大数据平台前,为了便于理解,先从背景说起。

10月16日,农业银行与南大通用联合创新实验室签约揭牌仪式在京举行。

会后,农业银行研发中心总经理蔡钊、南大通用CEO武新等双方领导接受了笔者采访,并介绍了双方合作故事、数据仓库项目建设历程、还有创新实验室的研究课题与目标。

面临问题

农业银行原有数据分析平台基于传统关系型数据库建设,随着数据量的不断增大、接入的系统越来越多,系统加工效率逐步降低,同时也无法继续接入更多的源系统数据。 

为满足行内数据分析和监管数据不断增加的需求,农业银行在2013年开始建设完全自主可控的大数据平台。

实际上,农业银行建设大数据平台的原因与其他银行痛点并没什么不同,都面临同样的问题:数据整合难、加工效率低、数据服务单一、利用层次低等等。

建设目标

为了解决这些问题,农业银行经过深入的调研和思考,定下了大数据平台所需要达到的4个指标。

1、 全: 能够接入农行现在的所有上游系统和源表(目前已实现135个系统9023张源表入库),涵盖行内各业务领域数据,实现数据全视图,实现全面智能数据服务。

2、 快:  PB级结构化数据和EB级非结构化数据,8小时内完成主库71724个批量作业调度,MS级延迟流数据实时分析。

3、 准: 所有的数据统一标准、统一规范、统一加工、统一服务。多重数据一致性校验机制,高精度数据存储计算,精准化、个性化、即时化的数据导航及超市服务,让大数据服务更加精准。

4、 强: 能够为业务场景服务,能够给精细化管理和风险提供支持。

技术选型

经过大量研究和调研,农业银行大数据平台最终决定采用MPP数据库和Hadoop混搭的架构。

为什么选择混搭架构?蔡钊对笔者说:“是因为看到了技术发展的趋势,MPP数据库与Hadoop混搭的架构能提高效率降低成本。

MPP数据库适合高密度结构化运算,而Hadoop平台的优势在于非结构化数据处理及其扩展能力。因此,要评估哪些场景适用MPP数据库,哪些场景适用Hadoop平台,如何实现MPP与Hadoop的数据交互,同时能够做到2种架构功能互补,这是采用混搭架构要面临的技术挑战。

而对于MPP数据库选型,数据及时性、快速性、一致性、容忍度等都有很高要求。

2013年1月,农业银行进行选型测试。最终南大通用GBase 8a MPP Cluster集群,被选作大数据平台核心组件企业数据仓库及集市的数据管理基础软件。

除了产品本身外,另外一个很重要的原因,是农业银行认为南大通用的技术团队有能力做好这个事情。而这是基于双方相互了解和以过往良好的合作为基础。

蔡钊强调,做技术还是要务实一点,不能为了国产化而国产化。在满足国家自主可控战略外,还要兼顾企业自身业务需求,毕竟搭建大数据平台的目标首先是为了满足企业自身业务发展需要,为企业的客户服务。如果产品不过硬,即使有国产化政策也不会选。

架构设计

农业银行大数据平台采用MPP +Hadoop混搭架构建设,MPP分成主库和八大集市,集市按照业务领域划分,分成个人、对公、财会、监管、风险、运营、审计等七个业务领域,第八个是为各分行特色地进行服务。

MPP集群总计1129个数据节点,其中主仓共112个节点,采取双集群组成双活主库。双活架构解决了几个问题:

1、 数据备份问题 

2、 批量处理时间窗口问题 。A集群做T+1日的批处理,B集群做T+2的联机访问,这样互不干扰,在批处理完成后,后半夜完成A集群到B集群当日增量复制。

在主库的批量时间每天运行8小时左右,每日完成的数据文件处理是119个上游系统,4090张原表,4万多个文件,每天处理量基本在6.65TB左右,月终大概是8TB左右。

其余为8套集市环境及5套外围应用;Hadoop集群总计1081节点,其中ODS Hadoop集群172节点,其余为流计算平台数据分析挖掘平台。

所有结构化数据的处理、加工都在MPP数据库里实现,数据量6.5PB,而非结构化海量数据的存储以及流数据运算、统一的预处理,都在Hadoop里进行,数据量4.8PB。

大数据平台还包括:统一调度、统一监控、统一ETL开发工具、统一元数据管理、统一数据质量管理等系统以及统一展示平台。

据了解,目前,除了八大集市之外,反洗钱、征信、经审、统一指标库、数据提取类的应用,也都纳入了农业银行的大数据平台整体的管控范围。所有资源统一调度、统一监控,并对原数据、数据质量、数据标准都进行了统一管理。

对外服务

基于大数据平台,农业银行能够对外提供的服务,主要分为四个大类:

1、 经营管理平台 ,传统的指标、报表、简单的BI,都是通过该平台来提供服务。

2、 分析性的应用服务 ,包括个人营销、对公营销、风险控制等等,统一应用接入。通过该平台可以搭建一个模块化、组件化、由底层统一的流程平台和规则云平台、SaaS服务后端的云服务的模式,进行快速开发、部署。

3、 统一报送平台 ,外部监管,包含银监会、人民银行、外管局等20多个报送系统。

4、 分析挖掘数据价值发现 ,分析挖掘平台底层支持数据可以在MPP和Hahoop里,通过权限、流程、项目管理它所对应的数据和算法,进行训练发现价值。

部署实施

2013年11月,原型环境28节点GBase 8a MPP集群搭建完成,开始试运行,总数据量200TB

2014年11月,原型环境数据迁移至生产环境56节点,GBase 8a MPP集群总数据量500TB

2015年4月7日,生产环境正式上线,可支撑总数据量1.5PB。

2016年3月,ODS下沉,实现MPP与Hadoop融合,仓内集市外迁,主仓与集市数据高速流转,构建主仓库MPP集群双活,全面提升可靠性等系列优化工作完成上线,4套GBase 8a MPP集群共152节点,总数据量超过2PB。

2017年底,个人客户,对公客户,风险管理等多个集市投产上线,建成提数平台,监管报送等应用,数据分析挖掘平台上线,部署GBase 8a MPP集群26套,总节点数1129,管理数据量约28.2PB。

2018年6月10日,大数据平台主仓双活集群稳定运行1000天。

Image placeholder
Dream
未设置
  55人点赞

没有讨论,发表一下自己的看法吧

推荐文章
「完整版」农业银行数据库使用实践和发展规划!

摘要:中国农业银行(以下简称:农行)在信息化系统建设过程中,先是把关系型数据库作为联机交易型数据库使用,后来为满足分析型应用需要开始使用分析型数据库,近几年来随着应用场景细分,对基于Hadoop的大数

百分点万亿级大数据平台的建设实践

从互联网、移动互联网到物联网,数据量之巨大已突破想象边界。与此同时,实时数据分析的需求日益增长,那么,当数据量达到亿级、百亿级甚至万亿级规模,实时数据分析如何来做?尤其在ToB/G来说,大多数企业和政

Kafka 集群在马蜂窝大数据平台的优化与应用扩展

马蜂窝技术原创文章,更多干货请订阅公众号:mfwtechKafka是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐、低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数据的

中信银行信用卡业务数据库实现国产替换,湖北银行新核心系统项目正式验收,阿里云与MongoDB达成战略合作

中信银行信用卡业务数据库实现国产替换10月31日,由IT168旗下ChinaUnix社区主办的第十一届中国系统架构师大会(SACC2019)在北京召开。会上,中信银行软件开发中心/技术平台开发处副处长

Oracle ADW业务数据平台点亮DTCC2019数据库技术大会!

数字大脑、互联网+、智能+、人工智能、边缘计算……信息技术领域好像从不缺少概念,但无论世界如何变化,数据是一切业务的核心。要想有效管理、分析和挖掘数据带来的价值,数据库一定是必需品。2019年5月8日

做银行家里的数据专家:ING探索大数据时代下的金融最佳实践

大数据文摘出品记者:高延6月18-21日,O’ReillyAIConference在北京召开。大会上,来自荷兰的金融公司ING的IT主管BasGeerdink带来了《关于数字驱动企业》的主题分享。进入

可自动生成代码,5款基于AI的顶级开发工具

如今,对机器学习潜力感兴趣的程序员都在讨论,如何使用人工智能和基于人工智能的软件开发工具构建应用程序。例如PyTorch和TensorFlow之类的解决方案。除此之外,机器学习技术正以另一种有趣的方式

DTCC 干货 | 腾讯营销数据平台

摘要:广告平台是一个数据驱动的平台,数据在系统中高效流动,形成闭环,产生价值。腾讯广告系统每天有上百亿次请求量,以及上百T的数据,保证数据流的稳定可靠和高性能是数据系统的核心问题。对于数据分析场景,腾

媒体开放日,探秘百分点认知智能战略!

2009年7月1日,数据智能技术公司百分点正式成立,今年正好是第10个年头。百分点公司新址10年间,百分点经过多次转型,逐步形成了目前的企业级(ToB)、政府级(ToG)和SaaS服务三大业务体系,服

浏览器控制台打不开怎么办

浏览器控制台打不开怎么办浏览器控制台打不开可能是网页禁用了f12按键和右键网页的功能,解决方法是使用浏览器的功能按钮打开。不同浏览器略有不同,但基本都能在菜单中找到。1、chrome打开方式:点击右上

美漂数据科学家年薪多少?爬了6年H1B签证数据发现,招的人多了,但钱少了

大数据文摘出品来源:medium编译:张睿毅、曹培信自2012年起,一直被称为“最性感的工作”的数据科学家职位,吸引了大批远渡重洋到达硅谷,做着“数据梦”的留学生们。但他们也付出了不菲的前期投入,除了

杭州银行批量交易平台(HZBAT)技术内幕

1 概述杭州银行批量交易平台(HZBAT)是我基于DC4C自研的面向批量交易的技术平台。DC4C是我在2015年完全独立自研的分布式批量计算框架。目前HZBAT已用于综合积分系统(2015年投产)、E

全球首个AI宇宙模拟器发布!6亿光年宽度,还“自行”跑出了暗物质

大数据文摘出品作者:易琬玉、曹培信《创世纪》里,神用7天创造了这个世界。而现在,你可能也有机会体验这个过程,创造一个属于自己的宇宙。6月11日,SpaceEngine0.990版本在Steam平台发售

云徙助力良品铺子「双11」:成为5.6亿背后的技术力量

每逢双十一时节,品牌的种草之心被推到顶峰。在密集的信息交汇中,消费者希望获取有价值的消费决策,品牌则希望被广泛看见、被坚定选择,此时,格外凸显出中台+精准营销的重要意义。双11购物狂欢节”已走过11个

IDC发布:到2025年,将有416亿台物联网设备

联网设备的数量,包括构成物联网(IoT)设备、传感器和摄像头,继续以稳定的速度增长。根据IDC的预测估计,到2025年,将有416亿台物联网设备,产生79.4十万亿亿泽字节(ZB)的数据。随着物联网设

微软发布2019第三季度财报 企业级云季度收入96亿美元

微软公司今天发布2019财年第三季度财报。财报显示,截止到2019年3月31日:营收达到306亿美元,增长14%运营收入为103亿美元,增长25%净收益达88亿美元,增长19%摊薄后的每股收益1.14

建立开放的大数据精准扶贫平台,让全社会参与进来!

精准扶贫”的重要思想最早是在2013年11月,习近平主席到湖南湘西考察时首次作出了“实事求是、因地制宜、分类指导、精准扶贫”的重要指示。2015年6月,习近平主席在贵州召开部分省区市党委主要负责同志座

天翼云赋能教育行业 轻松打造数字化教育平台

2018年4月,教育部印发《教育信息化2.0行动计划》,提出要提高信息化应用水平、提高师生信息素养,建设一个”互联网+教育”大平台,从而构建”互联网+”条件下的人才培养新模式,发展基于互联网的教育服务

打造高逼格、可视化的Docker容器监控系统平台

关于Docker技术的文章之前也断断续续写了几篇:Docker容器系列文章|Docker技术入门(一)Docker容器系列文章|Docker技术入门(二)Docker容器系列文章|这20个Docker

MySQL 亿级数据数据库优化方案测试-银行交易流水记录的查询

作者:逸宸a链接:https://www.jianshu.com/p/cbdef47fb837对MySQL的性能和亿级数据的处理方法思考,以及分库分表到底该如何做,在什么场景比较合适?比如银行交易流水

做深度学习这么多年还不会挑GPU?这儿有份选购全攻略

大数据文摘出品来源:timdettmers编译:刘佳玮、钱天培深度学习是一个对算力要求很高的领域。GPU的选择将从根本上决定你的深度学习体验。一个好的GPU可以让你快速获得实践经验,而这些经验是正是建

大数据时代,数据湖并不能完全取代数据仓库

数据仓库为组织了解其历史业务表现和推动持续运营提供了一个接入窗口,为数据分析师和业务用户提供了诸如客户行为、业务趋势、运营效率和销售等方面的信息。尽管出现了基于Hadoop和其他一些大数据技术的数据湖

案例诊断:“交易耗时8S”缉凶记

背景某日上午,小集购买a产品失败,页面弹出“系统异常,请稍后重试”的报错,便联系了技术团队的开发小成。“小成,我刚才尝试买a产品一直显示系统异常,是不是有什么问题呢?”开发小成接到电话后,迅速着手排查

GoldenDB ,一个已经全面支撑银行核心系统的国产数据库

摘要:沿用、并存还是替代,一直是银行核心系统数据库转型重点思考的问题。四大行目前主要采用的是沿用与并存的数据库产品战略,在确保稳定的大前提下对新兴数据库技术进行探索研究和实践。相对而言,股份制银行在这

开曼国家银行已证实被黑客入侵:2.21 TB数据惨遭泄露

“或许这只是冰山一角,其背后还隐匿着更多的深海冰川。”开曼群岛——一个吸引人的财政天堂。近日,据外媒报道,匿名黑客入侵了开曼国家银行,并泄露了2.21TB数据,此外,他还向其他黑客提供100,000美