从关系型数据库到分布式机器学习，揭秘腾讯大数据十年发展历程-猿圈-程序猿的知识社区

大数据技术在过去10多年中极大改变了企业对数据的存储、处理和分析方式。如今，大数据技术逐渐成熟，涵盖了计算、存储、数仓、数据集成、可视化、NOSQL、OLAP分析、机器学习等丰富领域。在未来，大数据技术还会往引擎容器化、大数据机器学习、数据湖等方面不断延伸。

近日，腾讯大数据技术沙龙首站——Angel专场在深圳举办，腾讯大数据团队详细披露了腾讯大数据十年发展历程，并全面展示了腾讯第三代全栈机器学习平台Angel在大模型数据训练、深度学习、图计算等方面的技术能力，也深入分享了在微信支付、效果广告、微众银行等场景上的应用案例。

会上，腾讯大数据负责人刘煜宏正式发布了“星火计划”，他表示：“在腾讯大数据十年的发展历程中, 我们不断追求技术创新, 集群数从30台到突破35000台。2016年，我们打破了计算奥运会之称的Sort Benchmark 4项世界纪录，性能全球领先。腾讯大数据的发展从开源中受益，秉承着开放共享的精神, 今天我们也推出技术共享的‘星火计划’，希望能够助力和反哺大数据生态繁荣。”

腾讯大数据发展“三部曲”

作为大数据领域的前沿探索者，腾讯大数据从2009年开始, 经历离线计算、实时计算与机器学习三个阶段，在实践中积累了大量的经验。

据刘煜宏介绍，2009年之前，腾讯主要使用传统的关系型数据库。2009年开始，传统的单机数据库所提供的服务，在系统可扩展性、性价比方面已不再适用腾讯业务爆发式的增长。面对这种变化，腾讯大数据转向分布式，基于开源的Hadoop体系，构建了腾讯第一代大数据平台，并建设离线计算平台，主要发力规模化。腾讯大数据由此进入第一阶段。三年里，腾讯实现了从关系型数据库到自建大数据平台的全面迁移，到2012年，腾讯大数据的单集群规模突破了4400台。

2012年，移动互联网爆发，应对业务数据统计及时性、快速性的需求，腾讯大数据从Hadoop转向Spark和Storm体系，在吸收开源技术的基础上，结合腾讯自身的需求进行重写，探索流式计算、秒级采集系统的建设，构建企业级的实时数据分析体系，腾讯大数据发展进入第二阶段。

2015年至今，腾讯大数据迈入了第三阶段。随着数据挖掘、数据应用的深入，腾讯大数据再次自我迭代，于2016年推出了自研机器学习平台Angel，专攻复杂计算场景，可进行大规模的数据训练，支撑内容推荐、广告推荐等AI应用场景。它由腾讯与北京大学联合研发，兼顾了工业界的高可用性和学术界的创新性。不仅支撑腾讯自身业务需求，在行业上也具有里程碑意义。

从海量业务中来，专注图计算场景

作为面向机器学习的第三代高性能计算平台，腾讯Angel在稀疏数据高维模型的训练上具有独特优势，擅长推荐模型和图网络模型相关领域。当前业界主流的大规模图计算系统主要有Facebook的Big Graph、Power graph、Data bricks的 Spark GraphX等，但这些系统并不都支持图挖掘、图表示学习、图神经网络的三大类型算法。

据腾讯Angel开发负责人肖品介绍，腾讯Angel从腾讯海量业务场景中而来，是超大样本和超高维度的机器学习平台。从性能上来看，Angel优于现有图计算系统，能够支持十亿级节点、千亿级边的传统图挖掘算法，百亿边的图神经网络算法需求。它可运行于多任务集群以及公有云环境，具备高效容错恢复机制，也更容易支持新算法，同时，Angel能够较好支持图挖掘、图表示、图神经网络算法，具备图学习的能力。

如今，Angel已在QQ、微信支付、腾讯广告、腾讯视频等腾讯旗下产品中广泛应用，并向微众银行等行业合作伙伴全面开放，普遍适用于智能推荐、金融风险评估等图计算业务场景。

到开源中去，积极贡献社区

发布仅一年时间，2017年，腾讯Angel就正式开源。2018年8月，腾讯将Angel捐赠给Linux旗下专注人工智能的LF AI基金会，结合基金会成熟的运营，全面升级的 Angel与国际开源社区深入互动，致力于让机器学习技术更易于上手研究及应用。

“Angel在2018年加入LF AI基金会进行孵化后，一直按照开源社区的模式进行运营，增长速度非常快，增加了特征工程、自动机器学习等很多新的功能，在Github上增加了超过2000个Star。” Linux Foundation APAC大中华区总监杨轩表示： “Angel是LF AI基金会下最活跃的项目之一，相信不久的将来，Angel将进入LF AI的顶级项目之列。”

目前，Angel在GitHub上Star数已超过5300，Fork数超过1300，总共有39位代码贡献者，提交了超过2336个commit。

面向未来，大数据、AI和云的深度融合

腾讯Angel在深度学习和图计算能力的演变，也与大数据的行业发展方向相契合。据刘煜宏介绍，未来，腾讯大数据将持续发力数据湖、批流统一（批量计算、流线计算的融合）、AI+大数据、云计算+大数据四个主要方向。

刘煜宏表示：“AI、云计算与大数据密不可分，Angel从大数据平台到全栈机器学习平台的成长，也验证了这一行业方向。未来我们将把腾讯大数据的能力和技术，与AI、与云做深度融合，进一步落地大数据的价值，更好的助力合作伙伴和用户。”

据了解，腾讯大数据星火计划是由腾讯发起、面向大数据爱好者的技术共享体系，基于腾讯大数据10年研发与运营经验，以社区开源、网络课程、线下沙龙、技术峰会等多种形式，充分开放腾讯十多年来在大数据领域的技术积累。本次Angel专场是星火计划的首次线下活动。

菜单 学习猿地 - LMONKEY

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练！告别无效练习

接私单赚外块

VIP优先接，累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

人生苦短我要学Python！

PHP开发工程师

PHP是世界上最好的编程语言!

GO开发工程师

想优雅的写程序，赶紧GO!

大数据开发工程师

弄大数据，就是在搞革命!

前端开发工程师

不仅最好，而且最全!

UI开发工程师

这个世界从来不缺少美，缺少你来创造美!

Linux运维工程师

不只是说说而已！

WEB前端1+X

不仅为考证，轻松做开发

计算机二级（C语言）

一切只为考证！

猿工手册

各种工具精挑细选

猿材料

各种工具精挑细选

猿代码

各种工具精挑细选

猿著课件

各种工具精挑细选

知识题库

知识闯关节节高，刷题涨知识！

阶段练习

单元测试知识学习状况秒掌握！

期末考试

期末测试，学习情况即刻知道！

面试题库

最新的企业技术人员招聘真题练习！

Java专区

2948篇 ｜ 24.5万人浏览

Python专区

2593篇 ｜ 19.5万人浏览

大数据专区

2948篇 ｜ 18.5万人浏览

PHP专区

3953篇 ｜ 27.5万人浏览

Go专区

1382篇 ｜ 12.5万人浏览

Web前端专区

1453篇 ｜ 31.5万人浏览

Linux云计算

1230篇 ｜ 4.5万人浏览

其他专区

53232篇文章 ｜ 11.5万人浏览

搜索

历史记录 清除记录

近期热搜

项目开发全程实录（电商EW_Shop）

8676 人 1年前

轻松学会Laravel-项目篇（商城API）

2022 人 1年前

Python数据分析2.0-金融

325 人 1年前

Python办公自动化2.0

241 人 1年前

使用账号登录

启用更安全省心的  微信登录

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

菜单学习猿地 - LMONKEY

尊享10项VIP特权持续新增

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览

历史记录清除记录

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览