从关系型数据库到分布式机器学习,揭秘腾讯大数据十年发展历程

大数据技术在过去10多年中极大改变了企业对数据的存储、处理和分析方式。如今,大数据技术逐渐成熟,涵盖了计算、存储、数仓、数据集成、可视化、NOSQL、OLAP分析、机器学习等丰富领域。在未来,大数据技术还会往引擎容器化、大数据机器学习、数据湖等方面不断延伸。

近日,腾讯大数据技术沙龙首站——Angel专场在深圳举办,腾讯大数据团队详细披露了腾讯大数据十年发展历程,并全面展示了腾讯第三代全栈机器学习平台Angel在大模型数据训练、深度学习、图计算等方面的技术能力,也深入分享了在微信支付、效果广告、微众银行等场景上的应用案例。

会上,腾讯大数据负责人刘煜宏正式发布了“星火计划”,他表示:“在腾讯大数据十年的发展历程中, 我们不断追求技术创新, 集群数从30台到突破35000台。2016年,我们打破了计算奥运会之称的Sort Benchmark 4项世界纪录,性能全球领先。腾讯大数据的发展从开源中受益,秉承着开放共享的精神, 今天我们也推出技术共享的‘星火计划’,希望能够助力和反哺大数据生态繁荣。”

腾讯大数据发展“三部曲”

作为大数据领域的前沿探索者,腾讯大数据从2009年开始, 经历离线计算、实时计算与机器学习三个阶段,在实践中积累了大量的经验。

据刘煜宏介绍,2009年之前,腾讯主要使用传统的关系型数据库。2009年开始,传统的单机数据库所提供的服务,在系统可扩展性、性价比方面已不再适用腾讯业务爆发式的增长。面对这种变化,腾讯大数据转向分布式,基于开源的Hadoop体系,构建了腾讯第一代大数据平台,并建设离线计算平台,主要发力规模化。腾讯大数据由此进入第一阶段。三年里,腾讯实现了从关系型数据库到自建大数据平台的全面迁移,到2012年,腾讯大数据的单集群规模突破了4400台。

2012年,移动互联网爆发,应对业务数据统计及时性、快速性的需求,腾讯大数据从Hadoop转向Spark和Storm体系,在吸收开源技术的基础上,结合腾讯自身的需求进行重写,探索流式计算、秒级采集系统的建设,构建企业级的实时数据分析体系,腾讯大数据发展进入第二阶段。

2015年至今,腾讯大数据迈入了第三阶段。随着数据挖掘、数据应用的深入,腾讯大数据再次自我迭代,于2016年推出了自研机器学习平台Angel,专攻复杂计算场景,可进行大规模的数据训练,支撑内容推荐、广告推荐等AI应用场景。它由腾讯与北京大学联合研发,兼顾了工业界的高可用性和学术界的创新性。不仅支撑腾讯自身业务需求,在行业上也具有里程碑意义。

从海量业务中来,专注图计算场景

作为面向机器学习的第三代高性能计算平台,腾讯Angel在稀疏数据高维模型的训练上具有独特优势,擅长推荐模型和图网络模型相关领域。当前业界主流的大规模图计算系统主要有Facebook的Big Graph、Power graph、Data bricks的 Spark GraphX等,但这些系统并不都支持图挖掘、图表示学习、图神经网络的三大类型算法。

据腾讯Angel开发负责人肖品介绍,腾讯Angel从腾讯海量业务场景中而来,是超大样本和超高维度的机器学习平台。从性能上来看,Angel优于现有图计算系统,能够支持十亿级节点、千亿级边的传统图挖掘算法,百亿边的图神经网络算法需求。它可运行于多任务集群以及公有云环境,具备高效容错恢复机制,也更容易支持新算法,同时,Angel能够较好支持图挖掘、图表示、图神经网络算法,具备图学习的能力。

如今,Angel已在QQ、微信支付、腾讯广告、腾讯视频等腾讯旗下产品中广泛应用,并向微众银行等行业合作伙伴全面开放,普遍适用于智能推荐、金融风险评估等图计算业务场景。

到开源中去,积极贡献社区

发布仅一年时间,2017年,腾讯Angel就正式开源。2018年8月,腾讯将Angel捐赠给Linux旗下专注人工智能的LF AI基金会,结合基金会成熟的运营,全面升级的 Angel与国际开源社区深入互动,致力于让机器学习技术更易于上手研究及应用。

“Angel在2018年加入LF AI基金会进行孵化后,一直按照开源社区的模式进行运营,增长速度非常快,增加了特征工程、自动机器学习等很多新的功能,在Github上增加了超过2000个Star。” Linux Foundation APAC大中华区总监杨轩表示: “Angel是LF AI基金会下最活跃的项目之一,相信不久的将来,Angel将进入LF AI的顶级项目之列。”

目前,Angel在GitHub上Star数已超过5300,Fork数超过1300,总共有39位代码贡献者,提交了超过2336个commit。

面向未来,大数据、AI和云的深度融合

腾讯Angel在深度学习和图计算能力的演变,也与大数据的行业发展方向相契合。据刘煜宏介绍,未来,腾讯大数据将持续发力数据湖、批流统一(批量计算、流线计算的融合)、AI+大数据、云计算+大数据四个主要方向。

刘煜宏表示:“AI、云计算与大数据密不可分,Angel从大数据平台到全栈机器学习平台的成长,也验证了这一行业方向。未来我们将把腾讯大数据的能力和技术,与AI、与云做深度融合,进一步落地大数据的价值,更好的助力合作伙伴和用户。”

据了解,腾讯大数据星火计划是由腾讯发起、面向大数据爱好者的技术共享体系,基于腾讯大数据10年研发与运营经验,以社区开源、网络课程、线下沙龙、技术峰会等多种形式,充分开放腾讯十多年来在大数据领域的技术积累。本次Angel专场是星火计划的首次线下活动。

Image placeholder
杨亮
未设置
  48人点赞

没有讨论,发表一下自己的看法吧

推荐文章
如何基于 Kafka 构建一个关系型数据库

在这篇文章里,我将分享如何通过扩展KCache(https://github.com/rayokota/kcache)来实现一个全功能的关系型数据库,我把这个数据库叫作KarelDB(https://

Elasticsearch 与传统关系型数据库的对比、倒排索引原理解析

Elasticsearch和传统关系型数据库的对比Elasticsearch中的概念与关系型数据库对比 RelationalDB Databases Tables Rows Columns 关系

Adobe又逆天!不用机器学习,用13.5M软件把《长安十二时辰》变成水墨动画

大数据文摘出品作者:曹培信用过修图软件的同学们应该都知道,利用强大的GAN,已经可以实现一键转换照片风格的功能,比如将你拍的风景照转换成一副印象派的画作。现在,轻松转换视频风格的软件也诞生了!Secr

一文读懂数据库70年发展史

作者:常垒资本 冯斯基顾问:云和恩墨、戴工玖、周家晶零1949-19791956年,周恩来总理亲自领导了“科学技术发展十二年规划”,标志着我国计算机事业的开始。而那时,几乎没有人知道计算技术是怎么回事

为什么IoT需要机器学习才能蓬勃发展?

人们一直在热烈讨论大数据和人工智能等技术的机遇和威胁,并对它们的未来表示担忧。与此同时,公司希望通过安装越来越多的传感器,来提高效率降低成本。然而,InData实验室的机器学习顾问表示,如果没有适当的

干货 | 揭秘京东数科强一致、高性能的分布式事务中间件JDTX

导读:在分布式数据库、云原生数据库、NewSQL等名词在数据库领域层出不穷的当今,变革——在这个相对稳定的领域已愈加不可避免。相比于完全革新,渐进式增强的方案在拥有厚重沉淀的行业则更受青睐。同所有分布

深入浅出百亿请求高可用Redis(codis)分布式集群揭秘

摘要:作为noSql中的kv数据库的王者,redis以其高性能,低时延,丰富的数据结构备受开发者青睐,但是由于redis在水平伸缩性上受限,如何做到能够水平扩容,同时对业务无侵入性是很多使用redis

制定机器学习训练数据策略的6个技巧

人工智能(AI)和机器学习(ML)如今已经十分常见。AI指的是机器模仿人类进行认知的概念,ML是一种用于构建AI的方法。如果AI是指计算机可以根据指令执行一组任务,那么ML就是机器从数据中摄取、解析和

做机器学习项目数据不够?这里有5个不错的解决办法

许多开展人工智能项目的公司都具有出色的业务理念,但是当企业AI团队发现自己没有足够多的数据时,就会慢慢变得十分沮丧……不过,这个问题的解决方案还是有的。本文将简要介绍其中一些经笔者实践证明确实有效的办

Python 教程-机器学习

Python有着海量的可用于数据分析、统计以及机器学习的库,这使得Python成为很多数据科学家所选择的语言。 下面我们列出了一些被广泛使用的机器学习及其他数据科学应用的Python包。

2019机器学习框架之争:与Tensorflow竞争白热化,进击的PyTorch赢在哪里?

大数据文摘出品来源:thegradient编译:张大笔茹、曹培信、刘俊寰、牛婉扬、Andy2019年,机器学习框架之争进入了新阶段:PyTorch与TensorFlow成为最后两大玩家,PyTorch

TensorFlow技术主管Peter Wardan:机器学习的未来是小而美

大数据文摘授权转载自OReillyAIPeteWardan任谷歌TensorFlow移动和嵌入式团队的leader,在O’ReillyAIConference2019的Keynote演讲环节,他对机器

甜过初恋!浙大博士用200个西瓜130页论文,教你用机器学习科学挑瓜

大数据文摘出品作者:易琬玉刚刚送走了最热七月,转眼就迎来了最热八月。2019年是人类有气象纪录以来最热的几个年份之一,虽然这个夏天还没结束,但气象学家们已经有十足把握做出这个判断。为了应付热,人们想出

如何使用TensorFlow机器学习对图像进行分类?

本文将介绍如何使用迁移学习使用TensorFlow机器学习平台对图像进行分类。在机器学习环境中,迁移学习是一种技术,使我们能够重用已经训练的模型并将其用于另一个任务。图像分类是将图像作为输入并为其分配

一份关于机器学习“模型再训练”的终极指南

机器学习模型的训练,通常是通过学习某一组输入特征与输出目标之间的映射来进行的。一般来说,对于映射的学习是通过优化某些成本函数,来使预测的误差最小化。在训练出最佳模型之后,将其正式发布上线,再根据未来生

机器学习在高德用户反馈信息处理中的实践

1.背景作为国内领先的出行大数据公司,高德地图拥有众多的用户和合作厂商,这为高德带来了海量的出行数据,同时通过各个渠道,这些用户也在主动地为我们提供大量的反馈信息,这些信息是需要我们深入挖掘并作用于产

机器学习——单变量线性回归

机器学习之单变量线性回归modelrepresentation模型表示引言 给定房屋面积和房屋价格的数据,然后以房屋面积为横坐标,房屋价格为纵坐标,绘制数据点。通过绘制曲线,获得房屋房价的模型,根据房

分布式时序数据库QTSDB的设计与实现

现有的开源时序数据库influxdb只支持单机运行,在面临大量数据写入时,会出现查询慢,机器负载高,单机容量的限制。为了解决这一问题,360基础架构团队在单机influxdb的基础上,开发了集群版——

大数据推动教育产业创新发展

《大数据时代》作者维克托•迈尔-舍恩伯格教授著作《与大数据同行:学习和教育的未来》一书指出:当下大数据正悄悄影响到教育体系的每个层面,对于全世界的学习与教育活动,都会产生极为深远的影响。AI辅助教学,

当前政府发展大数据产业思路分享

笔者认为大数据发展大体会经历三个阶段,一、业务的数据化;二、数据的业务化;三、业务的智能化。2018年,各地方政府包括企业通过这几年的大数据建设,基本完成了业务的数据化、和数据开放共享的第一阶段,20

10分钟搞懂:亿级用户的分布式数据存储解决方案!

来源:IT进阶思维原创,转载请注明原出处内容提供:李智慧,前阿里巴巴技术专家,《大型网站技术架构》作者6月6日晚,林志玲与Akira公布婚讯、徐蔡坤祝福高考同学超常发挥,粉丝们百万的转发和点赞造成微博

Go语言高级编程_6.1 分布式id生成器

6.1分布式id生成器 有时我们需要能够生成类似MySQL自增ID这样不断增大,同时又不会重复的id。以支持业务中的高并发场景。比较典型的,电商促销时,短时间内会有大量的订单涌入到系统,比如每秒10w

Go语言高级编程_6.2 分布式锁

6.2分布式锁 在单机程序并发或并行修改全局变量时,需要对修改行为加锁以创造临界区。为什么需要加锁呢?我们看看在不加锁的情况下并发计数会发生什么情况: packagemain import( "sy

Go语言高级编程_6.4 分布式搜索引擎

6.4分布式搜索引擎 在Web一章中,我们提到MySQL很脆弱。数据库系统本身要保证实时和强一致性,所以其功能设计上都是为了满足这种一致性需求。比如writeaheadlog的设计,基于B+树实现的索

Go语言高级编程_6.6 分布式配置管理

6.6分布式配置管理 在分布式系统中,常困扰我们的还有上线问题。虽然目前有一些优雅重启方案,但实际应用中可能受限于我们系统内部的运行情况而没有办法做到真正的“优雅”。比如我们为了对去下游的流量进行限制