SACC2019:爱奇艺的大数据中台战略(附演讲实录)

  孙斌 爱奇艺高级总监

主要负责爱奇艺的大数据中台、商业智能、内容智能制作等业务。在互联网产品设计和研发方面有十多年经验,曾就职于微软、hulu、雅虎等公司。

摘要:爱奇艺的业务已经从单一的视频业务发展为“大苹果园”的泛娱乐生态,伴随着业务的高速发展,从成立至今的9年多时间内,爱奇艺累积了全行业最丰富的娱乐大数据。

随着AI和大数据的发展,以及云计算能量的释放,爱奇艺的娱乐大数据的规模化效应呈爆炸式增长,高速发展的业务需要一个健壮稳定的中台去支撑,爱奇艺大数据中台应运而生。

本次交流着重介绍爱奇艺大数据中台战略的由来、发展以及对公司和行业的影响,将会覆盖大数据中台的历史,基础架构,落地赋能应用以及未来的发展方向,也涵盖爱奇艺对整个泛娱乐行业数据驱动业务的理解。

爱奇艺,一家以科技创新为驱动的伟大娱乐公司

众所周知,爱奇艺本身是一家以科技创新为驱动的伟大娱乐公司。现在大家看到的大量影视综艺内容,很多都是爱奇艺的主要品牌。

爱奇艺一路走过来,在商业模式上也做了相关的创新,旨在打造多样化的货币化IP合作模式。爱奇艺的创始人是工科博士,非常注重技术和数据。爱奇艺内部有个不成文的规定,旗下产品技术的人数比例需要占到公司一半,因此,爱奇艺全站做了很多独立的技术体系。

上图大家看到中间有个金字塔,这里面涉及几个专业名词:PPC、PGC和UGC。顶层PPC是指最专业的内容,来自影视综艺,所有大剧、大片通过正版版权进行售卖、交换的商业模式;中间的PGC是专业的中转视频,相对比较短的视频,但在各方面都做得比较好;最底层UGC,可以是在座各位手机录的视频。

最顶端的商业模式,基本上是以正版视频内容通过会员付费模式为主,通过广告收入以及其他发行之类的东西为辅。最底层商业模式,目前比较火的头条系产品(比如快手),以更加灵活、丰富的变现商业模式,包括打赏、电商代货等等。对比看来,中间一层相对比较灵活。

除了大家熟悉的爱奇艺APP,我们产品形态的腰部和最底部,同样也做了大量地尝试。从我们主营业务(在线广告+视频内容)的基础上衍生出来整个泛娱乐生态,包含:网络文学、网络游戏、在线直播、网络漫画、轻小说、票务以及网上商城等,会探索到不同的领域。

企业文化是一个公司里非常独特的基因,爱奇艺通过独特的企业文化来解读娱乐,我们对标各种各样的国内外领先科技公司。视频网站最大的两大成本分别是带宽和版权。所以大家可以看到,国内外所有大的视频网站,从美国的奈菲、亚马逊hulu到中国前三家,大家都有别于传统公司,在做自制内容。

提及爱奇艺的行业规模,这里有几个比较直观的数字。我们的用户量月活有6亿,这个数字基本持续了一到两年时间。而且,我们稳定1.8亿日均独立设备数。全平台日均总使用时长3.5亿小时。种种数据显示,爱奇艺是不同寻常的大数据典型的应用。

爱奇艺大数据中台战略

大数据中台这个概念,在行业里被提出差不多四五年时间。与此同时,爱奇艺内部已经做了很久关于中台的事情。大家可能第一反应就是,一个视频播放平台虽然体量比较大,但是场景单一,为什么会需要大数据中台或者更强大的中后台来支撑?

大家会通过各种各样的APP看到不少讲“大中台小业务”,这就允许我们前面做各种各样的业务迭代、业务尝试。坦白来讲,所有公司都在做中台,但重要的是能不能很好的把相关数据资产沉淀下来。

爱奇艺曾提出过一个概念:苹果园。最早爱奇艺是视频业务,后来从周边衍生出来一些新的业务,这便是我们的苹果树模型。从苹果树的模型往下延伸,远远不是跟视频场景周边相关的,而我们不仅可以在场景上做各种各样的关联,还可以在人群中做各种各样的关联。

我们提出从苹果树,到苹果园泛娱乐生态矩阵。简单地说,我们有长视频、短视频、小视频、奇巴布、爱奇艺阅读、叭哒、泡泡、奇秀直播、爱奇艺知识、体育、电商等等。以下是爱奇艺整个硬件产品的矩阵。

针对中台战略“金字塔”,从底部往上,分别是数字资产沉淀、统一数据平台|技术内核工具、业务互动三个层面。抛开商业模式,纯粹从用户角度看爱奇艺,爱奇艺最主要两个东西是:用户(人)和内容(IP)。

讲到数字资产,重点核心关键词是“统一”。所有不同的东西,我们如何把它能够关联起来。大数据中台在这里面体现的是OneID,如果真正把OneID人、物串起来,最终实现在这基础上各种各样的广告投放、内容变现都有可能。

再讲数字资产沉淀,当你把用户和内容进行实景兑现化,一定要把它在逻辑上放到一个统一的大数仓,才有可能在此基础上进行各种各样的计算。并不是说,非物理存储上在同一个地方。数据中台概念是我在逻辑上对所有数据进行管控,所有血缘、上下游关系清晰记在册的,基于这上的数字资产管理才变得有序。

左侧最上层基础上,对各种各样的复杂业务场景,智能硬件场景、爱奇艺阅读、爱奇艺视频场景,如何让所有行为让机器认识而且明白中间的关联,除了OneID之外的行为,在此行为上用户分析才能真正有意义。

这里有个关键是“主题”,比如所有付费的会员业务这是一个主题,电商业务也是主题,奇秀直播业务也是主题。如何能够让数据结构后面去利用好大数据中台,更好地去实现业务上的诉求,这里面有一个业务主题的概念,这也是我想突出的。

中间统一管控加上规范化,再到这一端开始发挥价值。

比如投资资产,在一些IP我们要做全生命周期的管控,也许有可能它只是一个概念或者仅仅有一本比较古老的小说的时候,怎么能够发现它潜在的价值?第二块是用户增长,这个是最近比较火热。最后一块讲数据赋能,比如大家知道的数据赋能广告、数据赋能风控等。

讲了这么多资产沉淀,到底大数据平台是什么样的,中间层统一大数据平台和技术内核工具。我重新再强调一个关键词 “统一”,在此基础上再加一个关键词“透明”。

大概在三个月前,我们团队刚刚做了大数据沙龙,专门分享了数据治理。数据治理这一块就是让所有的数据有序且对上对所有的上层业务透明,而是指所有业务关系、血缘关系,所有地图都可查而且非常有利于理解。在此基础上突出非常重要的关键词“透明”。

还有一个关键词是“兼容”,大家看爱奇艺有那么多业务,有些是爱奇艺自制的,有些是合作的,如何实现所有这些东西兼容?比如存储上的兼容、通讯引擎上的兼容、地域上的兼容等。再往上是大家非常熟悉的关键词,比如画像标签、行为标签。最底层是所有数据的接入,用户全域数据、IP数据以及外部交换数据。

上图大数据平台的架构,其实各家所用的技术站各个方面差别不大,主要有两点。第一点如何能够很好的服务于不一样的独立业务场景,如何能够应对海量的大应用。第二点,系统整体的健壮性。在此基础上整体这套东西非常简单就是为了实现敏捷开发,以此降低各种各样的成本。

金字塔最上层的业务互动,大家对数据最基本的认识就是看、读、用、懂。看数据处在工作的刚需层面,在此基础上,真正通过数据得到启发,来指导业务的话,可以进入第二阶段的读数据,再往上一层是用数据,在数据中找到洞察,从而指导我们的工作。最上层是比较经典的业务模型,在此基础上去设计业务和系统。

在爱奇艺内部,目前在我们实现半自动埋点,并不是说我们不能实现全自动(全埋点),我个人认为这对于一个有很多诉求的大场景来说,是会有很多冗余数据,所以我们是半自动。在此基础上,整体的BI应用、AI应用,各种各样的留存分析、报表,即是我们整个业务增长体系的所有东西。

从懂到用:降低时间、操作门槛。在爱奇艺内部我们有一个文化,我们所有数据相关的业务部门和大数据部门定期都有业务数据分析的分享会。

最后总结一下, “大中台、小前端”,而且我们是在娱乐大数据领域拥有非常专、非常深的应用。

爱奇艺的大数据中台战略使以用户为核心的持续的规模化业务创新成为可能,业务响应能⼒和规模化创新能力,是互联⽹时代企业综合竞争⼒的核⼼体现。正是因为拥有这种核心竞争力,爱奇艺才能利用好自己的娱乐大数据,在泛娱乐领域遍地开花,以一系列创新业务来领跑行业!

Image placeholder
chen-ji-tao
未设置
  39人点赞

没有讨论,发表一下自己的看法吧

推荐文章
DTCC2019 爱奇艺实时数据传输服务

数据库间实时数据传输服务可简化业务系统的数据架构,使其专注于业务开发。DBIO是爱奇艺研发的数据库间实时数据传输服务,用于同异构数据库间实时复制与数据变更捕获,是业务系统数据共享的核心通道。作者:郭磊

​中台战略:业务中台的8个设计原则

业务中台是一个充满生命力的个体,它承载业务逻辑、沉淀业务数据、产生业务价值,并随着业务不断发展进化。它的设计遵循如下图所示的8个原则。业务中台设计的8大原则01 服务松耦合原则(1)面向接口实现这是服

(PPT 下载,来了!)DTCC2019 中国数据库技术大会见证实录

2019年5月8日-10日,DTCC2019第十届中国数据库技术大会历时3天,圆满收官。作为国内顶级的数据领域技术盛会,共有23个技术场次,邀请超过125名专家,包括来自阿里、京东、苏宁、滴滴出行、百

爱奇艺的数据库选型大法,实用不纠结!

来源:rrd.me/fgGsG我们进行数据库选型的时候要考虑哪些问题?有哪些需求?待选用的数据库是否和需求对得上?是不是直接可以拿来用?需不需要一些额外的开发?这些都会在本文的分享中提及。一、数据库技

DTCC2019:陌陌直播推荐的0到1

作为社交+直播行业的领军者,陌陌直播依托于开放式社交平台所承担的职责不同于社交和短视频推荐,需要在内容分发、社交匹配和营收目标上进行综合考虑。如何进行多目标分发的问题抽象和预估建模,以及针对业务的独特

2019年,数据中台为什么火了?

2019年,“数据中台”火了!一方面,过去一年BATJ、TMD等新老互联网巨头前后脚地发布重大消息,称集团层面正在推动以搭建中台为目标的组织架构变革,其中数据中台将是重要一环。而远在2015年就提出“

SACC 2019:达梦数据库推进实践与思考

2019年10月31日~11月2日,由IT168旗下ITPUB企业社区平台主办的第十一届中国系统架构师大会(SACC2019)在北京成功召开。本届大会继续沿用四大主线并行的演讲模式,设置业务系统架构设

Oracle ADW业务数据平台点亮DTCC2019数据库技术大会!

数字大脑、互联网+、智能+、人工智能、边缘计算……信息技术领域好像从不缺少概念,但无论世界如何变化,数据是一切业务的核心。要想有效管理、分析和挖掘数据带来的价值,数据库一定是必需品。2019年5月8日

SACC 2019:云闪付APP架构优化实践之路

中国银联科技事业部架构师 程朝程朝2011年加入中国银联,拥有三年应用开发设计经验,三年MySQL与Redis内核开发设计经验,三年应用架构设计经验;擅长分布式系统设计,有丰富的系统设计与调优经验,现

大咖齐聚DTCC2019,共论云数据库前景

2019年5月8日,由IT168旗下ITPUB企业社区平台主办的第十届数据库技术大会(DTCC2019),在北京新云南皇冠酒店正式开场。本届大会以“数据风云十年变迁”为主题,百余位行业专家就热点技术话

DTCC2019 :“数据架构设计实践专场”等您来!

  2019年5月8日~5月10日,由IT168旗下ITPUB企业社区平台主办的第十届中国数据库技术大会(DTCC2019),将在北京新云南大酒店召开。本次大会将以“数据风云,十年变迁”为主题,邀请百

直击DTCC2019现场:数据库智能化运维探索与实践

5月10日,第十届中国数据库技术大会(DTCC2019)正在火热进行中。作为本届大会讨论的焦点之一,“数据库智能运维”专场人气爆棚,来自京东物流、腾讯、字节跳动、京东商城、便利峰的行业专家出席现场,他

DTCC2019数据库技术评选结果全面揭晓,四大类别奖项新鲜出炉!

数据风云,十年变迁,而DTCC是一切变革的见证者。作为数据库领域顶尖级的盛会,DTCC已经成功举办了九届,今年是第十届。继承往届会议规模大、涉及话题更前沿、演讲内容更深入等特点之外,DTCC2019数

准独角兽雷鸟科技出席SACC2019,讲述AI在场景互联网下的创新革命

10月31日至11月2日,由IT168旗下ITPUB企业社区平台主办的第十一届中国系统架构师大会(SACC2019)在北京召开。作为国内最具价值的技术交流盛会,也少不了今年热门的智慧大屏话题。据了解,

来SACC2019共论“数字转型 架构演进”之道

2019已经过半,第十一届中国系统架构师大会SACC2019的脚步也越来越近了,十年来中国系统架构师大会SACC一直紧跟系统架构关键技术热点,成为架构师、CTO、CIO以及各研发人员学习交流的前沿阵地

盘点2019:对国产数据库的一点观察和总结

“想,都是问题,做,才有答案”—–华东师范大学副校长、CCF数据库专委会副主任周傲英。之所以开篇引用周教授这句话,是因为笔者觉得,这短短10个字,是对国产数据库发展的最好诠释。中国能否翻越数据库这座大

ZILLIZ AI数据中台:打破数据处理瓶颈,释放AI效能

在最近结束的第十届中国数据库技术大会(DTCC2019)上,ZILLIZ得到了众多专业评委的一致认可,获选为“2019中国数据库技术年度评选——年度创新企业”。这家成立于2016年的企业,凭借对技术发

干货丨爱奇艺CDN IPv6系统配置

1.背景  IPv6是“InternetProtocolVersion6”(互联网协议第6版)的缩写,是互联网工程任务组(IETF)设计的用于替代IPv4的下一代IP协议。IPv4地址资源紧缺严重制约

“小应用”背后的“大改变” 爱奇艺赋能流媒体播放服务

热门视频里,“弹幕盖脸”几乎是必然事件,然而有一个地方看视频,你会发现密密麻麻的弹幕都绕开主角飘过,这个地方就是爱奇艺。对于大家观看视频时喜闻乐见的弹幕,爱奇艺提供了蒙版弹幕服务,可以让用户实现“弹幕

爱奇艺RND框架技术探索——架构与实现

前言RND,全称ReactNodeDesktop,起源于RN在爱奇艺PC端的实现,采用ReactJSframework+Node.jsruntime+nativeUIengine架构,目标是成为最轻量

Android篇 | 爱奇艺App启动优化实践分享

导读性能优化一直都是各个APP推进中的重点、难点,爱奇艺App也不例外。在此之前,爱奇艺AppAndroid版的启动速度虽然一直处于同类App领先的水平,但优势距离其他同类的APP距离一直很小。面

一站式入口服务|爱奇艺微服务平台 API 网关实战

写在前面在互联网业务微服务化改造过程中,按照以往的服务治理体系,各服务需要单独实现限流、鉴权、监控、日志等通用功能,构建入口时资源申请、工单批复、多系统配置等一系列流程对精力消耗极大,学习成本较高

HPC CHINA 2019:面向E级计算时代的HPC/AI协同设计

蓝天飘白云,牧场奶茶香。蒙古大营雄风在,琴声传远方。骑马又滑沙,豪饮河套王。敖包相会歌一曲,笑发少年狂。中国一年一度高性能计算领域的盛会——全国高性能计算学术年会(HPCCHINA2019)在内蒙古呼

AI 数据中台 Mega 及其应用

随着AI在各行业落地的进一步深化和应用数据量的飞速增长,越来越多的AI科学家痛苦地发现数据ETL、数据仓库和海量特征向量检索等数据处理流程花费了他们大量宝贵的时间和精力。AI数据中台Mega打破了人工

《Gartner 2019年数据中心网络魔力象限》报告解读

日前,Gartner发布了2019年数据中心网络魔力象限。此次报告从7个维度(产品或服务、总体生存能力、销售执行/定价、市场反应/记录、营销执行、客户体验和操作),来衡量12个入选企业,并基于前瞻性和