AI 数据中台 Mega 及其应用

随着 AI 在各行业落地的进一步深化和应用数据量的飞速增长,越来越多的 AI 科学家痛苦地发现数据 ETL、数据仓库和海量特征向量检索等数据处理流程花费了他们大量宝贵的时间和精力。AI 数据中台 Mega 打破了人工智能和数据处理之间的分界和壁垒,提供 GPU 加速的一站式 AI 数据科学解决方案,将数据 ETL、数据仓库、模型训练、推理和部署等多个流程进行融合。在实践中,Mega 成功地帮助 AI 科学家将工作效率和产出提升5~8倍。

作者:星爵

编辑:王诗珊

星爵是ZILLIZ 的创始人兼 CEO,是数据库、人工智能和高性能计算领域的专家。他曾长期就职于甲骨文(Oracle) 公司美国总部,负责其数据库系统的核心研发工作。他作为奠基人之一研发的 Oracle 12c 多租户数据库(Oracle Multitenant)被誉为 Oracle 数据库在过去10年中最具革命性的创新,迄今已经为公司创造了超过10亿美金的营收。星爵毕业于华中科技大学,在美国威斯康星大学麦迪逊分校获得计算机硕士学位。

本文根据星爵老师在DTCC 2019数据库大会分享内容整理而成,介绍了AI 数据中台 Mega及其应用,主要包括当下AI工程师的痛点分析、Mega系统的应用及解决方案等。

AI工程师的一天

在过去的几年AI越来越火,AI的应用也越来越多。然而AI工程却特别缺乏,一个公司里面很多事情都要用上AI,各种业务系统、推荐系统、业务的分析系统各方面都是用AI来做。导致现在AI工程师一天到晚都特别的忙。

下面是国外的一家AI工程师Robot的一天:

早上9点钟开始上班,在前一天下班前他就将数据挂在后台通宵下载的前提下,上班第一件事开始分析数据格式,做一些数据清理、排掉、去除等,光数据清理就要花费了他一上午的时间。

到了下午,ETL终于做完了!检查一下数据,发现在数据清理的时,忘记拖进来一列数据,这时模型训练里面可能会少一个维度,少一个维度模型就做不了了,没办法只能重新开始。下午4点钟,重新做完一期,检查过程中发现一个正则表达式写错了,AI的模型又无法训练了。到下午5点钟又要重新再做一次ETL,做到7点多的时候其实还没有做完。

我们考虑一下如果日复一日的这样工作,我们发现他的时间分配问题很大,大部分的时间都花在了数据的清洗的过程中、数据初步的分析等等,一天的工作里基本没有碰到真正的模型跟训练。

AI工程师工作中耗时占比最长的是什么?

这是美国的福布斯在2016年给出的一个调查。

ETL跟数据分析是在整个AI工程师的工作中耗时占比最长的一个部分。我们看到红色的部分跟黄色的部分占比最大,红色的部分是做数据ETL,黄色的部分是做初步的数据分析,这两部分加起来,在AI工程师里面的工作时间占比高达79%。而实际,严格意义上的AI模型训练跟模型推断,加起来的时间一个是9%,一个是5%,加起来的话占比时间就区区14%。现在的AI工程、AI科学里面,大部分的时间都耗在了前面的数据清洗、数据的提取、数据的处理。

AI工程师最不喜欢的工作是什么?

这也是福布斯当时给出的一个调查问卷,他调查了700多名美国的AI工程师,他们最不喜欢的工作是什么?

他们最不喜欢的工作流程是ETL和数据分析,回答这两个部分的分别占57%、21%。总体来说的话,大概有79%的AI科学家认为这两部分工作是最烦,最不愿意做的,那怎么办呢?在想怎么办之前,我们看看这是什么原因呢?

问题的根源是什么?

AI是一个新兴的产业,虽然AI的算法在上个世纪80年代已经比较完整了,但是AI作为一个新兴的产业是过去3-5年才蓬勃发展的。AI的发展在3-5年有一个爆发性的增长,而我们看到数据处理的体系结构,不管是以前的关系型数据库、大数据、文档数据库等等。其实在过去的40多年里,它实际上发展得不温不火。一个新兴的AI 产业爆发性的需求跟我们日益落后的数据处理基础架构之间产生了一些根本矛盾。

这些矛盾体现在几个方面:

第一个方面,因为AI产业的兴起带来了异构计算的资源,计算的资源越来越多的异构化。

在以前,所有的处理基本上都是由CPU来进行处理的,而现在AI的产品里面,基本上都是用GPU和类似于GPU的一些综合的处理架构进行处理的。我们发现以前的数据处理架构和流程框架都以CPU为核心,而现在AI的整个处理流程是以GPU为核心。如果领导说要上一个AI的项目,要做深度学习、人工智能。第一步大家肯定说:“先去买一台GPU的服务器”。

计算的资源越来越差异化、异构化的同时,数据处理的框架其实是有一个很明显断层的。

第二个方面,在AI的时代,产生了越来越多的新兴的数据类型。不管是说数据库,还是数据处理系统也好,处理的类型、种类、范畴、外延是在不断扩展的。以前文件的数据、关系的数据、劣势的数据、文档的数据等等,而最近的几年AI最常见的几种数据类型,比如图片、视频、语音、还有文本等,这些文本本身就是一些结构化的对象服务数据类型。它跟以前的各种结构化的类型已经有很大的不同了,但是这些类型通过AI的训练、神经网络、各种网络的训练以后,一般会得出一个特征向量。

特征向量有一个特点,在文本和图片方面都会变成一个特征向量表达。另外一方面特征向量的维度,从几百维到几万维是很大的一个跨度。人脸识别现在是200多的维度,如果说一个文本跟识别的模型,可能会达到几万甚至几十万的一个维度,是一个很宽向量。在很宽的向量处理的同时,传统的数据模型里面都有一个困扰,256个维度的一个向量,我把它放到数据库里面,应该怎么去存呢?

把它存成256列,访问的时候性能都特别低。因为传统数据库在处理高危数据的时候就有问题,包括劣势数据。如果说要处理到几千维几万维的东西,也有一个难的性能问题。

另外一方面,其实在向量上深度学习、定义一系列预算,比如现在的转换变化,还有最后面的人脸识别、视频识别。相似性对相似度模型算相似度。假设我们在一个大的人脸库里面,像中国的人脸库大概有16到18亿的静态的人脸库。来一个新的图片,过去要匹配每一个人脸,现在其实是一个向量在18亿条的256维的向量里面计算最近的相似度,我们还希望能够一个秒级甚至毫秒的一个项目。所以AI在数据类型,还有数据操作方面,已经达到我们心理的需求。

作为一个AI科学家,我需要不断的切换我的工具集。同时我还要在每个工具集之间写很多的连接器,要写很多数据处理的流程。如果我们有一天,有一个完美的工具集。只要指定数据来源,指定几个模型,指定几个数据清洗的规则,按一个键,从头到尾全部帮我们做完,这样的话我们就轻松了,那就不用做完ETL后要等一下它有没有出错,因为整个自动化就可以像数据下载一样,在下班之前把东西提交了,第二天早上过来看结果。

Mega是什么?

在这里面还有一个更优胜者,在过去的几年里面AI的火热,大量的研发的精力、大量的科研、模型训练,使我们知道现在不管是哪个模型,在过去的五年有一个飞速的提高。AI的发展模型跟算法有一个飞跃的成长,但是包括ETL数据仓库,包括大客户的部署框架、基础架构落后于AI的需求。在过去的三年里面,ZILLIZ一直专注做GPU加速、AI数据中台的研发,我们耗时三年,大概花了接近200个人员,我们研发出来的一套系统叫做Mega。Mega理念是什么呢?Mega理念是将所有的资源,包括计算资源,还有存储资源进行一个统一的管理和调度。

在中间我们看到,在所有的计算资源里面包括了CPU、GPU,还包括在云端可以用到谷歌的CPU,包括FPGA一些计算资源进行训练。如果把这些存储异构的计算,用一种统一的接口进行管理,把原数据、逻辑、资源等占用的时间进行一个统一的调度。在整个的A I生命周期里面进行ETL、模型训练和推理部署时,其实不是一个单线条,而是一个不断循环迭代的过程,通过数据提取以后,拿到一些数据集合训练,训练完以后一个模型作为验证的记录不怎么好,就需要拿另外一些数据,或者把数据清洗规则进行修改,这是一个市场的迭代的过程。迭代过程中,我们希望根据下面的资源,不论是计算资源还是数据资源,他们的异构性、存在性、可获得性进行高效的调度。

在之上的话,ZILLIZ希望给各行各业的应用,不管是人脸识别、语音识别、视频的分析,还是自然语言处理等等,提供统一接口。

Mega优势是什么?

这是一个系统的动态示意图,我们看到在ETL框架里面,MegaETL跟传统ETL工具,生态做了一个很好的总和。我们看看它的优势在什么地方,在整个环节里面,不管从ETL、数据仓库、训练、以及部署跟决策整个流程,是跟现有的工具集 、生态做了更完整的一个整合。我们希望从第一天开始,大家不管是使用的界面,还是编程的方法,都跟以前使用的东西比较熟悉,减少学习的曲线。

Mega特点是什么?

整个流程都在统一的框架下面,用GPU新一代的、更快的、更好的、更高性价比的资源来进行处理。

那ZILLIZ怎么做的呢?我们知道ETL是大家都公认的脏活和累活,本质上来说就是把一类的数据进行提取,根据使用的规则进行转换,转换后加载到下游的一个目标系统。整个ETL的过程耗时特别长,大家可能都有过同样的经历,像有一些客户,他们如果处理几个TB的数据,可能就以天为单位计算它的ETL周期的;如有几十个TB的话,大概是几个小时为单位;有几百个TB的话,那一般都是以月为单位,衡量ETL保障完成。

有没有办法去加速呢?这个时候GPU的优势就体现出来了,数据的ETL前面是数据提取,提取到转换的过程,本质上来说是一个计算的过程。在过程上它有一个特别明显的优势,在数据的提取的过程中,其实可以高并发的。

举个例子来说,我们在系统里面有110条的记录,对每一条记录用一个规则,要把一个字符串的最后五位把它扔掉,只留前面的十位。这个规则对于每一套记录都是一样的。这个时候对11条规则的每一条规则,我可以进行一个很好的处理。我们知道GPU它的强项就是算力特别强,任务如果是能够并行的,就能够特别好的锁定更高的性能。

在实际中,我们有几个案例,比如多个数据源规划的案例。在金融方面从多个交易所或者多个第三方机构会拿到不同的数据源。在用之前会做一个统一的数据视图或者是统一数据源的过程,这个时候就是要把多个数据源,进行去重、规划。这个过程我们用的MegaETL、GPU来加速,性能提升50到60倍之间的提速。50到60倍,可能大家还没有特别好的概念。50个小时,基本可以把两天两夜的工作,在一个小时内干完,三个小时之内的工作量在10分钟之内干完。

第二,我们来说说MegaWise,MegaWise是用GPU来加速数据分析的,数据分析过程,也是各个的数据源。将有些数据,做一些复杂的查询,不管是多张表关联,还是比较简单的数据过滤,又或者做数据的聚合。这些数据量比较大的时候,它的性能就会成为一个瓶颈。在10年前有一种叫大数据方案,用集群来做的,集群的本质上来说,一台服务器如果处理不了,那么就用多台服务器来做并行。前提是数据分析过程做工作可以很好运行情况下。

如果有100个T的数据,把数据切成很小的一片,每一片10个G或者是100个G,每一台服务器上面就处理10个G或者100个G的数据。因为100台服务器并行处理,所以就提高了性能处理的响应时间。那么既然是并行的,在数据处理分析里有个并行的理论技术,这个时候就变成GPU处理的数据了。GPU它对所有关系,包括对并行计算是特别有优势的。当我们通过GPU来进行高并发的数据处理,我们在一个节点里面,总共大概有17万个处理核心。也就意味着在任何一个时刻,任何一个施工周期,其实是有17万个核心已经在并发的处理。如果说传统的CPU上运行的各种数据,虽然也可以开动多线程、超线程,但它的线程的数量,一般来说是几十到小一百为单位。而我们在这个GPU的处理框架有一个节点处理的并行度能够达到十几万,这就大大的提高了数据处理的效率。

第三个,MegaLearning是做什么事情的呢?我们看到,在过去的十年里每一个企业每一个行业,陈列了很多的大数据的资产。而这些数据如果要训练的话,是没有一个特别直接的一个接口,分为两方面分析。

一方面来说,这些数据系统是跑在CPU之上;另一方面来说,AI的新需求包括它们调度的一些机制数据,获取的只有机制,跟这些传统的做大数据资产端、大数据系统端,是相互独立的并且是不知道需求的。那么让所有的用户能够更好地利用好自己的大数据资产,同时让大数据资产以直接的方式,把AI系统、AI的训练、AI的推理,能够构建在现有的大数据系统之上。

举一个简单的例子来说,我想大家都喝过咖啡。有一家企业,它用的是一个大数据系统,数据文件的沉淀,上百个T它可以整。现在在这里面做一些训练,比如说过去的20年里面的一个用户交易有一个关键信息。我说在这里面我要去提取用户的特征,或者说看哪些用户的有哪些异常的特征把它提出来,并且希望用一种深度学习的模型训练。显卡的显存一般在十个G,如果是分布式的计算大概几百个G,那么数据加载会更多,那么就会在python程序里面先写一个缓冲词做一个调度,先把数据分片,这一百个数据分片的数据里面,根据目标系统的总量,十个G十个G的去拿。

因为Tensorflow之前的表,其实不是为了这个集群是定制的,只是以前的用户的行为交易表,这个交易表里面有上千个,而训练时,你会发现在这个3000个维度里面,只用拿里面的几十个纬度训练就好了,其它根本都跟这次训练目标没有关系,此时就需要写很多的逻辑。在你的python代码里面要去拿哪一类的数据,做这种ORM定制,然后关联数据,当有些数据缺失的时候,我还要把它去删掉。而这些工作对于AI工程师来说,在整个的Tensorflow模型里面,其实模型的代码是很经典的,就算是一些复杂的模型,它的模型的代码其实不会超过300行代码,用python写是很高效的,大概就两三百行代码。为什么说我们的一个机器学习的完整系统,大概会有几千万以上的一个代码,其实里面80%的代码是做数据访问的,所以我们在这个MegaLearning的一个设计的目标,我们希望能够打通底层数据的资产与上一层的AI和训练的系统之间的隔阂。以后再做一个AI的训练的时候,再也不用写几千万行代码了。其实只要写300行代码,数据预处理,可以获取图片、数据缓存、数据调度的脏活累活,应该是由这些系统去自动的完成。

MegaSearch是什么?

MegaSearch是用GPU来加速海量特征向量。特征向量,它其实是在AI里面对数据仓库,对数据处理提出了一个全新的数据类型,它的宽度从几百个到几千甚至几万,并且整个的深度学习里面,特征向量是一个至关重要一个枢纽般的存在。不管是我们下面讲的相似度,还是要找到跟它最相近的一个人脸、语音又或是文本等等,MegaSearch是就是完完全全为这种新兴的AI对特征向量新的需求量身定做的。

MegaSearch是能达到一个什么性能?

第一,MegaSearch能做到百亿条特征向量的秒级检索。第二,MegaSearch是用GPU加速,所以成本低。相对于说之前用CPU的方案来说,MegaSearch大概一台服务器可以替换掉以前10到20台服务器,所以在特征向量检索方面,MegaSearch能提供一个超高的性价比,同时还能将投入产出比提高十倍以上。第三,MegaSearch支持自动分区分表,具备高可用、多副本。第四,MegaSearch对各种的模型,不管是为了声音训练的,还是图片视频来训练都有一个良好的趋势,并且是多个学习的框架。在应用的场景里面,无论是不同的一些文件类型,还是人脸识别、机器翻译、文本查重等等。MegaSearch所有的系统,都支持私有部署、公有部署,在公有部署上面的一个Paas服务。

Mega业务领域

之前提到数据中台,它其实是一个跨越了各行各业数据的技术中台,Mega是为了AI对数据处理的一些要求去量身定做的一套端到端的数据处理流水线。那么它不管是在金融、电信、安防等各个领域都有一些广泛的应用场景。

最后举几个例子,比如说我们说实时风控,当实时风控时,有很多的数据源越多越好,但之后就会发现这个数据清洗ETL又变成一个很重要的工作。这个时候的话用我们的这个GPU的加速这个MegaETL解决方案,能够实现前面的速度清洗有几十倍的一个提升。同时在风控模型的训练这一块,很多现有的机构沉淀的数据都在现有的大数据仓库之上,那么我们直接用MegaLearning,可以加速训练,减少开发的难度。

比如说在智慧城市这个领域,智慧城市它的数据量是很大的,各种摄像头、各种传感器产生的各种数据,要进行一个同步的数据清洗,因为这个数据特别大,一个城市可能都是几亿条的规模。那么在这么大的一个数据里面,如果说有效的组织这些数据,可以加速这个数据的分析和处理。最后面在训练好的一些模型里面,不管是说车辆监控、人脸识别、自动的安防等等,我们用的那个MegaSearch,能够支持海量数据检索。

以上就是我的分享,谢谢大家的观看!

Image placeholder
cq351266168
未设置
  90人点赞

没有讨论,发表一下自己的看法吧

推荐文章
浅析RunLoop原理及其应用

引言:一个APP的启动与结束都是伴随着RunLoop循环往复的,不断的循环、不断的往复。当线程被杀掉、APP退出后被系统以占用内存为由杀掉,RunLoop就消失了。但平时开发中很少见到RunLoop,

ZILLIZ AI数据中台:打破数据处理瓶颈,释放AI效能

在最近结束的第十届中国数据库技术大会(DTCC2019)上,ZILLIZ得到了众多专业评委的一致认可,获选为“2019中国数据库技术年度评选——年度创新企业”。这家成立于2016年的企业,凭借对技术发

2019年,数据中台为什么火了?

2019年,“数据中台”火了!一方面,过去一年BATJ、TMD等新老互联网巨头前后脚地发布重大消息,称集团层面正在推动以搭建中台为目标的组织架构变革,其中数据中台将是重要一环。而远在2015年就提出“

SACC2019:爱奇艺的大数据中台战略(附演讲实录)

  孙斌爱奇艺高级总监主要负责爱奇艺的大数据中台、商业智能、内容智能制作等业务。在互联网产品设计和研发方面有十多年经验,曾就职于微软、hulu、雅虎等公司。摘要:爱奇艺的业务已经从单一的视频业务发展为

​中台战略:业务中台的8个设计原则

业务中台是一个充满生命力的个体,它承载业务逻辑、沉淀业务数据、产生业务价值,并随着业务不断发展进化。它的设计遵循如下图所示的8个原则。业务中台设计的8大原则01 服务松耦合原则(1)面向接口实现这是服

好马配好鞍 戴尔&AMD重塑数据中心基石

“当机关枪的射速是敌人几倍的时候,食堂伙食好不好,机枪手学历高不高,姿势对不对,这些都变得不重要了!”AMD中国区商用事业部销售总监周俊杰说。不用再怀疑AMD的回归如今,数据中心市场面临诸多挑战:对计

机器扭碎,强力消磁还能恢复!数据中心年年升级,废弃“云垃圾”让谷歌头大

大数据文摘出品作者:蔡婕、林安安、曹培信今年7月1日,《上海市生活垃圾管理条例》正式实施,它被称为“史上最严垃圾分类措施”。条例一出,这4种颜色的桶,就彻底改变了上海人民的生活。但是一种新型的垃圾——

《Gartner 2019年数据中心网络魔力象限》报告解读

日前,Gartner发布了2019年数据中心网络魔力象限。此次报告从7个维度(产品或服务、总体生存能力、销售执行/定价、市场反应/记录、营销执行、客户体验和操作),来衡量12个入选企业,并基于前瞻性和

英特尔数据中心“全家福”助燃上海交通大学“π2.0”超算系统

前不久,英特尔推出了一系列以数据为中心的产品组合,包括第二代英特尔至强可扩展处理器、英特尔傲腾数据中心内存和存储解决方案、软件以及平台技术等,以帮助用户从数据中挖掘更多价值。笔者得知,上海交通大学“π

2019年度IT168技术卓越奖名单:数据中心类

光阴如梭,一年的工作转瞬又将成为历史,2019年即将过去,崭新的2020年即将来临。新的一年意味着新的起点新的机遇新的挑战,众多企业“决心再接再厉,更上一层楼”,努力打开新局面。作为读者们的老朋友,2

MySQL 百万级数据量分页查询方法及其优化

作者|大神养成记原文|  http://t.cn/RnvCJnm方法1:直接使用数据库提供的SQL语句语句样式: MySQL中,可用如下方法:SELECT*FROM表名称LIMITM,N适应场景: 适

中台的末路

从15年开始,到19年现在为止。各大公司都在吹捧中台理念。仿佛中台是业务复杂性的救世主。是某些架构师和PM的新出路。各种割韭菜的讲中台的课程层出不穷。 当然,吹牛逼的时候大家都是拣好的说,苦逼的东西就

要不要赶个时髦,去建设一个「 中台 」?

很多技术人总是抱怨新技术/新框架/新概念太多了,总是学不完,抱怨实在是学不动了。哈哈,这不,最近「中台」这么火热,要不要停止抱怨,再咬咬牙学一波?“很多人都担心被技术新潮流所抛弃,所以当遇见不断涌现的

支付中台的几个面向:支付业务、资金核算、面向风控等切面

手哥架构宝典之支付系统1.0发布后,很多架构师朋友表示受益匪浅,询问支付系统2.0版本什么时候放出来,今天刊发出《架构宝典》支付系统2.0版本,以飨读者。00 概述在1.0的支付系统中,我们遇到了诸多

被前端业务倒逼出来的中台?

数字化智能时代,数据成为了新的生产资料,也是蕴含丰富价值的矿藏。随之而来的打破数据孤岛、拆掉部门墙的声音越来越高。2019年中台热席卷圈内,企业、投资者、媒体众说纷纭,百度搜索指数也是应声而涨。有人认

终于有人把中台说清楚了!

前一段朋友圈被中台刷屏了,那么今天我们来说说中台!缘起百度指数搜索“中台”,可以发现,中台一词前几年几乎都没有搜索,反倒是今年5月21号开始蹭蹭往上涨!百度指数仔细搜索了一下原来5月21号腾讯召开了全

阿里巴巴架构师:十问业务中台和我的答案

Photo@  ZachLucero文 |王思轩一切业务数据化,一切数据业务化。“中台”概念这几年非常火,特别是阿里、腾讯、百度、京东等互联网公司最近频繁的基于中台调整组织架构,把“中台”的热度又上升

请你们不要调侃中台,它是我们赖以生存的镰刀

看本圣经,你就把自己当耶稣了?在这个世界上有两种人,一种人性情诙谐,喜欢开玩笑,另一种人万事较真,做事喜欢一板一眼。在爱开玩笑的人看来,只要不直接嘲笑对方,或不带来伤害,抓住一个热点调侃一番,甚至来点

基于中台实践的DevOps平台有何不同?

为了响应快速变化的市场需求,业务要快速迭代。IT正在向云原生架构转型,解放架构自由度,最大化业务敏捷性,解耦合、敏捷开发、快速部署是当下企业的追求,可以消除研发与运维之间鸿沟的DevOps(研发运维)

什么是边缘计算及其重要性?

边缘计算正在改变世界上数百万台设备处理,处理和传递数据的方式。联网设备(IoT)的爆炸性增长,以及需要实时计算能力的新应用,继续推动着边缘计算系统的发展。诸如5G无线之类的更快的联网技术,使边缘计算系

聊一聊 MySQL 中的事务及其实现原理

说到数据库,那就一定会聊到事务,事务也是面试中常问的问题,我们先来一个面试场景:面试官:"事务的四大特性是什么?" 我:"ACID,即原子性(Atomicity)、隔离性(Isolation)、持久性

HTML5新增了哪些input类型及其属性?

HTML5新增了哪些input类型及其属性?1、url类型、email、tel类型说明:当输入非url、email的字符串时,浏览器会自动提醒。 2、number类型。说明:只能输入数字,min表

Js获取当前日期时间及其它操作

课程推荐:web全栈开发就业班--拿到offer再缴学费--融职教育 Js获取当前日期时间及其它操作 varmyDate=newDate(); myDate.getYear();//获取当前年份(2位

002.07 MineSweeper - PsSimleGUI 的应用

建檔日期:2019/12/07 更新日期:None 语言:Python3.7.2,PySimpleGUI4.6.0 系统:Win10Ver.10.0.17763主题:002.07MineSweeper

002.06 Klondike Solitaire - PsSimleGUI 的应用

建檔日期:2019/12/04 更新日期:None 语言:Python3.7.2,PySimpleGUI4.6.0 系统:Win10Ver.10.0.17763主题:002.06KlondikeSol