ZILLIZ AI数据中台:打破数据处理瓶颈,释放AI效能

在最近结束的第十届中国数据库技术大会(DTCC 2019)上,ZILLIZ得到了众多专业评委的一致认可,获选为“2019中国数据库技术年度评选——年度创新企业”。这家成立于2016年的企业,凭借对技术发展趋势的精准把握,以及创新的优秀产品,在短短3年内得到了飞跃式的发展。

目前,ZILLIZ已累计获得来自多家一线投资机构的上亿元人民币投资,并且与浪潮、NVIDIA、和IBM等行业领先的硬件设施提供商,以及AWS、微软Azure等领先云服务商建立了亲密的合作伙伴关系。

作为一家数据库厂商,ZILLIZ专注于研发基于异构众核加速的新一代数据库系统,其核心产品为“MegaWise”数据库。据官方介绍,MegaWise使用GPU处理器上的成千上万个处理核心进行超大规模并行数据处理,实现数据库操作的加速。和传统数据库相比,MegaWise查询性能提升100倍以上,硬件成本和运维成本降低10倍。

在DTCC 2019期间,ZILLIZ进一步拓展异构众核加速的理念,发布了“AI数据中台Mega”——它是ZILLIZ自主研发的 GPU加速的一站式AI数据科学解决方案。那么,AI数据中台的含义究竟是什么?Mega能够帮助数据科学家解决哪些难题?针对关于AI数据中台Mega的诸多问题,笔者有幸采访到了ZILLIZ创始人兼CEO星爵,请他为我们进行深入解读。

ZILLIZ创始人兼CEO星爵

AI数据科学家之“痛”:数据准备环节过分低效

过去几年,随着数据的爆发式增长,以及算法、计算力的迭代升级,AI技术得到了迅速发展,在包括金融、医疗、电信、制造、安防、互联网等在内的各行各业得到了广泛应用。

我们知道,对于负责开发某个AI项目的数据科学家而言,在一个将AI模型部署、落地到应用场景中之前,往往要经历数据收集、数据清洗/分析/处理、模型的创建与训练等环节。

“过去几年,大家的注意力可能都在模型的训练上面,所以这一环节得到了较大的发展,效率得到了很大提高。至于前期的大数据准备环节,技术发展却相对比较缓慢。再加上随着很多创新AI应用场景的涌现,涉及的数据类型越来越广泛,就对数据采集和处理等环节提出了更新更复杂的需求。”星爵说道。

“基于这种技术发展的不均衡,整个AI项目的开发流程中产生了非常巨大的断层。尤其在大规模部署AI应用时,前期数据准备带来的低效影响日益突显。”

通过一个针对AI数据科学家工作的调查(如上图),我们可以看到,现在很多数据科学家或AI工程师每天的80%以上的时间花费在数据下载、清洗与分析处理之上,真正用来做模型训练与调整的时间,只占比不到20%。星爵提出,除了技术发展不均衡、以及AI对数据处理提出更多新的需求这两个原因之外,多核与众核异构计算在AI中的引入,也是这一断层产生的主要原因之一。异构计算可以通过GPU、FPGA等加速器与CPU协同工作,为AI训练提供更高的计算力。但传统的数据库一般都运行在单一的CPU平台之上,不适应大规模异构环境,这就从底层的硬件与体系结构方面直接导致了异构计算的大数据处理与资源调度诸多关键问题的出现。

基于对技术发展趋势的敏锐把握、对AI数据处理的切实需求理解,ZILLIZ自主研发并推出了业界首个GPU加速AI数据中台产品——提供GPU加速的一站式AI数据科学解决方案,帮助AI数据科学家提高AI开发效率。

AI数据中台:GPU加速全流程,打破数据瓶颈

“更直白来讲,AI数据中台是我们希望提供GPU加速的、一站式的、端到端的AI数据处理平台和流水线。”星爵说道,“我们希望能够用GPU这种硬件来加速整个数据处理的全流程,而不是像过去这几年一样,只用GPU加速模型训练这一个很小的板块。”

具体而言,Mega整体解决方案包括四大核心产品:

MegaETL——GPU加速ETL。依托GPU强大的并行运算能力,实现并行解析和编码,加速数据转换和清洗的过程,能将数据ETL处理的时间减少50~60倍。

MegaWise——GPU加速数据分析引擎。基于GPU硬件加速的新一代OLAP处理引擎,突破了数据分析中计算能力和存储带宽两大瓶颈,和主流CPU数据处理引擎相比,查询性能提升100倍以上,硬件成本和运维成本降低10倍。

MegaLearning——大数据资产AI赋能。帮助用户直接在已有的大数据系统(如Hive和Impala等)之上进行机器学习和深度学习训练,打通底层数据资产、大数据系统和AI训练系统间的隔阂。自动为AI科学家解决数据预处理、数据缓存和调度等任务,使其能用直接、便易的方式将AI训练和推理任务构建在现有的大数据系统之上,让AI科学家专注于AI建模、调优和调参,帮助节省8成以上的程序开发工作量。

MegaSearch——GPU加速海量特征向量匹配和检索引擎。依托GPU加速,提供极速特征向量匹配以及多维度数据联合查询(特征、标签、图片、视频、文本和语音等联合查询)功能,并且支持自动分表分库和多副本,能完美对接TensorFlow、Pytorch和MXNet等AI模型,可实现百亿特征向量的秒级查询。

写在最后

毫无疑问,随着大数据、物联网、云计算、5G等技术的发展,数据井喷将会持续进行,甚至会愈演愈烈。AI作为一种致力于挖掘数据价值的技术,也势必将得到长足发展。但正如前文所述,AI项目开发流程中的断层是确实存在的,而且随着数据量的增大、数据类型的增多,数据清洗与处理这一环节的挑战也将日渐升高。在笔者看来,对于AI数据科学家与工程师而言,“AI数据中台”的价值是非常大的。让我们拭目以待ZILLIZ的更多发布。

Image placeholder
s5s5
未设置
  87人点赞

没有讨论,发表一下自己的看法吧

推荐文章
2019年,数据中台为什么火了?

2019年,“数据中台”火了!一方面,过去一年BATJ、TMD等新老互联网巨头前后脚地发布重大消息,称集团层面正在推动以搭建中台为目标的组织架构变革,其中数据中台将是重要一环。而远在2015年就提出“

SACC2019:爱奇艺的大数据中台战略(附演讲实录)

  孙斌爱奇艺高级总监主要负责爱奇艺的大数据中台、商业智能、内容智能制作等业务。在互联网产品设计和研发方面有十多年经验,曾就职于微软、hulu、雅虎等公司。摘要:爱奇艺的业务已经从单一的视频业务发展为

AI 数据中台 Mega 及其应用

随着AI在各行业落地的进一步深化和应用数据量的飞速增长,越来越多的AI科学家痛苦地发现数据ETL、数据仓库和海量特征向量检索等数据处理流程花费了他们大量宝贵的时间和精力。AI数据中台Mega打破了人工

​中台战略:业务中台的8个设计原则

业务中台是一个充满生命力的个体,它承载业务逻辑、沉淀业务数据、产生业务价值,并随着业务不断发展进化。它的设计遵循如下图所示的8个原则。业务中台设计的8大原则01 服务松耦合原则(1)面向接口实现这是服

揭秘|每秒千万级的实时数据处理是怎么实现的?

01背景闲鱼目前实际生产部署环境越来越复杂,横向依赖各种服务盘宗错节,纵向依赖的运行环境也越来越复杂。当服务出现问题的时候,能否及时在海量的数据中定位到问题根因,成为考验闲鱼服务能力的一个严峻挑战。线

Pandas数据处理三板斧——map、apply、applymap详解

微信公众号:「Python读财」如有问题或建议,请公众号留言在日常的数据处理中,经常会对一个DataFrame进行逐行、逐列和逐元素的操作,对应这些操作,Pandas中的map、apply和apply

专访腾讯云数据库负责人丁奇:打造超越用户想象的产品

“就市场份额来说,腾讯云在国内还不是第一名,但从国内上云企业比例看,剩余的还有很多,因此,大家都还有机会,就看谁能真正解决用户的痛点。”                                

ASC19最新战况:北航打破HPL基准测试赛会纪录!

  今天(4月23日)是全球瞩目的ASC19全球总决赛第三天,经过前两天的系统搭建与调试工作后,20支队伍进入了正式竞赛阶段,向总冠军宝座发起最后冲刺。  根据赛程,今天所有参赛队伍需要完成的项目包括

打破传统 华为数存融合新架构狠在哪里?

数字经济已经成为继农业经济、工业经济之后一种新的经济社会发展形态,是新一轮产业革命的典型代表。全球都在不断的推动数字经济的发展,产业数字化、数字产业化正在给世界经济增长提供新动能。数据已成为当下新生产

打破边界 不是所有“内存与存储”都叫傲腾

人类正在向一个万物感知、万物互联、万物智能的世界进化。一方面海量的数据对数据基础设施带来了新的挑战;另一方面伴随着数据中心业务和应用的多样化以及智能化,企业对数据存储的需求越来越高。智能世界的特点是能

谁创建谁销毁,谁分配谁释放——JNI调用时的内存管理

在QQ音乐AndroidTV端的Cocos版本的开发过程中,我们希望尽量多的复用现有的业务逻辑,避免重复制造轮子。因此,我们使用了大量的JNI调用,来实现Java层和Native层(主要是C++)的代

好马配好鞍 戴尔&AMD重塑数据中心基石

“当机关枪的射速是敌人几倍的时候,食堂伙食好不好,机枪手学历高不高,姿势对不对,这些都变得不重要了!”AMD中国区商用事业部销售总监周俊杰说。不用再怀疑AMD的回归如今,数据中心市场面临诸多挑战:对计

机器扭碎,强力消磁还能恢复!数据中心年年升级,废弃“云垃圾”让谷歌头大

大数据文摘出品作者:蔡婕、林安安、曹培信今年7月1日,《上海市生活垃圾管理条例》正式实施,它被称为“史上最严垃圾分类措施”。条例一出,这4种颜色的桶,就彻底改变了上海人民的生活。但是一种新型的垃圾——

《Gartner 2019年数据中心网络魔力象限》报告解读

日前,Gartner发布了2019年数据中心网络魔力象限。此次报告从7个维度(产品或服务、总体生存能力、销售执行/定价、市场反应/记录、营销执行、客户体验和操作),来衡量12个入选企业,并基于前瞻性和

英特尔数据中心“全家福”助燃上海交通大学“π2.0”超算系统

前不久,英特尔推出了一系列以数据为中心的产品组合,包括第二代英特尔至强可扩展处理器、英特尔傲腾数据中心内存和存储解决方案、软件以及平台技术等,以帮助用户从数据中挖掘更多价值。笔者得知,上海交通大学“π

2019年度IT168技术卓越奖名单:数据中心类

光阴如梭,一年的工作转瞬又将成为历史,2019年即将过去,崭新的2020年即将来临。新的一年意味着新的起点新的机遇新的挑战,众多企业“决心再接再厉,更上一层楼”,努力打开新局面。作为读者们的老朋友,2

中台的末路

从15年开始,到19年现在为止。各大公司都在吹捧中台理念。仿佛中台是业务复杂性的救世主。是某些架构师和PM的新出路。各种割韭菜的讲中台的课程层出不穷。 当然,吹牛逼的时候大家都是拣好的说,苦逼的东西就

要不要赶个时髦,去建设一个「 中台 」?

很多技术人总是抱怨新技术/新框架/新概念太多了,总是学不完,抱怨实在是学不动了。哈哈,这不,最近「中台」这么火热,要不要停止抱怨,再咬咬牙学一波?“很多人都担心被技术新潮流所抛弃,所以当遇见不断涌现的

支付中台的几个面向:支付业务、资金核算、面向风控等切面

手哥架构宝典之支付系统1.0发布后,很多架构师朋友表示受益匪浅,询问支付系统2.0版本什么时候放出来,今天刊发出《架构宝典》支付系统2.0版本,以飨读者。00 概述在1.0的支付系统中,我们遇到了诸多

被前端业务倒逼出来的中台?

数字化智能时代,数据成为了新的生产资料,也是蕴含丰富价值的矿藏。随之而来的打破数据孤岛、拆掉部门墙的声音越来越高。2019年中台热席卷圈内,企业、投资者、媒体众说纷纭,百度搜索指数也是应声而涨。有人认

终于有人把中台说清楚了!

前一段朋友圈被中台刷屏了,那么今天我们来说说中台!缘起百度指数搜索“中台”,可以发现,中台一词前几年几乎都没有搜索,反倒是今年5月21号开始蹭蹭往上涨!百度指数仔细搜索了一下原来5月21号腾讯召开了全

阿里巴巴架构师:十问业务中台和我的答案

Photo@  ZachLucero文 |王思轩一切业务数据化,一切数据业务化。“中台”概念这几年非常火,特别是阿里、腾讯、百度、京东等互联网公司最近频繁的基于中台调整组织架构,把“中台”的热度又上升

请你们不要调侃中台,它是我们赖以生存的镰刀

看本圣经,你就把自己当耶稣了?在这个世界上有两种人,一种人性情诙谐,喜欢开玩笑,另一种人万事较真,做事喜欢一板一眼。在爱开玩笑的人看来,只要不直接嘲笑对方,或不带来伤害,抓住一个热点调侃一番,甚至来点

基于中台实践的DevOps平台有何不同?

为了响应快速变化的市场需求,业务要快速迭代。IT正在向云原生架构转型,解放架构自由度,最大化业务敏捷性,解耦合、敏捷开发、快速部署是当下企业的追求,可以消除研发与运维之间鸿沟的DevOps(研发运维)

jQuery插件实现瀑布留布局masonry + infinitescroll 图片高度处理

课程推荐:Java开发工程师--学习猿地精品课程 jQuery插件实现瀑布留布局masonry+infinitescroll。使用官方的示例代码实际测试发现,当上传到服务器的时候,由于图片下载速度问题