实现人工智能落地 你还差一个“数据分析流水线”的距离

在智慧生产场景,生产制造商可以在生产线上利用深度学习,尤其是图像识别,将产品的质量检测自动化。比如自动检测产品表面有没有划伤、有没有零部件的缺失、有没有标签的错位。研究表明,相比人工检测,智慧检测可以大幅提高生产效率,并且大大降低生产成本。但是智慧检测只有深度学习是远远不够的,它需要一条完整的“数据分析流水线”才能落地。

“数据分析流水线”四步走

第一步,从生产线上收集大量的原始数据。这些数据可能来自于生产线上的摄像头或者来自于生产设备、连接器、探测器、传感器等等,这些数据有些是实时收集、有些是批量收集,有些数据是结构化、半结构化,也有些数据是非结构化,比如图像图形等等。

第二步,对原始数据进行大量的清理和预处理。因为这些数据杂乱无章,我们需要对它们进行识别和验证,我们要滤出数据噪音,查补缺失的数据,校正有错误的数据,我们可能还要转换数据的类型以及结构,还要对数据进行整合。只有清理过的数据才能够有效的进行数据分析。

第三步,进行数据分析。利用机器学习、深度学习对清理过的数据进行归纳总结,来判断这个场景是不是质量有问题,并把有质量问题的场景从生产线上排除出去。

第四步,可视化。

只有实现了这四步,智慧生产、智慧检测才能落地。

英特尔BigDL和Analytics Zoo应运而生

在今天的生态系统中,我们可以非常轻松地找到很多相关开源技术来实现这四个步骤。这些开源技术的大部分都和Spark、Hadoop这样的大数据平台密切相关。

比如数据收集可以用Kafka、Spark Streaming;数据存储可以用HBASE、HDFS、KUOU;数据分析可以用Spark SQL、Spark ML Lib;深度学习可以用TensorFlow、BigDL等等。

因此,人工智能要走出实验室、实现落地,需要一个完整的数据分析流水线。这个流水线的20%可能是在做深度学习,但是80%都是在做数据收集、数据存储、数据管理、数据清理、数据预处理等等,这也是为什么早前英特尔就开源了BigDL的重要原因。

英特尔BigDL是基于Spark平台之上的一个深度学习框架。首先它的功能与流行的深度学习框架,比如说TensorFlow、Caffe、Torch功能相同。

最重要的,它是构建在非常成熟的、完整的Spark数据分析平台之上,它可以为客户提供端到端的从数据收集、数据存储、数据清理、数据预处理、数据管理、机器学习、深度学习,以及最终的可视化服务。

当然有些客户说做深度学习想用TensorFlow,可以不可以把TensorFlow和Spark这样的数据平台进行整合,来帮助实现落地?

为此英特尔开源了Analytics Zoo。Analytics Zoo最大的优势就是能够在完整的、成熟的Spark数据平台之上支持不同的深度学习框架,比如说TensorFlow、Keras、BigDL等等。除此之外它还提供深度学习预训练过的模型,比如图像分析模型,文本处理文本匹配模型,异常检测模型等等,它也提供非常简单易用的API。因为Analytics Zoo是构建在Spark这样的集群之上,所以它可以进行分布式的模型训练和推理。

据了解,在过去几个月英特尔把Analytics Zoo在英特尔最新的傲腾内存技术上和OpenVINO技术上进行优化,可以将深度学习、模型训练以及推理性能进一步提升。

英特尔公司架构图形与软件集团副总裁和数据分析技术总监马子雅

英特尔公司架构图形与软件集团副总裁和数据分析技术总监马子雅表示,人工智能业务的需求牢牢地根植于数据,利用大规模数据来获取更多的洞察需要一个完整而全面的数据战略,要充分利用以数据为中心的基础架构,充分利用将数据分析与人工智能无缝衔接起来的软件创新技术。

英特尔通过BigDL和Analytics Zoo构建统一的大数据分析与人工智能平台,帮助用户开发部署行业应用,与众多合作伙伴共同推进人工智能落地。

大数据分析和人工智能创新院成立

为进一步加快集成数据分析和AI的大规模创新与部署,英特尔正式宣布在中国成立大数据分析和人工智能创新院。该创新院整合了英特尔多个部门的技术资源,集中了多位分析专家、人工智能专家和技术工程师,共同帮助合作伙伴在各垂直行业开发、优化和扩展新的AI应用,并让用户及时了解到英特尔的创新产品组合以及相关优化的库、软件与工具组合。

马子雅表示,我们一直致力于与中国市场的紧密合作,包括与学术界的合作,在开源社区的合作,与工业界许多同行以及客户的合作。创新院的主要负责人是英特尔高级首席工程师、大数据技术全球CTO戴金权先生。

 英特尔高级首席工程师、大数据技术全球CTO戴金权

戴金权表示,我们在开源社区和很多研究院,国内外的学校都有很多合作,我们希望能够提供这样的技术和平台,让我们的用户、客户和合作伙伴在上面做更多的应用,通过英特尔的软硬件技术来支持他们,让人工智能从实验室到最终落地。

据介绍,创新院的主要工作集中在以下三点:

  第一,加速人工智能在中国市场的落地,尤其是通过将它与数据分析进行整合来加速落地。

  第二,解决中国市场的最新需求,引领创新,创新用法、创新算法。

  第三,帮助中国市场更好地使用英特尔最新的软件和硬件技术。

未来,英特尔还将进一步加大与中国市场、中国生态系统以及全球生态系统的紧密合作,使更多的企业和个人得益于我们最新的科技进步,使人工智能真正的做到普惠。

写在最后,英特尔一直致力于提供端到端、全栈式人工智能解决方案。在基于英特尔至强服务器的大规模集群上和现有的数据架构基础设施,完全可以使用英特尔开发并开源的BigDL、Analytics Zoo的技术,在现有的大数据平台上构建新的大数据分析和人工智能的应用,提高资源利用率和端到端的开发效率,部署效率。

Image placeholder
xlfhnny
未设置
  45人点赞

没有讨论,发表一下自己的看法吧

推荐文章
那个“炫酷狂拽”的数据可视化利器AntV 11.22版全新发布啦

导读AntV是一个数据可视化项目,也是一个团队,蚂蚁金服数据可视化团队,一群有爱有梦的人,怀揣「让人们在数据世界里获得视觉化思考能力」的梦想前行,希望成就智能时代全球领先的数据可视化解决方案,满足与日

Python数据分析实战 | 爬遍拉勾网,带你看看数据分析师还吃香吗?

微信公众号:「Python读财」如有问题或建议,请公众号留言伴随着移动互联网的飞速发展,越来越多用户被互联网连接在一起,用户所积累下来的数据越来越多,市场对数据方面人才的需求也越来越大,由此也带火了如

深圳流水线工厂,我差点和主管打了起来 | 十年系列

01.写在前面十年前,我还是象牙塔中数学系的一名普通的大三学生。九年前,我是富士康流水线工厂的一名工人。六年前,我包里揣着3000元RMB来北漂。三年前,我在一家互联网金融公司做到了技术负责人。两年前

富士康14跳被我赶上了,流水线车间真的没有梦想|十年系列

一个不太安分的人。01.写在前面十年前,我还是象牙塔中数学系的一名普通的大三学生。九年前,我是富士康流水线工厂的一名工人。六年前,我包里揣着3000元RMB来北漂。三年前,我在一家互联网金融公司做到了

5G是一个数据通道,未来最大的产业是人工智能 | 任正非对话卡普兰

大数据文摘出品昨天下午,华为创始人任正非邀请两位人工智能领域的国际顶级专家参与“与任正非咖啡对话”。这已经不是任正非第一次举办这种与行业专家的对话,上一次是在6月17日在与《福布斯》著名撰稿人乔治·吉

Udemy:人工智能是2020年职场最需要的技能之一

TensorFlow是过去三年中最受欢迎的技术技能,根据Udemy的数据在2016年至2019年之间呈指数增长。·除了Web开发框架,云计算和IT认证(包括AWS、CompTIA和Docker)之外,

在网络安全中应用人工智能的五大障碍

国外网络安全公司Cylance发布报告称,人工智能(AI)应用落地的两个最主要障碍是人工智能本身发展不成熟以及应用企业对技术储备的缺乏。人工智能可以有效地帮助网络安全专业人员应对更复杂更危险的威胁,但

人工智能给陌陌直播带来的变革与挑战

中国的人工智能产业相较国外起步较晚,但崛起迅速,尤其是人工智能上升为国家战略以来,更是吸引科技巨头以及众多垂直领域公司深耕不辍。在内容直播领域更是掀起一股强劲的浪潮,毫不夸张地说,AI技术已经成为了内

贫民窟的人工智能

大数据文摘出品编译:Jiaxu、小七、夏雅薇26岁的单身母亲Brenda住在非洲最大的贫民窟基贝拉,这也是全球最贫困的社区之一。每天早上,Brenda从家离开,乘坐公共汽车前往内罗毕东部,和她的100

新突破!人工智能会根据你的声音来预测你的长相

麻省理工学院的研究人员发明了一种新的人工智能,它实现了一项惊人的成就:仅通过分析一个人声音的短片段,它就能重建他们在现实生活中的样子。人工智能的预测结果并不完美,但总的来说还是相当不错的,这项研究也是

为什么说 Python 是人工智能最佳Web开发的语言?

由于所有用户都可以使用大量的预构建库,因此Python非常适合人工智能在Web开发中的应用–但是还有什么能让它变得如此吸引人?在AbsoluteDigitalMedia,我们将仔细研究Python的历

YC中国创始人陆奇:人工智能时代,芯片和底层软件基本都要重做

大数据文摘出品作者:陆奇编辑:周素云2019年5月18日,在YC中国举办的YC中国创业者见面会上,YC中国创始人及首席执行官,YC全球研究院院长陆奇进行了以“技术驱动创新带来的创业机遇”为主题的精彩分

未来已来,如何减少人工智能带来的风险?

为了在新时代蓬勃发展,企业安全需要减少人工智能带来的风险,并充分利用它提供的机会。人工智能(AI)正在创造信息安全的新领域。能够独立学习、推理和行动的系统将越来越多地复制人类的行为。就像人类一样,他们

八年之痒!除了NLP和CV,人工智能就不能干点别的啥了?

大数据文摘出品来源:medium作者:SergiiShelpuk编译:王转转、junefish、武帅、钱天培从2012年AlexNet惊艳亮相开始算起,AI已经经历了将近8年的蓬勃发展期。这一迅猛发展

“数据+智能” 华为重新定义数据基础设施

互联网的发展,促成了网络订餐平台的崛起,数据的力量正在给传统的餐饮行业带来新的增长。业务场景不断丰富、数据规模越来越大,这对数据采集提出了非常高的要求;出行软件最核心的业务是一个实时在线服务,因此具有

死磕Synchronized底层实现,面试你还怕什么?

关于 synchronized 的底层实现,网上有很多文章了。但是很多文章要么作者根本没看代码,仅仅是根据网上其他文章总结、照搬而成,难免有些错误;要么很多点都是一笔带过,对于为什么这样实现没有一个说

冬虫夏草之技术路线图之四【“线”——组织篇】

作为一名28年证券机构从业经历的老兵,杨松一直在观察和研究IT技术对金融机构的业务重构,以及证券业务变革相关的内容。今天,让我们来看看这位金融业内人士如何利用他28年的行业积累,通过“技”“术”“路”

看完这篇,你还不能理解 ‘数据库架构’?趁早回家吧

来源:http://rrd.me/ep46N一、数据库架构原则高可用高性能一致性扩展性二、常见的架构方案方案一:主备架构,只有主库提供读写服务,备库冗余作故障转移用jdbc:mysql://vip:3

MySQL 亿级数据数据库优化方案测试-银行交易流水记录的查询

作者:逸宸a链接:https://www.jianshu.com/p/cbdef47fb837对MySQL的性能和亿级数据的处理方法思考,以及分库分表到底该如何做,在什么场景比较合适?比如银行交易流水

AB test | 数据分析师面试必知 !

前言关于ABtest的重要性无需多言,数据、产品等从业人员几乎必知,好的数据科学家我想一定是知道理解业务比模型更为重要,而ABtest就是伴随着业务增长的利器。如果你心中的ABtest几乎都没有用到中

基于 Spark 的数据分析实践

转载本文需注明出处:微信公众号EAWorld,违者必究。引言:Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark主要包含

数据分析利器之Pandas

Pandas是一个python的开源库,它基于Numpy,提供了多种高性能且易于使用的数据结构。Pandas最初被用作金融数据分析工具而开发,由于它有着强大的功能,目前广泛应用于数据分析、机器学习以及

如何避免人类偏见对数据分析产生影响

随着越来越多的企业开始采用机器学习技术以实现流程的自动化,人们也逐渐开始质疑计算机决策中的伦理含义。我们如何处理计算机系统中潜在的偏见?相对较少被提及但同样重要的,是人类本身的偏见,它与分析和商业决策

调查:2019年数据分析市场面临的挑战有哪些?

分析和数据科学行业对人才的需求急剧增长,为该行业求职者提供了很多工作机会。无论是500强还是初创企业,每个团队都在使用分析来从数据中获得有价值的信息。然而,在人才、客户定位和收集数据等方面,这个行业仍

零基础的小白怎么学习数据分析?

微信公众号:「Python读财」如有问题或建议,请公众号留言作为一个从超级菜鸟阶段过来的人,也曾迷茫,也曾面对一大堆资料不知所措,从无到有踩过太多的坑,在这里分享一下我总结出来的数据分析学习路径,为了