史上最快AI计算机发布!谷歌TPU V3的1/5功耗、1/30体积,首台实体机已交付

大数据文摘作品

还记得8月份占据各家科技头条的有史以来最大芯片吗?

这个名为Cerebras Wafer Scale Engine(WSE)的“巨无霸”面积达到42225 平方毫米,拥有1.2 万亿个晶体管,400000 个核心,片上内存18 Gigabytes,内存带宽19 PByte/s,fabric带宽100 Pbit/s,是目前芯片面积最大的英伟达GPU的56.7倍。

就在刚刚,在超级计算2019峰会(Supercomputing 2019 Event)上,这家备受瞩目的硅谷初创公司Cerebras,又宣布了大消息,发布了号称世界上最快的深度学习计算系统CS-1。

Cerebras同时还宣布,CS-1已经获得了美国政府超级计算机项目的认可。

目前,第一台CS-1已经向美国能源部的Argonne国家实验室交付完毕,将投入处理大规模的人工智能计算问题,比如研究癌症药物的相互作用。

尽管CS-1的性能还没有得到相关验证,但似乎仍为大规模人工智能计算提供了一种新可能。

专为人工智能计算设计的超级计算系统

Cerebras其实是一家刚刚成立三年的硅谷初创公司, 但凭借几次重要发布,目前已经融资超过2亿美元。

Cerebras主页

如此受瞩目是因为其在人工智能芯片制造上采取了一种不同以往的方法——将所有数据保存在一块巨大的芯片上,以便系统更快运行。

AI系统一般会搭载许多芯片协同工作。但这存在一个显著问题,在芯片之间进行数据传输很慢,并且会限制芯片的分析速度。

成立之初,Cerebras就希望建立一种专门为深度学习优化的新型计算机,为特定的工作负载选择正确的计算机体系结构。

Cerebras表示,与其他系统相比,CS-1的每一个组件都专门针对人工智能工作优化,可以以更小的尺寸和更少的能源消耗下提供更高的计算性能。

CS-1高度达到26英寸(约66厘米),大概相当于一个小的行李箱。据相关报道,一个机架中包含了1,000个GPU的集群,50千瓦的功率。单个Cerebras芯片的内核数量是单个GPU的78倍以上,内存是3,000倍,内存带宽是10,000倍,此外它还具有33000倍的带宽(PB/s)。

CS-1的侧视图

这个性能有多强大呢?对比一下谷歌的TPU v3,CS-1功耗是它的五分之一,体积只有它的三十分之一,但速度却是整个TPU v3的三倍。

搭载全世界最大芯片,几分钟完成传统芯片几个月的任务

Cerebras为CS-1设计了专门的系统和软件平台,以从史上最大芯片WSE上的40万个计算内核和18G高性能片上存储器中提取极限处理能力。

在人工智能计算中,芯片越大越好。更大的芯片处理信息更快,能在更短的时间内得到训练结果。但是,仅有优异的处理器性能还远不足够。像WSE这样的高级处理器必须与专用的软件相结合才能实现破纪录的性能。因此,Cerebras专门为这一巨型芯片开发了CS-1内置系统和软件平台,各方面都为加速人工智能计算专门设计。

Cerebras首席执行官安德鲁•费尔德曼(Andrew Feldman)在接受 VentureBeat 采访时说:“这是从300毫米晶圆中切割出的最大“正方形“。尽管我们拥有最大、最快的芯片,但我们知道,一个非凡的处理器未必足以提供非凡的性能。如果想提供非常快的性能,那么就需要构建一个系统。而且并不是说把法拉利的引擎放进大众汽车里,就能得到法拉利的性能。如果想要获得1000倍的性能提升,需要做的就是打破瓶颈。”

Cerebras首席执行官安德鲁•费尔德曼(Andrew Feldman)

Cerebras 表示,他们是唯一一家从头开始建立专用系统这一任务的公司。通过优化芯片设计、系统设计和软件的各个方面,CS-1目前的性能令人满意。

通过CS-1和配套的系统软件, AI需要几个月才能完成的工作现在可以在几分钟内完成,而需要几个星期完成的工作可以在几秒钟内迅速完成。

CS-1不仅从根本上减少了训练时间,而且还为降低延迟设立了新的标杆。对于深度神经网络,单一图像的分类可以在微秒内完成,比其他解决方案快几千倍。

“这是一台由40万个专用人工智能处理器组成的人工智能系统。”费尔德曼说。

已经与Argonne国家实验室达成合作

CS-1分解图。来源: Cerebras

目前,CS-1的第一台机器已经完成交付。在Argonne国家实验室,CS-1正被用于研究癌症的神经网络的开发,帮助理解和治疗创伤性脑损伤,CS-1的性能使其成为AI中最复杂问题的潜在解决方案。

Argonne实验室是一个多学科的科学与工程研究中心,CS-1可以将全球最大的超级计算机站点比现有的AI加速器性能提升100到1000倍。

通过将超级计算能力与CS-1的AI处理能力结合使用,Argonne实验室现在可以加快深度学习模型的研发,以解决现有系统无法实现的问题。

“我们与Cerebras合作已有两年多了,我们非常高兴将新的AI系统引入Argonne。”Argonne实验室的计算、环境和生命科学副实验室主任Rick Stevens表示,“通过部署CS-1,我们大大缩短了神经网络的训练时间,使我们的研究人员能够大大提高工作效率,从而在癌症、颅脑外伤以及当今社会重要的许多其他领域的深度学习研究中得到显著进步。”

深度学习是人工智能的一个领域,它允许计算机网络从大量的非结构化数据中进行学习,然而深度学习模型需要大量的计算能力,并正在挑战当前计算机系统能够处理的极限,Cerebras CS-1的推出试图解决这一问题。

Argonne实验室部署CS-1以加强人工智能模型的训练,它的第一个应用领域是癌症药物反应预测,这个项目是美国能源部和国家癌症研究所合作的一部分,旨在利用先进的计算机和人工智能来解决癌症研究中的重大挑战问题。增加的 Cerebras CS-1正在努力支持Argonne扩大,主要提倡先进的计算,这也有望利用AI功能在2021年发布的Aurora exascale 系统实现百亿亿次级连接。

美国能源部负责人工智能与技术的副部长Dimitri Kusnezov在一份声明中说:“在能源部,我们相信与私企合作是加速美国人工智能研究的重要组成部分。我们期待着与Cerebras建立长期而有成效的伙伴关系,这将有助于研究下一代人工智能技术,并改变能源部的运营、业务和任务的形势。”

费尔德曼说:“我认为,我们将在未来五年内迎来一个非常激动人心的职业生涯。我认为,一小群人可以改变世界,这确实是企业家的口头禅。你不需要一个大公司,不需要数十亿美元,只要一小群杰出的工程师就能真正改变世界。我们始终相信这一点。”

仍存在质疑:高昂价格、内存过小、算法瓶颈?

当然,对于这样一个全新的AI系统,许多网友也提出了质疑。

Reddit上针对CS-1的一个讨论中,名为“yusuf-bengio”的网友表示,在实际操作中这种“晶圆规模的AI处理器”可能存在瓶颈,比如:

  • 价格。制造这样一个芯片比小型的GPU昂贵得多;
  • 内存过小。存在延迟或带宽瓶颈;
  • 算法瓶颈。如果要使用整个芯片,就必须训练一个极小批量的模型,这反过来会影响准确性。

内存的问题也引起了许多网友的共鸣,有网友表示,这个芯片只能用batch_size 1训练,18GB的静态随机存取存储器(SRAM)直接使得Megatron,T5,甚至是GPT-2这些模型不能使用。

两大亮点

最后,尽管有质疑,还是再来看看Cerebras公布的这台全世界最快计算机的两大亮点。

CS-1系统

上图: Cerebras声称CS-1是最快的人工智能计算机。图片来源: Cerebras

“ CS-1是一个单一的系统,可以比最大的集群提供更多的计算性能,还省去了集群搭建和管理的开销。”Tirias Research首席分析师凯文 · 克雷韦尔(Kevin Krewell)在一份声明中表示, “CS-1在单个系统中提供如此多的计算机,不仅可以缩短训练时间,还可以减少部署时间。总体而言,CS-1可能大幅缩短项目的整体时间,而这是人工智能研究效率的关键指标。”

相比于GPU集群需要数周或数月才能建立起来、需要对现有模型进行大量修改、消耗数十个数据中心的机器以及需要复杂的专用InfiniBand进行集群搭建不同,CS-1的搭建使用需要数分钟。

用户只需接入标准的100Gb以太网到交换机,就可以用惊人的速度开始训练模型。

Cerebras软件平台

上图: 近距离观察Cerebras芯片。图片来源: Cerebras

CS-1非常易于部署和使用,但是Cerebras的目的不仅是加快训练时间,还要加快研究人员验证新想法所需的端到端时间,从模型定义到训练,从调试到部署。

Cerebras软件平台旨在允许机器学习研究人员在不改变现有工作流程的情况下利用CS-1的性能,用户可以使用行业标准的机器学习框架(如TensorFlow和PyTorch)为CS-1定义模型训练。

一个强大的图形编译器自动将这些模型转换为针对CS-1优化的可执行文件,并提供一组可视化工具进行直观的模型调试和分析。

费尔德曼说: “我们使用开源软件,并尽可能使程序简单化。”但是目前所知的是,这个系统既不是基于x86,也不是基于Linux。

相关报道:

https://www.nytimes.com/2019/08/19/technology/artificial-intelligence-chip-cerebras.html

Image placeholder
BLLLI
未设置
  41人点赞

没有讨论,发表一下自己的看法吧

推荐文章
历史上最著名计算机病毒,似乎都成了我们的回忆

Windows勒索病毒似乎让全球计算机用户都闻风丧胆,不过这其实真的不算什么。然而令人始料不及的是,即便勒索病毒传遍了100多个国家,也仅仅才收获了5万美金。所以说勒索病毒真的不算啥。历史上比勒索病毒

史上最全Oracle数据泵常用命令

导读:expdp和impdp是oracle数据库之间移动数据的工具,本文简单总结了数据泵的常用命令,希望对大家有帮助。前言expdp和impdp是oracle数据库之间移动数据的工具。expdp和

我的天!这是史上最烂的项目:苦撑12年,600多万行代码…

编译:欧剃来源:projectfailures.wordpress.com转载自:Java技术栈你见过最烂的项目,撑了多长时间才完蛋?六个月?一年?今天介绍的这个奇葩项目,不但一开始就烂得透透的,还硬

树莓派 4 正式发布!硬件性能大提升:CPU提升3倍,支持USB3.0、蓝牙5.0、千兆以太网、4G LPDDR4、H.265

本文转自|EETOP树莓派(RaspberryPi)基金会,6月24日正式发布了RaspberryPi4ModelB。树莓派是全球知名的基本计算微型电脑,深受全球开发者、编程者、极客等人士的追捧和喜爱

如何看待阿里云发布POLARDB Box数据库一体机

9月26日,2019杭州云栖大会上,阿里云宣布正式推出高性能数据库一体机POLARDBBox,这是业内首次推出基于云原生数据库的一体机。“POLARDBBox是一款跨时代的产品,打破了云数据库的服务边

为什么低功耗WAN是物联网应用的首选?

希望推出和扩展物联网应用的企业无需等待超高速无线技术。低功率广域网(LPWAN)的广泛可用性和吸引力正在引起人们越来越多的兴趣和使用。LPWAN是一个涵盖了多种成熟技术的总称,可用于支持由传感器等设备

干货:计算机网络知识总结

一计算机概述 (1),基本术语 结点(node): 网络中的结点可以是计算机,集线器,交换机或路由器等。 链路(link): 从一个结点到另一个结点的一段物理线路。中间没有任何其他交点。 主机

Go语言高级编程_3.2 计算机结构

3.2计算机结构 汇编语言是直面计算机的编程语言,因此理解计算机结构是掌握汇编语言的前提。当前流行的计算机基本采用的是冯·诺伊曼计算机体系结构(在某些特殊领域还有哈佛体系架构)。冯·诺依曼结构也称为普

学计算机我后悔了的原因盘点

  学计算机我后悔了的原因盘点,课程进度快加班多、技术更新换代快需要不断学习,整个IT行业对快速迭代要求很高越快占领市场越好。产品质量难以把控,会频繁出现bug需要及时修改bug。   学计算机我后悔

2019 最新计算机技能排名出炉:Python 排第三,第一名是…

除了编程语言之外,要想找一份计算机相关的工作,还需要很多其他方面的技能。最近,来自美国求职公司Indeed的一份报告显示:在全美工作技能需求中,数据库语言SQL、编程语言Java分列前两位。虽然Pyt

5位女性程序员的自白:计算机不撒谎;女程序员的代码一样也很棒

谁说这个领域就是男性的天下偏见本身就是一种带标签的想法她们的世界里只信奉“computer never lies”她们认为代码漂亮比发型漂亮更重要她们到底是谁?谷悦是喜欢简单、纯粹工作的气质女神,八年

2000多个Bug!这个系统让银行瘫痪、13亿人账户出错、最终损失超过28亿

2000多个bug,这样一个千疮百孔的系统,被用在了一家有13亿用户的银行里。这是去年TSB银行系统迁移大事故的报告结果,出自SlaughterandMay律所。Bug连篇、测试没做好、IT服务商无能

敏捷开发流程之Scrum:3个角色、5个会议、12原则

本文主要从Scrum的定义和目的、敏捷宣言、Scrum中的人员角色、Scrum开发流程、敏捷的12原则等几方面帮助大家理解Scrum敏捷开发的全过程。一、Scrum的定义和目的Scrum是一个用于开发

飞天 AI 平台重磅发布!阿里拥抱 AI 这五年

2014年,一个名为“iDST”的神秘部门的诞生开启了阿里的人工智能新征程,5年后,初长成的达摩院成为了阿里AI崛起的代表性力量。如今,阿里已跻身全球人工智能技术研发的第一梯队,成为时下这AI技术洪

最稳定可靠,PostgreSQL 12.1版本正式发布!

1.PG12.1Beta发布了!PostgreSQL全球开发组宣布,PostgreSQL12的第一个测试版(PG12.1Beta)现已开放下载。该版本中可预览的所有特性都将延续至PG12的最终版本中,

全球首个AI宇宙模拟器发布!6亿光年宽度,还“自行”跑出了暗物质

大数据文摘出品作者:易琬玉、曹培信《创世纪》里,神用7天创造了这个世界。而现在,你可能也有机会体验这个过程,创造一个属于自己的宇宙。6月11日,SpaceEngine0.990版本在Steam平台发售

爽到飞起!微软命令行工具发布!引诱开发者叛逃Mac,开源六小时冲上GitHub第二

晓查栗子乾明发自凹非寺转自量子位 |公众号QbitAIWoW!Awesome!MyGod!这是不少抱着Mac参加微软Build大会的开发者,看到命令行工具WindowsTerminal后的第一反应。随

采用 PHP-quickorm/Captcha,用最快的速度在 PHP 语言下实现验证码功能

要调用起这个库,门槛十分低,但是建议满足以下几个条件: PHP5+ PHPGD扩展 Composer(非必须) 安装方法 首先我们花30秒来引入一下这个库,主要有以下两种方式。 其一、使用Comp

存-管-用 联想企业网盘融云一体机让协同办公变得简单

云计算、大数据、人工智能的兴起给中小企业带来更大的发展机遇。恰当的IT投入,能够帮助中小企业构建更为灵活且可靠的业务模式与业务平台,为中小企业带来更多业务机会。对于正在部署和开展数字化业务的中小型企业

IBM停止对Netezza数据库一体机的支持

据业内消息透露,自6月30日起,IBM将不再对Netezza提供任何支持。目前,所有模型都已经达到了支持极限,未来不会有新的Netezza盒子再生产了,Netezza将彻底消亡于云时代。熟悉数据库的人

8国5G网速测评!美国最快,是4G的2.7倍

大数据文摘出品作者:曹培信昨天,因为测试5G而在B站涨粉百万的何同学又更新视频了。这期视频他主要回顾了自己这一个月爆红之后的经历和感悟,在反思的过程中,他引用了艺术家AndyWarhol的“十五分钟定

基于中台实践的DevOps平台有何不同?

为了响应快速变化的市场需求,业务要快速迭代。IT正在向云原生架构转型,解放架构自由度,最大化业务敏捷性,解耦合、敏捷开发、快速部署是当下企业的追求,可以消除研发与运维之间鸿沟的DevOps(研发运维)

四要素落地持续交付

一、什么是持续交付持续交付(Continuousdelivery,缩写为CD),是一种软件工程方法,让软件产品的产出过程在一个短周期内完成,以保证软件可以稳定、持续的保持在随时可以发布的状况。它的目标

容器十年 ——一部软件交付编年史

张磊阿里云容器平台高级技术专家、CNCF官方大使Kubernetes项目资深成员与维护者,曾就职于Hyper、微软研究院(MSR),现在负责Kubernetes技术及上下游相关工作。2019年,全世界

配送交付时间轻量级预估实践

在本文中,我们介绍了交付时间预估迭代的三个版本,分别为基于地址结构的树模型、向量召回方案以及轻量级的End-to-End的深度学习网络。同时介绍了如何在性能和指标之间取舍,以及模型策略迭代的中间历程,