两个月三项成果,对标谷歌!独家对话小米AutoML团队,如何让模型搜索更公平

大数据文摘出品

作者:曹培信机器学习自动化(AutoML)正在引领机器学习的下一个时代,而要想让机器自己学会“炼丹”,其中最关键的步骤就是,找到最合适的算法模型,也即自动化神经架构搜索(Neural Architecture Search,简称NAS)。

要快速、高效判断哪个模型最有效并不是一件容易事。NAS界目前一种主流的方法是谷歌大脑创立的One-Shot派。

One-Shot,顾名思义,只完整训练一个超网,主张权重共享,对不同路径进行采样作为子模型训练,并基于此对模型排名,这样就可以更快速判断模型性能,提高搜索效率。

就像通过一次“考试”来判断这群“模型们”的能力,通过最终分数决定排名。

看似很公平,但是,One-Shot模式下,虽然考题一致,但是学生的学习时间、训练方式都不尽相同,很容易导致好的模型由于没有获得充分的训练,而表现不佳。

在One-Shot模式基础上,小米AI实验室的AutoML团队在七月初提出了一个新的概念——FairNAS,来解决这一模型训练中的“公平”问题。并且在ImageNet 1k分类任务MobileNetV2量级上,FairNAS击败了Google Brain在CVPR 2019发布的MnasNet。

在FairNAS基础上,上周,小米AutoML团队展示出一项新的研究成果:MoGA——移动端GPU敏感,对多目标进行加权处理,鼓励增大参数量,直接面向在移动端的落地应用,在业内引发了广泛关注。

昨天,小米AI实验室AutoML团队又重磅发布了最新成果SCARLET,超过Google Brain首席科学家Quoc Le团队提出的EfficientNet同量级模型(ICML 2019),这次是让自动化神经网络搜索具备了可伸缩性,完善了7月初发表的FairNAS。

从FairNAS,到MoGA,再到昨天发布的SCARLET,这支团队只用了不到两个月的时间。

至此,小米AutoML团队打造了FairNAS、MoGA、SCARLET三部曲,在ImageNet 1k分类任务上分别超过Google顶级团队的MnasNet、MobileNetV3、EfficientNet。

大数据文摘第一时间对三篇论文的主创人员、小米AutoML团队的高级软件工程师初祥祥和软件工程师张勃进行了专访。这也是这支年轻的团队,首次公开对这三份研究进行解读。

从反直觉问题入手,两个月研发“三部曲”,直接对标谷歌

公平”,初祥祥在采访中多次提到了这个关键词,而这也是他们在今年五月份,开始进行FairNAS项目的灵感来源。

“我们FairNAS技术一开始的insight是来自于谷歌大脑,当时发现one shot论文里面公布的结果,采样了大概几百个模型,但是准确率是很大的一个range,从30%到90%。但是根据我们之前做的实验,这个range实际上是比较异常的。多数模型的range比较窄,比如在80%到95%。”

于是,初祥祥团队对此进行了验证,得出了一个很反直觉的结论:看似公平的随机采样模型的Single Path,30次迭代之后,子模型得到公平训练的概率近似等于0。

初祥祥说:“这就是我们最原始的insight,包括最新发布的SCARLET,灵感也是来源于MIT、Facebook的论文中架构可伸缩性的问题。”

初祥祥也表示:“其实我们这一路走来都是在对标谷歌大脑在NAS的最新研究。”

从大厂论文中的反直觉点入手,直接和强者对标,这也许就是小米AutoML团队强大内驱力的由来。

接下来,先跟着文摘菌先来一起看看这篇最新的发布——SCARLET

SCARLET:解决共享参数超网训练的可伸缩问题

小米AutoML团队的最新的论文,提出了具备伸缩功能的自动化神经网络搜索SCARLET,通过线性等价变换,解决了one-shot路线中超网训练伸缩性较差的问题。

这篇论文的灵感同样来自对已有研究的质疑,初祥祥表示:“FairNAS虽然能解决采样不公平的问题,但是要做搜索layer的通道数往往都是固定的。而很多学者包括MIT、Facebook的研究者都会在论文中称,他们的NAS架构是可伸缩的,但很难找到具体的中间过程。比如一个有18层的可伸缩的NAS,理论上可缩到一层,但是这中间的具体过程却很少有人去提,或者只提一下是可伸缩的,但是没有提最后的效果,经过验证后我们发现这个伸缩对结果影响很大,捣乱到非常严重的地步。”

SCARLET系列是直接对标Google Brain提出的EfficientNet,在ImageNet 1k分类任务中达到76.9%的Top-1精度,目前是<390M FLOPs量级的SOTA。

One-shot自动化神经架构搜索的特点是在一次运行中快速训练一个超级网络,这种权重共享方法的一个关键问题是缺乏可伸缩性。尽管对identity块进行简单的调整就可以得到一个可伸缩的超级网络,但这会引起训练不稳定,从而使模型的排名结果变得不可靠。

而SCARLET引入了线性等价变换来缓和训练波动,并证明了这种变换后的模型在表示能力上与原模型等价。因此整体方法命名为SCARLET (SCAlable supeRnet with Linearly Equivalent Transformation)。

SCARLET模型结构

当前SOTA模型在ImageNet数据集上的对比

看完SCARLET,让我们再来回顾一下三部曲的前两部,FairNASMoGA

FairNAS:如何避免神经网络中的马太效应,不让“富者愈富,穷者愈穷”

7月初,小米AI实验室AutoML团队公布了最新研究成果FairNAS,在ImageNet 1k分类任务MobileNetV2量级上,击败了MIT韩松团队在ICLR2019发布的 Proxyless mobile,Google Brain在CVPR 2019发布的MnasNet,及 Facebook的FBNet。

FairNAS的核心解决的就是多次迭代后超网训练会导致不公平的问题。

张勃对于这种不公平采样有个非常形象的比喻:“类比一下,其实就像社会学概念里面的马太效应。就是说富者恒富,穷者就变得越穷,对于神经网络也是一样,如果把神经网络里面的模型比作孩子的话,这有一部分在穷人家庭长大,有一部分在这富人家庭长大,在穷人家庭长大的没有得到好的培养,所以他们可能资质很高,但是并没有被发掘出来,所以需要让所有的模型都到充分的训练。就像把所有小孩放到同一个封闭式学校,大家都在这里,跟家庭是隔离的,全是在学校培养,那20年后,如果他们真正表现出差异,那就是他禀赋及能力的差异。”

针对这个问题,小米AutoML团队采用的是“不放回策略”。

另外要解决的是,每一次的迭代涉及到反向传播和更新参数,从而产生的次序问题。解决的核心方式是“只累积梯度,不更新参数”。

张勃依然是用教育来比喻:“这就相当于考试的时候,发卷子有先后顺序,但是先拿到卷子的人不能答题,要发完后一起答题。”

MoGA:移动端GPU敏感,直接面向落地

对于移动端来说,分类是其他计算机视觉任务的基础,图形的分割和检测都需要用分类网络做骨干网。随着CV在移动端应用的普及,包括谷歌在内的科技公司都把目光投向了移动端可用的轻型自动化神经网络搜索架构。

然而Google Brain等团队的研究普遍只考虑移动端CPU的延迟,但实际在移动端的使用中,往往都运行在GPU上,两者的延迟并非简单的线性,不仅和硬件相关,还与框架实现相关。

于是在8月6日,小米AutoML团队又展示出一项新的研究成果:MoGA,MoGA提出了移动端GPU敏感的NAS,对多目标进行加权处理,鼓励增大参数量,而对GPU敏感的特性,使得MoGA直接面向在移动端的落地应用。

在数据上,MoGA已经超过了Google Brain和Google AI团队联合的代表作MobileNetV3(目前谷歌开源MobileNetV3还未开源),在 ImageNet 1K分类任务200M量级,在移动端GPU维度上超过MobileNetV3。

初祥祥在解释为什么要做移动端GPU敏感的NAS时说:“谷歌的论文里面的实验都是CPU上跑,但是其实我们团队来做业务,还有国内很多的互联网公司手机公司都在做AI的应用上,很少在CPU上跑。这是因为在手机上,比如845这种相对主流配置的一点,它的GPU速度大概是CPU速度的四倍,这就是解释了为什么国内大家愿意用GPU来做AI的原因,因为它速度快,体验会好很多,四倍的速度就是差很多的,所以谷歌发布的模型对于相关落地不是很友好。”

从论文到模型全部开源,MoGA已经有了业务落地和收益

当我们问到为何将面向应用的MoGA也开源时,张勃表示:“我们相信自己会持续输出成果,所以我们不会因为一个MoGA开源就怎么样,这一点我们有信心。我们要做的是一个品牌和技术的影响力。”

而初祥祥也表示,MoGA这项成果也很方便同行进行研究。

“相比谷歌动不动3000个TPU天的训练量,MoGA的总算力只有20GPU天,方便研究者复现,甚至学生都可以做做实验。”

初祥祥还告诉我们:“(开源)也是鼓励更多的对NAS感兴趣的研究人员共同探讨,就像我们在解决每一次的迭代涉及到激活模型和更新参数,从而产生的次序问题时,我们采用的是‘只累积梯度,不更新参数’,这是一个核心的方法,有的同行发邮件来询问这个问题,其实我们论文已经写得很清楚了,但是可能是没有注意到。我们欢迎同行来进行探讨。”

初祥祥和张勃还透露,根据团队发的调查问卷显示,已经有洛桑理工、佐治亚理工等国外院校和西交大、北理、北航等国内院校,以及一些企业都对预训练模型进行了下载和调研,还有一些直接发来邮件进行探讨。

而谈到MoGA这种面向应用的成果目前落地的情况时,初祥祥和张勃表示:正在进行,并且已经有了收益

MoGA已经在高通845上进行了实验,在视觉任务上,可能一个团队一年半才能提升有限的准确率,用了MoGA就直接有明显的提升。

而且初祥祥表示:“其实这种是越往上越难提高,而我们是在他们的基础上提升的,所以其实我们有困难的,但是我们还是有了明显的提高。”

张勃补充道:“其实我们小米内部已经有业务证明了,直接用FairNAS去替换主干网,也直接产生了收益。IoT方面,也在落地当中。”

小米AutoML团队也透露,论文发布后收到了来自全球学界和业内的交流邮件,包括华为、ARM、TCL、Keep在内的公司对FairNAS和MoGA都很感兴趣,表达了加强合作交流的愿望。

团队方法论:选择做什么比做什么本身更重要

87年出生的初祥祥毕业于清华电机系,师从于歆杰教授,从说服上级成立AutoML团队,到带领团队持续输出对标谷歌的成果,一共用了10个月的时间。

在如此短的时间内,完成从成立团队到密集输出成果,初祥祥也有自己的一套方法论。

团队人数不多,所以方向不能错,这是决定生死的一个问题,”初祥祥解释说,“要去关注如何发挥最大的效率,这也要一个长期的规划。”

“现在基本上就是我来制定我们的整体路线,当然这其实有很大的风险,就是个人的偏置如果错了,影响是很大的。”

张勃也补充:“团队的leader要有一个非常清晰的目标,比如说我们能达到什么,目前达不到什么,我们可能踮踮脚尖能达到什么,以后能达到什么,就是需要一个非常清晰的判断。”

最后,小米的AutoML团队也正在招募招募深度学习算法/软件工程师,感兴趣的读者可以点击阅读原文进一步了解。

最后的最后,也再补充三部曲论文合集链接,

Chu et al., Multi-Objective Reinforced Evolution in Mobile NeuralArchitecture Search https://arxiv.org/abs/1901.01074

Chu et al., Fast, Accurate and Lightweight Super-Resolution with Neural Architecture Searchhttps://arxiv.org/abs/1901.07261

Chu et al., FairNAS: Rethinking Evaluation Fairness of Weight Sharing Neural Architecture Searchhttps://arxiv.org/abs/1907.01845

Chu et al., MoGA: Searching Beyond MobileNetV3https://arxiv.org/abs/1908.01314

Chu et al., ScarletNAS: Bridging the Gap Between Scalability and Fairness in Neural Architecture Searchhttps://arxiv.org/abs/1908.0602

Image placeholder
weidongRiver
未设置
  88人点赞

没有讨论,发表一下自己的看法吧

推荐文章
独家对话李飞飞:云数据库战争已经进入下半场

李飞飞,现任阿里巴巴集团副总裁、高级研究员,阿里云智能数据库事业部总负责人。加入阿里巴巴之前为美国犹他大学计算机系终身教授。研究成果多次获得了IEEEICDE、ACMSIGMOD最佳论文奖等重要学术奖

从ResNet的诞生讲起:美公司在北京的AI研究所出了成果,中美究竟谁受益更多?

大数据文摘出品来源:macropolo编译:狗小白、Aileen中美之间摩擦不断,如今,AI竞争也成为了其中重要的组成部分。让我们假设这样一个场景:美国AI公司设立在中国的实验室取得了一些突破,谁从中

技术宅告诉你如何搜索更安全

前言百度从14年开始就已经对外开放了HTTPS的访问,并于15年3月初正式对全网用户进行了HTTPS跳转。你也许会问,切换就切换呗,和我有啥关系?我平常用百度还不是照常顺顺当当的,没感觉到什么切换。话

小蜜团队万字长文 | 讲透对话管理模型最新研究进展

对话管理模型背景从人工智能研究的初期开始,人们就致力于开发高度智能化的人机对话系统。艾伦·图灵(AlanTuring)在1950年提出图灵测试[1],认为如果人类无法区分和他对话交谈的是机器还是人类,

最新安卓零日漏洞被曝出,或影响谷歌、华为和小米等品牌手机

近日,据外媒BleepingComputer报道,谷歌威胁分析团队(TAG)称,一个最新的安卓0day漏洞或被用于攻击谷歌Pixel、华为、小米和三星以及OPPO等智能手机。 该漏洞是由谷歌Pro

腾讯7年老员工遭暴力裁员,官方回应:该员工工作成果不匹配岗位要求

01腾讯回应暴力裁员近日,有自称腾讯7年老员工的网友发文称,人到中年,被腾讯暴力裁员。文中提到,2019年3月某天下午,腾讯HR派出大批保安单方面暴力裁员,让很多保安逼迫其收拾东西离开,当场封掉工卡等

三个月5位老员工离职!苹果健康团队被曝内部分歧严重,员工扎堆儿离开

大数据文摘编辑部出品一年一度的秋季发布会召开前夕,苹果健康团队忽然被曝,大批老员工高调离职。据外媒CNBC报道,最近几个月,苹果的医疗保健团队紧张氛围愈加严重,这种氛围据内部人士称已经持续了一段时间,

干货 | 每天十亿级数据更新,秒出查询结果,ClickHouse在携程酒店的应用

本文转自 |携程技术中心 作者 |蔡岳毅作者简介蔡岳毅,携程酒店大数据高级研发经理,负责酒店数据智能平台研发,大数据技术创新工作。喜欢探索研究大数据的开源技术框架。一、背景1)携程酒店每天有上千表,累

阿里云小蜜对话机器人背后的核心算法

0.对话系统简介 对话系统的一般架构如图: 图1:对话系统一般架构 这是我们所熟知的对话系统框架,这里面主要有:NLU自然语言理解,DM对话管理,NLG自然语言生成3个主要模块,DM里面有dialo

对话蒋杰、丁奇,腾讯云数据库之路

此前,笔者曾经就腾讯云数据库战略升级一事写过一篇文章,对腾讯云数据库聚焦“云原生”“自治”“超融合”三大方向背后原因,以及怎样理解腾讯云数据库战略升级与五大新品、三大方向的关系进行了分析。近日,在腾讯

任正非对话美国思想巨头:短期预计营收下降300亿美元,但2021年华为将重焕生机

大数据文摘编辑部出品6月17日,华为创始人任正非在华为深圳总部,与数字时代三大思想家的其中两位,《福布斯》著名撰稿人乔治·吉尔德和美国《连线》杂志专栏作家尼古拉斯·尼葛洛庞帝,进行了一场长达100分钟

对话OceanBase资深总监韩鸿源:数据库是技术能力,云是使用方式,两者不应是竞争关系

5月10日,在第十届中国数据库技术大会(DTCC2019)上,蚂蚁金服的金融级分布式关系数据库OceanBase2.0,在经过200名数据库领域三年以上的从业者投票和专业评委的评选下,高分荣获了“年度

5G是一个数据通道,未来最大的产业是人工智能 | 任正非对话卡普兰

大数据文摘出品昨天下午,华为创始人任正非邀请两位人工智能领域的国际顶级专家参与“与任正非咖啡对话”。这已经不是任正非第一次举办这种与行业专家的对话,上一次是在6月17日在与《福布斯》著名撰稿人乔治·吉

DPVS – 小米高性能负载均衡器

随着互联网的快速发展,负载均衡也承担着越来越重要的角色,对于小米这种快速发展中的年轻公司来说,负载均衡的稳定及高性能更是重中之重。本文将主要介绍小米基于DPDK的高性能负载均衡软件DPVS(DataP

小米办公Wi-Fi选型最看重什么?

以“体验智能边缘,尽享无限商机”为主题的Aruba中国第一届合作伙伴大会暨InstantOn新品发布会在京举行。会上,Aruba分享了最新的技术和产品信息,以及行业解决方案。小米作为Aruba成功案例

万亿级消息背后: 小米消息队列的实践

目录业务背景架构与关键问题性能与资源优化平台化效率小米消息中间件的规划与愿景前文《消息队列价值思考》讲述了消息中间件在企业IT架构中的重要价值,本文将呈现这些价值在落地小米业务过程中的遇到的问题和实践

Kubernetes监控在小米的落地

本文介绍了高可用、持久存储、可动态调整的Kubernetes监控方案的实现过程。小米的弹性调度平台(Ocean)以及容器平台主要基于开源容器自动化管理平台kubernetes(简称k8s)来提供服务,

小米Kylin平滑迁移HBase实践

根据美团等其他公司在Kylin社区的公开分享资料,跨HBase集群升级方案需要在新集群重新构建历史的Cube,或者有一段时间的服务停止。小米在Kylin生产环境的跨HBase集群迁移中实现了无中断的平

全球“黑客大赛”冠军霸气讲述:我是如何让50个文件一起骗过AI安防系统的?

大数据文摘出品来源:medium编译:邢畅、张睿毅、钱天培你有没有想过当黑客呢?破解手机密码,黑入公司系统,甚至…控制全球电脑。打住打住!违法犯罪的念头显然不能有。再退一步讲,咱也不一定有这本事。尤其

css如何让元素不随滚动条滚动?

在CSS中,可以使用固定定位(position:fixed;)来固定元素的位置,让元素不随滚动条滚动。fixed生成固定定位元素,元素脱离文档流,不占据文档流的位置,可以理解为漂浮在文档流的上方,相对

css如何让字体不加粗?

在CSS中可以使用font-weight:normal样式来让字体不加粗。font-weight属性设置文本的粗细,设置值为normal来定义标准的字符。font-weight属性用于设置显示元素的文

CSS如何让背景图片不重复?

CSS如何让背景图片不重复?css中设置完背景图后,不指定平铺属性,默认是横向纵向重复的,导致图片出现重复。让图片不重复可以设置background-repeat属性。css中background-r

如何让layui支持es5?写法介绍

写js的时候会写一些es5的代码,但是打包到dist时,发现不支持语法,怎么办呢。两步添加es5支持:一、使用npm下载安装babel,进入gulpfile.js所在目录。$npminstall--s

【总结】2019 从零开始入行 1年6 个月以来的感受和体验

2019年已经随着寒潮的袭来进入了年尾。 去年年末的时候写了一篇2018年的总结,当时记录了我从零基础入行半年的一些感想和感受。当时收到了很多人的温暖的鼓励,在这里谢谢大家。因为工作业务上以及个人琐

谷歌两位创始人双双“退位”,皮猜升职Alphabet帝国CEO独揽大权

大数据文摘出品两位创始人双双“退位”,Alphabet刚刚赢来了新阶段。美国时间周二12月3日下午,谷歌联合创始人拉里·佩奇(LarryPage)和谢尔盖·布林(SergeyBrin)宣布辞职,从即日