Google Brain推出语音识别新技术、面部表情识别助力商业再发展|AI一周学术

大数据文摘专栏作品

作者:Christopher Dossman

编译:fuma、云舟

呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!

AI Scholar Weekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。

周一更新,做AI科研,每周从这一篇开始就够啦!

本周关键词:语音识别、环境声音分类、CNN、面部表情识别

本周热门学术研究

语音自动识别技术:SpecAugment

受先前语音和视觉领域增强成功的启发,Google Brain最近提出了SpecAugment,一种数据增强方法,它操作输入音频的对数mel光谱图,而不是原始音频本身。

SpecAugment方法不但非常简单,计算成本也很低,因为它直接作用于对数mel光谱图,而不需要额外的数据。这种简单的方法非常有用,并使研究人员能够训练端到端的监听参与和拼写ASR网络。

通过使用简单的手工策略增加训练集,即使没有语言模型的帮助,研究人员也能够在端到端的LAS网络上获得librispeech 960h和Switchboard 300h超越混合系统的性能。它优于复杂的混合系统,通过使用更大的网络和更长的训练时间,SpecAugment能够达到最先进的效果。

潜在效果及应用

全球自动语音识别(ASR)市场预计在2016年至2024年间以超过15%的复合年增长率增长。随着先进电子设备的飞速使用,人们对开发尖端功能和效率的需求越来越大,这样的功能和效率提高了应用的ASR精度。

SpecAugment显著提高了ASR的性能,并可能成为人工智能工程师驱动下一代ASR应用程序所需的必要条件,这些应用程序包括机器人、交互式语音响应、自定义词典、视频游戏、语音验证、家用电器等。

原文:

https://arxiv.org/pdf/1904.08779.pdf

使用一维CNN的端到端环境声音分类模型

加拿大的一组研究人员最近提出了一个端到端的一维CNN环境声音分类模型。根据音频信号的长度,该模型由3-5个卷积层组成。与许多传统方法实现二维表示的传统模型不同,这一模型是直接从音频波形中学习分类器。

在对包含8732个音频样本的数据集进行评估时,新方法演示了几种相关的分类器表示,其结果超越了现有的基于二维实例和二维CNN的最优效果。

此外,在环境声音分类方面,该模型比大多数其他CNN体系结构的参数都要少,与传统的二维体系结构相比,平均精度要高出11%到27%。

潜在应用及效果

根据这篇论文的评价结果,该方法在提供高度鲁棒的环境声音分类应用上具有很好的应用前景。

对于初学者来说,它的效率很高,与传统的2D CNN相比,它只需要很少的训练数据(后者需要数百万个训练参数)。它还实现了最先进的性能,可以通过实现滑动窗口处理任意长度的音频信号。最后,它紧凑的体系结构大大降低了计算成本。

原文:

https://arxiv.org/abs/1904.08990v1

基于深度学习的面部表情识别研究

研究人员最近开发和训练了一种基于面部表情识别的CNN,并探讨了其分类机制。这一方法采用反卷积可视化方法,将CNN的极值点投影回原始图像的像素空间。他们还设计了距离函数来测量面部特征单元的存在与CNN特征图上最大响应值之间的距离。

CNN特征图是通过比较特征图中所有面部特征元素的最大距离和面部特征元素之间的映射关系来确定的,如果距离较大,则对面部特征变得敏感。在训练过程中,研究人员验证了该方法对人脸动作单元的检测能力,实现了人脸表情识别。

潜在应用及效果

面部表情识别是测试任何内容、产品或服务的最佳方法之一,这些内容、产品或服务可能引起情绪唤醒和面部反应,因此,该方法可以应用于即时检测面部表情、编码面部表情和识别情绪状态。

包括消费者神经科学、神经营销、多媒体广告、心理学研究、临床心理学、心理治疗、人工社会代理(avatar)工程在内的许多应用都可以从研究中受益匪浅。

原文: 

https://arxiv.org/abs/1904.09737v1

机器学习在网络安全上的应用 – 当今问题,挑战和数据集

新发布的研究提出了一些机器学习的挑战,研究人员需要处理这些挑战才能成功地将机器学习应用于网络安全。

其中一个重要问题是对恶意软件的分类和检测。识别恶意程序并不容易,因为攻击者常常会使用多态,模拟,压缩和混淆来逃避检测。不仅如此,一些其他同样严峻的问题也引起了广泛担忧,比如说该领域专家过少,导致标记样本不够,大量标签错误,数据集不平衡,识别恶意来源非常困难等等。

获取数据集:由于解决网络安全问题的一个主要障碍是缺乏适当的数据集,研究人员提供了获得数据集的途径,使学术界能够调查问题并提出应对挑战的方法。他们还提出了一种通过旋转生成标签的方法,为网络安全中缺乏标签的常见问题提供了解决方案。

潜在应用及效果

研究人员认为,机器学习在网络安全中的应用可以提升。他们还认为,网络社区有责任帮助机器学习社区在这一领域变得更加活跃。

目前,我们还是缺乏足够合格且经验丰富的网络安全分析师来最大限度地减少全球网络攻击。

为了获得对可用数据集的访问权限,研究人员只需要联系data-sets@paloaltonetworks.com并附上“访问数据请求”。

原文: 

https://arxiv.org/abs/1812.07858v3

用于连续图分类的新模型

ML学者提出了一种简单、灵活但功能强大的方法来处理ML中的图,该方法使用扩展的持久性图来实现高效的图结构编码。具体来说,这一方法在计算扩展持久性图中使用热核特征以快速、有效地进行图结构总结。

此外,他们建立在最近的神经网络点云结构之上定义了扩展持久性图的架构,该架构集成性强且易于使用。

他们通过在几个图形数据集上验证它证明了新方法的有效性。虽然所提出的架构比其对应的架构简单得多,但结果表明它可以在几个图形分类任务上实现最先进的结果。

潜在应用及效果

这对于许多真实世界的图表分类数据集来说确实是个好消息,例如网络链接数据,社交网络,分子结构,地理地图等。此外,该架构对非结构化数据非常有用,包括用于进一步分析所可能需要的图像和文本图形表格建模。

原文:

https://arxiv.org/abs/1904.09378v1

其他爆款论文

一种新的基于深度学习的模型证明了它对去噪数据的有用性,并允许从噪声数据中精确逼近导数。

https://arxiv.org/pdf/1904.09406v1.pdf

BERT令人惊讶的跨语言效果。

https://arxiv.org/abs/1904.09077v1

一种简单,易于实现但有效的方法,不需要进行广泛的重新训练,并且可以跨域进行良好的泛化,以实现少数自然语言生成(NLG)。

https://arxiv.org/pdf/1904.09521v1.pdf

使用BERT生成文本的自动评估指标,可以更好地与人类判断相关联,并优于现有指标。

https://arxiv.org/abs/1904.09675v1

基于点云检索的上下文信息三维注意力图学习新模型。

https://arxiv.org/abs/1904.09793v1

AI新闻

AI能帮我们写出更好的法律吗?

https://www.forbes.com/sites/kalevleetaru/2019/04/24/could-ai-help-us-write-better-laws/#153d0ec95529

推荐算法主宰世界。

https://www.wired.com/story/how-recommendation-algorithms-run-the-world/

这个机器可以读心,也可以交谈 

https://www.wired.com/story/machine-reads-your-mind-talks/

TensorFlow推出了MLIR来加快编译速度,简化机器学习模型的硬件优化。

https://www.infoworld.com/article/3390659/tensorflow-unveils-mlir-for-faster-machine-learning.html

2019-2025医疗保健应用全球人工智能市场报告。

https://www.marketwatch.com/press-release/artificial-intelligence-for-healthcare-applications-market-2019-global-trends-size-share-status-swot-analysis-and-forecast-to-2025-2019-04-24?mod=mw_quote_news

专栏作者介绍

Christopher Dossman是Wonder Technologies的首席数据科学家,在北京生活5年。他是深度学习系统部署方面的专家,在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验,他还教授了1000名学生了解深度学习基础。

LinkedIn:

https://www.linkedin.com/in/christopherdossman/

Image placeholder
清歌
未设置
  87人点赞

没有讨论,发表一下自己的看法吧

推荐文章
Google 21 岁生日,一文回顾 Google 发展史

9月27日,谷歌在Google搜索引擎首页庆祝自己21岁生日。 在涂鸦存档上,谷歌发布了一封庆祝信: 21年前,两位斯坦福大学博士生谢尔盖·布林和拉里·佩奇发表了一篇有关启动“大型搜索引擎”原

谷歌云重磅推出混合云平台Anthos,兼容竞争对手云服务 | Google Cloud Next’19

大数据文摘出品作者:蒋宝尚、周素云当地时间4月9日,谷歌云年度盛会GoogleCloud Next’19在旧金山的Moscone召开。在会上,谷歌云的新任CEO,曾经的甲骨文二号人物ThomasKur

阿里云正式推出内容平台“云栖号”:全面助力企业和个人上云决策

1月7日,阿里云官网正式推出“云栖号”(https://yqh.aliyun.com/ ),旨在为大家提供第一手的上云资讯,云产品快速入门,来自不同行业精选的企业上云案例,基于众多成功案例萃取而成的最

吕理伟:研发质量效率体系建设助力企业发展

导语:本文根据吕理伟老师在2019年10月31日【第十一届中国系统架构师大会(SACC)】现场演讲内容整理而成。  海风教育工程卓越中心原高级总监吕理伟嘉宾介绍:13+年工作经验,2006年重点大学计

联想“融合计算”助力能源行业破局发展

随着油气行业改革进程的加快,石油行业需要的高性能系统要具有强大的硬件性能表现及能耗比、有优秀的开发应用软件技术配套、符合石油石化行业发展需求、符合开放标准,并且有广泛的合作伙伴支持。为了满足全球日益增

IEEE官方禁止华为参与期刊审稿,当全球最大技术学术机构向政治弯腰

大数据文摘出品作者:魏子敏、宋欣仪5月29日,作为全球最大专业技术组织之一的IEEE(电气和电子工程师协会)被曝出,在发给会员的内部邮件中禁止华为员工作为旗下期刊杂志的编辑和审稿人。今天早晨,IEEE

支付中台的几个面向:支付业务、资金核算、面向风控等切面

手哥架构宝典之支付系统1.0发布后,很多架构师朋友表示受益匪浅,询问支付系统2.0版本什么时候放出来,今天刊发出《架构宝典》支付系统2.0版本,以飨读者。00 概述在1.0的支付系统中,我们遇到了诸多

Google 出品的 Java 编码规范,强烈推荐!

来源:google.github.io/styleguide/javaguide.html这是Google官方的Java编程风格规范。与其它的编程风格指南一样,这里所讨论的不仅仅是编码格式美不美观的问

Google 出品的 Java 编码规范,强烈推荐,既权威又科学!

这份文档是GoogleJava编程风格规范的完整定义。当且仅当一个Java源文件符合此文档中的规则,我们才认为它符合Google的Java编程风格。与其它的编程风格指南一样,这里所讨论的不仅仅是编码格

1000 行 Python 代码脚本 bug,或影响上百篇学术论文

《Nature》杂志2014年的一篇论文包含了一个Python脚本,其中有一个模块是根据文件的排序返回值,但Python并没有定义查询的文件顺序。这意味着在不同的操作系统上,该脚本返回的值是不同的。

云徙助力良品铺子「双11」:成为5.6亿背后的技术力量

每逢双十一时节,品牌的种草之心被推到顶峰。在密集的信息交汇中,消费者希望获取有价值的消费决策,品牌则希望被广泛看见、被坚定选择,此时,格外凸显出中台+精准营销的重要意义。双11购物狂欢节”已走过11个

欧洲首例AI诈骗!用CEO声音骗走22万,逼真语音合成只需1分钟录音

大数据文摘出品作者:刘俊寰想到可以利用AI进行诈骗的可不止一些初创公司,当下AI技术如此发达,换脸都能轻松实现,那声音呢?提到这种变声技术,可能最先想到的是《名侦探柯南》中柯南使用的蝴蝶结变声器,柯南

Oracle推出全球首个自治操作系统

Oracle推出了一个完全自治的操作系统 OracleAutonomousLinux,AutonomousLinux是以OracleLinux为基础的,它为OracleCloud和Oracle工程

未来有发展前景的IT技术岗位盘点

众所周知,在互联网时代,IT技术岗位是互联网公司和企业的核心发展力量。现在我们来盘点一下未来有发展前景的IT技术岗位。一般来说,IT技术岗位可以分为开发岗位、测试岗位、UI设计等,下面我将从这几个岗位

Gartner发布:十大无线技术发展趋势

Wi-Fi将在未来五年内继续主导这个行业,因为它成为中央对新兴技术,包括机器人、无人机、自动驾驶汽车和新的医疗设备等项目的核心。在Gartner最新发布的2019年及以后的十大无线技术趋势中显示,Wi

云架构远没想象般安全 派拓网络五大建议助力云安全

当企业业务大量向云端转移,云上安全问题变得愈加严峻,如何保障云端业务的安全成为企业关注的重点问题之一。前不久,网络安全企业PaloAltoNetworks(派拓网络)发布了一份云安全报告,揭示亚太区大

从reddit的一亿美元商业逆袭,看移动与PC产品的时代天堑

提起有“互联网头版”之称的reddit,你会联想到什么?想到这一网站上层出不穷的搞笑梗或meme图?还是程序员们经常制造出的各种有趣小发明?说起来在这个体量巨大、包容性极强、时刻制造着互联网新热点的论

助力AWS提升中国市场份额,光环云的这一年

2018年7月1日,光环云数据有限公司(以下简称“光环云”)正式成立。  一个月前,也就是2019年7月1日,光环云刚过完一周岁的生日。目前,云计算已进入到第二阶段,即深水期,第一波互联网、游戏等最容

Gartner:到2021年AI将创造2.9万亿美元商业价值

根据Gartner周一发布的报告显示,到2021年,人工智能将创造2.9万亿美元的商业价值,创造全球62亿小时的工人生产力,人工智能(AI)即将进入回报期。而在不久之前,“人工智能寒冬论”还曾不绝于耳

助力平安城市 新华三安防监控解决方案解读

大家应该都有看过警匪片,在影视片段中警察通过视频监控能够对城市的各个角落进行全局监控,并对犯罪分子进行实时追踪。为城市治安防控以及案件侦破提供了极大便利。而在现实生活中,视频监控系统也的确有着非常重要

助力“油腻大叔”追梦电竞 Linksys MR9000X无线路由评测

自从大学毕业正式参加工作,打游戏的时间可以说越来越少,曾经的游戏少年已经成为一名熬夜加班改文案,闲暇时间睡个懒觉刷刷抖音的典型“油腻大叔”。没成想转战职场多年后,中国的电竞却迎来了巅峰时刻,在去年英雄

如何看待阿里云推出云端数据库测试平台

继OceanBase刷新TPC-C纪录之后,近日,阿里云一篇《不服OceanBase跑分?今天起可到阿里云上一战》的文章,再度引发关注。文章标题很直接,不服来战,凸显对OceanBase的自信,强调不

连不上 GitHub 的朝鲜,也开发出了人脸识别技术

场景描述:近日,朝鲜媒体《统一的回声》发布刊文,介绍了新开发的自研智能蓝天手机。文章中称,该款手机处理速度快,支持人脸识别和指纹解锁等功能。据朝鲜媒体早前报道,该智能手机的人脸识别功能,是由朝鲜的顶级

Golang语言的主要特性与发展的环境和影响因素

1.2.1影响Go语言发展的早期编程语言 正如“21世纪的C语言”这句话所说,Go语言并不是凭空而造的,而是和C++、Java和C#一样属于C系。不仅如此,设计者们还汲取了其它编程语言的精粹部分融入

Libra:Facebook的”野心”?

2008年11月1日,有一个传说叫中本聪的日裔美国人,发表了一篇名为《比特币:一种点对点式的电子现金系统》的论文。2009年,比特币出世,从此开启了电子货币这个收割机器,全世界的韭菜都是一个味。200