重回榜首!Facebook开源加强版BERT,全面超越XLNet

大数据文摘出品

作者:宁静

刚刚被拉下神坛的BERT又一次称霸了GLUE、SQuAD和RACE三个排行榜。

今年六月,谷歌发布XLNet,指出并解决了BERT的缺点,在20多个指标上全面刷爆了BERT之前的成绩,数据、算力相比BERT增加了很多,也在业内引起了激烈讨论:到底该用BERT还是XLNet

Facebook前几天宣布:如果训练更久一点、数据量再大一点,BERT 还是能重新达到 GLUE 基准的第一名。

今天,Facebook开源了这个基于BERT开发的加强版预训练模型RoBERTa,全称”Robustly optimized BERT approach”——强力优化BERT方法,在GLUE、SQuAD和RACE三个排行榜上都取得了最优成绩。

在今天的官方推文中,Facebook AI也直接明了地点出了这一方法的称霸诀窍:更久的训练时间、更多的数据、更强力调参。

Facebook也强调了RoBERTa诞生的意义:

调整BERT训练程序可以显着提高其在各种NLP任务上的表现,同时也表明了这种方法的竞争力。更广泛来看,这项研究进一步证明了,监督训练有可能达到或超过更传统的监督方法的表现。RoBERTa是Facebook不断致力于推动自我监督系统最先进技术的一部分,该系统的开发可以减少对时间和资源密集型数据标签的依赖。

这项研究由Facebook AI和华盛顿大学的研究团队共同完成,并公开了论文和代码,先附上链接:

论文链接:

https://arxiv.org/pdf/1907.11692.pdf

Github代码链接:

https://github.com/pytorch/fairseq/tree/master/examples/roberta

亮点:RoBERTa基于BERT的改进

RoBERTa基于BERT的改进在四个方面展开,包括:

  1. 更长时间地训练模型,批量更大,数据更多;
  2. 删除下一句预测的目标;
  3. 较长时间的训练;
  4. 动态改变应用于训练数据的masking模式。

论文的贡献在于:

  1. 提出了一套重要的BERT设计选择和训练策略,并引入了能够提高下游任务成绩的备选方案;
  2. 文中使用一种新的数据集CCNEWS,并确认使用更多数据进行预训练,进一步改善了下游任务的性能;
  3. 预训练的masked language model相比发表的其他方法都更具有竞争力,已经开源了在PyTorch中模型训练和参数微调的代码。

模型内部架构

之前的BERT采用Transformer 结构,改经后的RoBERTa使用的是L层的transformer 架构,每个block 都使用一个self-attention head和隐藏维度H。

在讲解模型内部原理之前先简单介绍NLP领域中常用的Transformer 结构:

Transformer的主体结构图

模型分为编码器和解码器两个部分,编码器和解码器的输入就是利用学习好的embeddings将tokens(一般应该是词或者字符)转化为d维向量。对解码器来说,利用线性变换以及softmax函数将解码的输出转化为一个预测下一个token的概率。

Transformer用于机器翻译任务,表现极好,可并行化,并且大大减少训练时间。

模型预训练

在预训练模型的过程中,需要完成两个指标:Masked Language Model (MLM) 和Next Sentence Prediction (NSP)

  • Masked Language Model (MLM) :MLM的目标是masked tokens序列中的交叉熵,选择输入中的随机token样本,并替换为特殊的token [MASK],BERT模型一致选择输入token中的15%作为可能的替换,在所选的token(selected tokens)中,80%的selected tokens替换为token [MASK],10%的selected tokens保持不变,另外10%替换为随机选择的词汇表token。
  • Next Sentence Prediction (NSP)下一句预测:预测两个语段之间的二元分类损失,判断语句有没有前后的依从关系,其中正样本来自于文本语料库中提取连续的句子,负样本来自于不同文档的段进行配对,正负样本相同的概率进行采样。

模型参数优化

BERT用以下参数:β1= 0.9,β2= 0.999,ǫ = 1e-6,L2权重为0.01,伴随着学习率的加快,在前10,000个steps中达到峰值1e-4,然后线性衰减;BERT训练时在所有层和attention结构中采用0.1的 dropout ,使用GELU激活函数,模型预训练有S = 1,000,000次更新,小批量包含B = 256个sequences和T = 512的tokens序列。

实验结果

当控制训练数据时,我们观察到RoBERTa比BERTLARGE结果有了很大的改进,当数据集从16GB增加到160GB,训练次数从100K到300K再到500K的过程中,模型准确度也逐渐提升。

RoBERTa在开发和测试中使用了提供的SQuAD数据,+表示依赖于额外外部训练数据的结果,从下面两个表中,可以看到RoBERTa相比XLNet有精度上的提升,表中加粗的数字。

在RACE测试集上的结果显示,RoBERTa的Accyracy相比BERT(large)提高了10个百分点,相比XLNet(large)提高了2个百分点。

BERT与XLNet之争

自诞生起,BERT在江湖中地地位一直颇动荡。

去年10月,谷歌放出了称霸GLUE榜单的BERT模型,当时BERT最大的创新就是提出了Masked Language Model作为预训练任务,解决了GPT不能双向编码、ELMo不能深度双向编码的问题。之后从那天起,很多任务都不再需要复杂的网络结构,也不需要大量的标注数据,业界学术界都基于BERT做了很多事情。

2019年6月19日,谷歌又放出了一个模型XLNet,找到并解决了BERT的缺点,在20多个指标上全面刷爆了BERT之前的成绩,数据、算力相比BERT增加了很多。

语言模型预训练导致了显著的性能增益,但是在不同方法之间仔细仍然具有挑战性,计算的训练成本是昂贵的,同样,超参数选择对最终结果有显著的影响。

但是,XLNet的王座终没做稳,在充分测量许多关键的超参数和训练数据大小的影响,研究人员发现,Bert的训练明显不足,改进后的Bert模型可以达到或超过在之后发布的每一个模型的性能。

本月初,XLNet 团队尝试以一种在相同环境和配置下训练两个模型的方式,对比了 XLNet 和 BERT 的效果,回应业内的讨论。

研究者尝试让每一个超参数都采用相同的值,使用相同的训练数据。

最终结果👇

实验中有一些有趣的观察结果:

  • 使用几乎相同的训练配方训练相同的数据,XLNet在所有数据集上以相当大的优势超越BERT。
  • 在11个基准测试中的8个中,采用10倍以上数据的收益,小于从BERT切换到XLNet的性能增益。
  • 在一些基准测试中,例如CoLA和MRPC,在更多数据上训练的模型性能低于在较少数据上训练的模型。

虽然这一研究是XLNet团队发布的,但是对于两者的长期争论仍然有很大的价值。感兴趣的读者可以查看原文👇

https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0
Image placeholder
silk
未设置
  49人点赞

没有讨论,发表一下自己的看法吧

推荐文章
专访被Facebook开除的中国工程师尹伊:我不后悔那天的决定

作者:纪振宇9月19日,在美国加州刺眼的午后阳光下,38岁的Facebook陈姓中国工程师,从该公司位于加州门罗帕克总部园区的某处办公楼的四层纵身一跃,结束了自己的生命。随后,关于他更多的消息逐渐在网

Twitter 宣布抛弃 Mesos,全面转向 Kubernetes

作者|阿里云智能高级技术专家张磊划重点Twitter的基础设施从Mesos全面转向Kubernetes阿里云容器平台团队即将开源 Kubernetes高级作业管理集合美国西部时间5月2日下午7点,Tw

华为鸿蒙来了!八大亮点超越安卓,特殊情况随时可用!

大数据文摘编辑部出品鸿蒙OS来了!8月9日,在广东东莞举办的华为开发者大会HDC.2019上,华为消费者业务CEO余承东正式发布了“面向未来、多终端能力共享的操作系统”——鸿蒙HarmonyOS。鸿蒙

专访腾讯云数据库负责人丁奇:打造超越用户想象的产品

“就市场份额来说,腾讯云在国内还不是第一名,但从国内上云企业比例看,剩余的还有很多,因此,大家都还有机会,就看谁能真正解决用户的痛点。”                                

xlsxwriter 操作 Excel

xlsxwriter简介 用于以Excel2007+XLSX文件格式编写文件 优点 文本,数字和公式写入,速度很快,占用内存小 支持诸如格式设置,图像,图表,页面设置,自动过滤器,条件格式设置等功能

xlsxwriter 操作 Excel

xlsxwriter简介用于以Excel2007+XLSX文件格式编写文件,相较之下PhpSpreadsheet支持更多的格式读写。优点文本,数字和公式写入,速度很快,占用内存小 支持诸如格式设置,图

Facebook数据再泄露 5.4亿数据曝光于AWS服务器

网络安全公司UpGuard最近的一份报告显示,两家第三方Facebook应用程序开发商被发现以公开的方式将用户数据存储在亚马逊的云服务器上。据UpGuard称,其中一家公司CulturaColecti

Libra:Facebook的”野心”?

2008年11月1日,有一个传说叫中本聪的日裔美国人,发表了一篇名为《比特币:一种点对点式的电子现金系统》的论文。2009年,比特币出世,从此开启了电子货币这个收割机器,全世界的韭菜都是一个味。200

Facebook又叒陷数据门,5亿条数据不安全存储在亚马云服务器中

大数据文摘出品编译:周素云上周Facebook用户又经历了糟糕的一周。Facebook发言人对各大主流媒体承认,用户的多组个人数据被存放在亚马逊AWS数据库中,包括数以百万计的Facebook用户的超

使用Jupyter NoteBook进行IB查询和交易,以及使用算法交易示例

在搞好IB盈透接口后,试了下客户端交易,但是最终目的还是使用程序化交易。发现vnpy已经提供的Script_engine来支持JupyterNoteBook交易的,而且非常方便调用。 这里就用写了基于

Go 基础巩固加强-1.0-指针

指针 指针是一个代表着某个内存地址的值。这个内存地址往往是在内存中存储的另一个变量的值的起始位置。Go语言对指针的支持介于Java语言和C/C++语言之间,它既没有想Java语言那样取消了代码对指针的

基础加强Junit、反射、注解

Junit单元测试 测试分类: 黑盒测试:不需要写代码,给输入值,看程序是否能够输出期望的值。 白盒测试:需要写代码的。关注程序具体的执行流程。 Junit使用:白盒测试 步骤: 定

SpringBoot个人应用开发框架(SpringBoot版本2.1)+IDEA

前言: 此笔记为本人首个SpringBoot项目框架学习实践记录,期间参考了许多大神的笔记和心得。 参考文档如下: 项目git地址: 一、创建SpringBoot工程 1.1创建父POM工程结

再见 Spring Boot 1.X ,Spring Boot 2.X 走向舞台中心

2019年8月6日,Spring官方在其博客宣布,SpringBoot1.x停止维护,SpringBoot1.x生命周期正式结束。其实早在2018年7月30号,Spring官方就已经在博客进行过预告,

SpringBoot 集成 JWT 实现 token 验证,token 注销

什么是JWT Jsonwebtoken(JWT),是为了在网络应用环境间传递声明而执行的一种基于JSON的开放标准((RFC7519).定义了一种简洁的,自包含的方法用于通信双方之间以JSON对象的形

全面集成阿里云,Salesforce在中国正式转正

进入2019年,SaaS竞争已进入深水区,当很多CRM厂商还在庆幸Salesforce在中国没有准入资格时,Salesforce已经在悄然布局,曲线入市。7月25日,在阿里云峰会·上海站上,全球最大C

SpringBoot 中的 Servlet Web 容器

1.前言 SpringBoot支持一下嵌入式Servlet容器: SpringBoot2.0.3.RELEASE需要Java8或9以及SpringFramework5.0.7.RELEASE或更高版本

云端的生存之道,第 1 单元:将 Spring Boot 部署到 Kubernetes

初始化Kubernetes集群 第一步是初始化IBMCloud上的Kubernetes集群。IBMCloud可能需要几分钟时间来启动新的Kubernetes集群;因此,通过先执行初始化操作,可以在后台

Github 上 Star 最多的 Spring Boot 个人开源学习项目

2016年,在一次技术调研的过程中认识到了SpringBoot,试用之后便一发不可收拾的爱上它。为了防止学习之后忘记,就在网上连载了 SpringBoot系列文章,没想到这一开始便与SpringBoo

Kubernetes 基础信息:什么是 Kubernetes?

简介 Kubernetes(常简称为K8s,在希腊语意为“舵手”或“驾驶员”)是用于自动部署、扩展和管理容器化(containerized)应用程序的开源系统。 由JoeBeda、BrendanBur

最新 React Router 全面整理

Reactrouter已经到了V5版本,增加了基于ReactHooks的一些API,比如useParams、useHistory等等,让我们可以在组件中不接受routeprops就可以拿到路由信息{m

到2025年,全球VoIP市场将达到550亿美元

基于IP的语音传输(VoIP)是当今世界许多人和企业主现代生活中不可或缺的一部分。几十年来,该技术发展迅速,延伸出了VCaaS、CCaaS、UCaaS等。然而,即使在“VoIP”已经成为常用术语的世界

到2023年,全球数字化转型支出将达到2.3万亿美元

根据IDC报告显示,到2023年,全球用于数字转型的支出将达到2.3万亿美元,超过所有ICT支出的一半。全球用于商业实践、产品和企业数字化转型(DX)的技术和服务支出将达到2.3万亿美元。DX支出预计

到2022年,全球客户体验的支出将达到6410亿美元

根据IDC最新发布的《全球半年度客户体验支出指南》报告显示,2019年全球客户体验(CX)技术支出总额将达到5080亿美元,比2018年增长了7.9%。由于公司专注于满足客户的期望并提供差异化的客户体

IDC:市场低迷,全球企业存储营收降低

近日,IDC分布了最新的全球企业存储系统市场季度跟踪报告。报告中显示,2019年第一季度,全球企业存储系统市场供应商收入为134亿美元,同比下降了0.6%。总发货量同比增长14.1%,至114.2EB