安博电竞竞猜_安博电竞网站_安博电竞app
安博电竞竞猜

亚人,谷歌实习生新算法提速惊人!BERT练习从三天三夜,缩短到一个小时,一英尺等于多少米

admin admin ⋅ 2019-04-07 02:40:10

郭一璞 安妮 发自 凹非寺

量子位 报导 | 大众号 QbitAI


谷歌实习生新算法提速惊人!BERT操练从三天三夜,缩短到一个小时


从头开始操练一遍当今最强的言语AI需求多久?

现在,这个时刻从三天三夜,一下缩短到一个多小时!

带来这个前进的,是Google Brain实习生,尤洋。这位小哥来自我国河南,从前的清华核算机硕士榜首,现在在加州大学伯克利分校读博。

他最近亚人,谷歌实习生新算法提速惊人!BERT操练从三天三夜,缩短到一个小时,一英尺等于多少米完结的一项研讨,把预操练BERT的速度足足提高了64倍。操练时刻从4860分钟,变成了76分钟11秒。

并且操练完结后,在机器问答数据集SQuAD-v1上测验一下,F1得分比本来的三天三夜版还要高一点点。

别人家的实习生,终究又使出了什么神技?

费时到省时

要缩短神经网亚人,谷歌实习生新算法提速惊人!BERT操练从三天三夜,缩短到一个小时,一英尺等于多少米络的操练时刻,本来有老练的办法可用:

左右开弓,一是堆上很多CPU、GPU或许TPU添加算亚人,谷歌实习生新算法提速惊人!BERT操练从三天三夜,缩短到一个小时,一英尺等于多少米力,二是添加批巨细削减迭代次数。

在核算机视觉研讨中,这种办法就很常用。前两天,富士通的研讨人员还用这种办法,74.7秒在ImageNet上操练完ResNet-50。


谷歌实习生新算法提速惊人!BERT操练从三天三夜,缩短到一个小时


可是,视觉范畴的这些操练办法,搬到BERT上是行不通的。BERT是现在工业界操练起来最耗时的运用,核算量远高于ImageNet。

此外,大批量操练还有个“通病”,便是会发生泛化差错(Generalization Gap),导致网络泛化才干下降,如此直接优化往往会导致测验集上准确度下降。

怎么办?

为了能用大批量操练BERT,尤洋和他的搭档们提出了LAMB优化器。这是一个通用的神经网络优化器,无论是大批量仍是小批量的网络都能够运用,也无需在学习率之外调试超参数。

靠超大批量也适用的LAMB,他们将批巨细由512扩展到了65536。逆战猎魔圣匙

65536是什么概念呢?这现已到达了TPU内存的极限,也是榜首次有研讨用2000以上的超大批量来操练越南丛林战2讯雷杀阵BERT。

所以,迭代次数大大下降。此前,BERT-Large模型需求1000000次迭代才干完结预操练进程,耗时81.4小时。有了LAMB加持用上大批量,只需求进行8599次迭代,预操练时刻直接缩短到76分钟

这样看来,加快64倍

因吹斯听,这LAMB到底是何方神器?

LAMB优化器

它的全称是Layer-wise Adaptive Mome念错很污的绕口令nts opt韩娱之油腻配偶imizer for Batch training,和啪啪啪好爽咱们了解的SGD、Adam归于同类,都是机器学习模型的优南宁陈林菠化器(optimizer)。

本来,三天三夜的BERT操练,用的是权重衰减的Adam优化器。

而这一次的新式优化器LAMB,是在论文一作尤洋2017忘却你的欢欣城年的一项研讨启发下发生的。其时,他提出了一种用于大批量狡猾仙子闯古代卷积神经网络的优化器LARS。

LARS运用系数eeta操控信赖率(trust ratio),可是这种做法可能会导致一些问题,形成一些差异。

因而,在LAMB里,研讨团队删除了eeta,关于0|w|或许0|g|的层,直接把信赖率设置成1.0,消除了BERT操练的差异。

别的,LA申港3路RS里用权重衰减来核算信赖率:

考虑到权重衰减,LAMB里的信赖率公式改成了这样:胡楚夫

别的,LARS虽然在ImageNet上运转的很好,亚人,谷歌实习生新算法提速惊人!BERT操练从三天三夜,缩短到一个小时,一英尺等于多少米可是在ImageNet上用低组词的模型参数比BERT少得多,因而,这一次,研讨团队把LARS中的

改成了:

经过一系列改亚人,谷歌实习生新算法提速惊人!BERT操练从三天三夜,缩短到一个小时,一英尺等于多少米动,LAMB优化器的最大批量被提高到了32K。

真优化

是骡子是马,也该拉出来溜溜了。

研讨人员用惯例操练与混合批操练两种办法,测验LAMB优化器的优化作用,实测作用不错。

在测验中,他们大大添加了算力,挑选1024核的TPUv3 Pod进行操练,其间的1024个TPU中心,每秒能够供给超越10亿次浮点(100 petaflops)的混合精度运算。

终究研讨人员敲定,和原版BERT模型相同,用Wikipedia和ooksCorpus数据集预操练,然后使用斯坦福的SQuAD-v1数据集进行测验,测验得出的F1 Score亚人,谷歌实习生新算法提速惊人!BERT操练从三天三夜,缩短到一个小时,一英尺等于多少米的值则用来衡量准确度。

成果显现,跟着批量的增大,迭代次数逐削减,F1 Score的动摇并不显着,F1值维持在90以上,但操练时刻显着缩短。

测验成果

当批巨细大于65536、序列长度到达128时,操练时刻就没有显着的削减了。

当用了1024块TPU,批巨细为32768或65536、迭代8599次时,操练时刻缩减到最小,预操练进程只需求76.19分钟。

并且,终究到达了101.8%的弱缩放功率(weak scaling e极射fficiency)。

学霸一作:本硕都是榜首名

这项研讨的作者是UC伯克利核算机科学部的在读博士尤洋,一起他也是Google Brain的实习生。

小哥哥是一位大学霸,他本科就读于我国农业大学核算机专业,是班里的榜首名,硕士保送了清华核算机系,在134名入读清华的佼佼者中,他依然是榜首名。

作为榜首名的学霸,在请求博士的时分,尤洋一会儿喜提了UC伯克利、CMU、芝加哥大学、UIUC、佐治亚理工、西北大学六所名校的全奖offer,简直是名校任挑。

所以,他从六所名校里挑选了UC伯克利,UC伯克利刚好坐落湾亚人,谷歌实习生新算法提速惊人!BERT操练从三天三夜,缩短到一个小时,一英尺等于多少米区,尤长春双阳气候洋也因而有机钟楚武会游走于Google Brain、英特尔实验室、微软研讨院、英伟达、IBM沃森研讨中心等闻名企业、黎禹行研讨院实习,趁实习的时机为TensorFlow、英伟达GPU上布置caffe、英特尔CPU布置caffe等大型闻名开源项目做出了奉献。

乃至,还有时机趁实习去皮衣哥黄仁勋家里开爬梯~真是让人仰慕啊。

今日没穿皮衣

别的,尤洋也是一位论文高产选手,光是一作的顶会论文就有十几篇,其间还包括上一年ICPP的最佳论文,还会有IPDPS 2015的最佳论文。并且,他还拿到了2014年的西贝尔学者奖(Siebel Scholar)。

传送门

Reducing BERT Pre-Training Time from 3 Days to 76 Minutes

Yang You, 空中一号餐厅令郎王超Jing Li, Jonathan Hseu, Xiaodan Song, James Demmel, Cho-Jui Hsieh

htmifengaaatps://arxiv.org/abs/1904.00962

诚挚招聘

量子位正在招募修改/记者,工作地点在北京中关村。等待有才华、有热心的同学参加咱们!相关细节,请在量子位大众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI 头条号签约钟庆厚作者

'ᴗ' 追寻AI技能和产品东北丈母娘新动态

相关新闻

admin

admin

TA太懒了...暂时没有任何简介

精彩新闻