导航菜单
首页 » 气质女人营 » 正文

chase-百度正式发布ERNIE 2.0,在16个自然语言处理使命中获得SOTA作用

2019年3月,百度正式发布NLP模型ERNIE,其在中文使命中全面逾越BERT一度引发业界广泛重视和讨论。

今日,经过短短几个月时刻,百度ERNIE再晋级。发布继续学习的语义了解结构ERNIE 2.0,及根据此结构的ERNIE 2.0预练习模各省简称型。继1.0后,ERNIE英文使命方面获得全新打破,在合计16个中英文使命上逾越了BERT和XLNet, 获得了SOTA作用。现在,百度ERNIE 2.0的Fine-tuning代码和英文预练习模型已开源。(Github 项目地址:https://github.com/PaddlePaddle/ERNIE)

近两年,以BERT、XLNet为代表的无监督预练习技能在言语揣度、语义类似度、命名实体辨认、情感剖析等多个自然言语处理使命上获得了技能打破。根据大规模数据的无监督预练习技能在自然言语处理范畴变得至关重要。

百度发现,之前的作业首要经过词或语句的共现信号,构建言语模型使命进行模型预练习。例如,BERT经过掩码言语模型和下一句猜测使命进行预练习。XLNet构建了全摆放的言语模型,并经过自回归的办法进行预练习。

但是,除了言语共现信息之外,语猜中还包含词法、语法、语义等更多有价值的信息。例如,人名、地名、组织名等词语概念常识,语句间次序和间隔联系等结构常识,文本语义类似度和言语逻辑联系等语义常识。想象如果能继续地学习各类使命,模型的作用能否进一步提高?

ERNIE 2.0:可继续学习语义了解结构

根据此,百度提出可继续学习语义了解结构ERNIE 2.0。该结构支撑增量引进词汇(lexical)、语法 (syntactic) 、语义 (semantic) 等3个层次的自定义预练习使命,能够全面捕捉练习语猜中的词法、语法、语义等潜在信息。这些使命经过多使命学习对模型进行练习更新,每逢引进新使命时,该结构可在学习该使命的一起,不忘记之前学到过的信息。这也意味着,该结构能够经过继续构建练习包含词法、句法、chase-百度正式发布ERNIE 2.0,在16个自然语言处理使命中获得SOTA作用语义等预练习使命,继续提高模型作用。

新发布的ERNIE 2.0模型结构

依托该结构,百度充沛凭借飞桨PaddlePaddle多机分布式练习优势,使用 79亿tochase-百度正式发布ERNIE 2.0,在16个自然语言处理使命中获得SOTA作用kens练习数据(约1/4的XLNet数据)和64张V100 (约1/8的XLNet硬件算力)练习的ERNIE 2.0chase-百度正式发布ERNIE 2.0,在16个自然语言处理使命中获得SOTA作用预练习模型不只完成了SOTA作用,而且为开发人员定制自己的NLP模型供给了计划。现在,百度开源了ERNIE 2.0的fine-tuning代码和英文预练习模型。

百度研讨团队别离比较了中英文环境上的模型作用。英文上,ERNIE 2.0在自然言语了解数据集GLUE的7个使命上打败了BERT和XLNet。中文上,在包含阅览了解、情感剖析、问答等不同类型的9个数据集上逾越了BERT并改写了SOTA。

ERNIE的作业标明,在预练习过程中,经过构建各层面的无监督预练习使命,模型作用也会明显提高。未来,研讨者们可沿着该思路构建更多的使命提高作用。

自2018 年预练习言语模型 BERT 提出之后,预练习言语模型将自然言语处理的大部分使命水平提高了一个等级,这个范畴的研讨也掀起了热潮。现在百度ERNIE 2.0 再度为职业供给了研讨思路上的办法立异,可继续学习的特色亦将成为NLP范畴开展路程中的注脚。

二维码