优德w88娱乐下载

做人类语言谜题的破壁人:百度ERNIE 2.0的突破与创造

在过去的两天里,AI圈子有一个受到广泛关注的新闻。百度发布了ERNIE 2.0框架,用于持续学习。该模型在1.0版本的中文任务中完全超越了BERT,英语任务在16个中取得了新的突破。中英文任务超过了BERT和XLNet,实现了SOTA效果。

也许对于大多数AI技术追随者和AI开发人员来说,ERNIE 2.0最直接的价值在于该行业将获得强大的NLP模型,这是中国AI技术的另一个令人兴奋的结果。

除了成就,ERNIE 2.0背后的工业价值也不容忽视。特别是在当前的国际贸易和技术背景下,ERNIE 2.0所代表的无人监督的预训练语言模型处于非常关键的工业位置。

ERNIE 2.0和BERT以及XLNet的高峰背后是全球NLP行业的变革和对抗。

NLP的速度转变时代

让我们稍微回顾一下,看看BERT和ERNIE《芝麻街》中的朋友们如何成为整个AI行业的明星。

1564751087993428335.jpg

技术路径。它是关于代理如何理解人类语言和文字,以及理解人机智能交互的基础。这个领域的重要性是显而易见的,业界很兴奋,从去年年底到今天,NLP技术在全球范围内引发了“加速竞争”。

去年10月,谷歌发布了NLP模型BERT,这被认为是一个里程碑。该模型在非常大的数据集上使用预训练模式,该数据集刷新大量NLP数据集中的AI的最高分数。即使在机器阅读理解等任务中,它也表现出与人类相当的性能。

1564751088006193833.jpg

新的轨道。另一个好消息是BERT尚未进入统一模式。今年3月,百度发布了基于知识增强技术的NLP模型ERNIE,在几个中国NLP任务中超越了BERT。今年6月,Google和CMU提出NLP模型XLNet在20多项测试中排名第一。完全超越BERT; Facebook最近优化的新BERT收回了很多自己的记录。

此时,无人监督的预训练语言NLP模型已基本进入“三国杀戮”时代,其背后有谷歌和百度的一瞥,两大AI巨头的技术飞跃。

从产业价值的角度来看,基于大规模数据的无监督预训练语言模型正在追赶并不断刷新记录,为NLP技术应用带来了新的机遇。作为NLP问题的基本解决方案,这些模型将机器阅读理解,情感识别和文本分类等新任务提升到了一个新的水平。语音助理,在线客户服务,智能金融和对话机器人将受益于广泛的领域。

也许我们可以将这10个月内NLP的演变理解为加速转变。在语言智能领域,它刚刚经历了柴油换汽油的巨大变化,这是一个时代的页面。

在这个充满想象力的NLP时代,ERNIE 2.0就在这里。

ERNIE 2.0来自一把剑,巴别塔的战斗模式正在发生变化。

如上所述,今天的NLP赛车是顶级球员更新他们的AI记录的游戏。这是一个禁忌的口号。这场比赛发生在人类语言智能的巴别塔顶部。

刚刚发布的ERNIE 2.0实际上代表了这样一件事:在这场巅峰战中,百度赢得了此次活动的主动权。

自3月份ERNIE 1.0发布以来,百度在短短几个月内完成了ERNIE的升级,发布了用于持续学习的语义理解框架ERNIE 2.0,以及基于框架的ERNIE 2.0预训练模型。

总的来说,ERNIE 2.0不仅完成了令人耳目一新的创纪录性能,而且还解决了BERT长期受到业界批评的“伟大奇迹”问题。对计算能力和数据量的要求较少,使得无监督预处理语言模型更接近行业现实。总体而言,ERNIE 2.0在NLP舞台上闪耀着三种核心能力:

1,效果更佳:ERNIE英语任务实现了新的突破,共有16个中英文任务超越BERT和XLNet,实现了SOTA效果。在英语任务中,ERNIE 2.0在自然语言理解数据集GLUE的七个任务中击败了BERT和XLNet;在中文任务中,ERNIE 2.0超越了9种不同的数据集,包括阅读理解,情感分析,问答等.BERT和更新SOTA。可以说,在NLP领域的关键问题上,行业的前沿探索和突破得到了提升。

1564751087977937636.jpg

1564751087973136705.jpg

2,较小的数据:无人监督的预训练NLP模型,一直被业界视为数据越多,效果越好,有一个强大的奇迹。然而,ERNIE 2.0利用百度PaddlePaddle的多机分布式培训优势完成了79亿令牌数据的模型培训,相当于大约四分之一的XLNet数据。

3.较少的计算能力:无人监督的预训练语言模型的一个主要问题是计算能力太大而且训练时间太长,这导致工业化困难。 ERNIE 2.0在这一点上也表现出色,仅使用64个V100,大约是XLNet硬件计算能力的八分之一,并为开发人员提供了定制其NLP模型的解决方案。

ERNIE 2.0代表着在这个国际上引人注目的NLP比赛中,中国能源从未缺席。

AI并不缺席:中国能源在通往NLP的道路上

过去,我们始终认为中国在技术创新方面落后。中国的科技产业擅长模仿和塑造应用,但它往往缺乏基础研究和突破。然而,ERNIE 2.0证明了AI道路上的关键技术和关键主题,中国AI可以在第一时间参与并贡献自己的力量。人工智能时代不再缺乏中国技术。

在ERNIE 2.0和BERT和XLNet的赛车开发中,我们可以看到三层中国能源在业界闪耀。百度AI为世界AI行业带来了惊喜。

1.中国智慧:关于BERT最受批评的事情之一就是它使用庞大的数据集来打入模型,导致简单而粗鲁的效果。但在算法层面,缺乏创新。在ERNIE 2.0中,百度实现了可持续学习语义理解的能量。通过支持三级自定义预训练任务(如词法,句法和语义),可以全面捕获训练语料库中的潜在信息,如词汇,语法和语义信息。这些任务通过多任务学习训练和更新模型。每当引入新任务时,都可以学习任务而不会忘记之前学过的信息。

1564751087951267589.jpg

(ERNIE 2.0:可持续学习语义理解框架)

这意味着ERNIE 2.0可以通过不断构建训练预训练任务(包括词汇,句法和语义)来不断改进模型的效果。换句话说,ERNIE中国智慧的贡献刚刚在人工智能社区的前沿探索中发挥了作用,为全球人工智能技术的独特优势做出了贡献。

2.中国所在地:NLP的工业应用正在迅速发展。无监督的预训练语言模型被认为是在各种NLP应用中的骨干网络中,并且是下一代NLP技术的底层。如果这个位置被BERT完全卡住,或者完全被欧洲和美国公司所困,那么很容易出现潜在的技术卡颈问题。另一方面,BERT等模型并不擅长中文任务。从长远来看,NLP领域的英语应用可能会显着引领中国应用,影响工业流程。这是我们不想看到的。

ERNIE 2.0证明了中国在这一基础技术竞争中的地位已经确立。在百度AI的全力支持下,中国科技成为了一个领导者和探索者。

3.中国的速度:去年选择世界上最受推崇的AI新技术时,BERT和Graph Network占据了前两位。不难看出全球技术产业对BERT的重要性。然而,在过去的几个月里,中国有一个可以与BERT竞争甚至领先的NLP模型。这也反映了中国在人工智能时代的速度。

ERNIE 2.0可以用作水平轴,从中可以证明这个AI核心领域的基本算法。中国已经逐步跟上美国的速度,可以超越欧洲和美国顶级AI公司的算法。反向输出核心算法,以中国速度引领AI。百度的AI硬核查能力可以看出显示出恒定的加速特性。在今年的谷歌大会上,由于算法创新的弱点,它一直受到外界的批评。然而,百度已经抓住了这个问题并且正处于相反的趋势。中国的人工智能速度正在百度的算法中得到证明。

1564751087947265263.jpg

路在晚上没有铺好,但却被无数中国人工智能人员的努力所压缩。例如,在刚刚结束的ACL中,百度共有10篇论文被纳入会议。该研究领域涵盖了NLP领域的一些热门话题和前沿,展示了国际顶级技术积累。

在学术界和行业的不断突破背后,百度自2010年以来加速了NLP业务的发展。当人工智能技术在全球尚未普及时,它专注于NLP的尖端技术研究和工业应用。它培养了大量的行业AI人才,成为世界顶级研究机构的百度NLP部门。它被称为AI行业中的“铁军”。目前,百度脑语言和知识技术拥有最大的多语义知识地图和最佳的中文语义表示模型。目前,它可以提供30多种技术工具,包括文本审查,机器翻译,语言生成和许多其他功能。提供多样化,灵活且可定制的服务和方案解决方案。

可以看出,今天的成就背后是十年磨刀的技术探索和人才培养。百度,一把来自东方的剑,凝聚了NLP的艰苦工作,已经突破了十年。事实上,每当中国人工智能在世界的前线闪耀时,背后隐藏的故事或多或少都存在。