|预训练语言模型:还能走多远?
本文插图
作者 | 戚路北
编辑 | 青暮
以 BERT 和 GPT 为代表的预训练语言模型自从 2017 年提出以来取得了巨大的成功 , 改变了整个自然语言 处理的面貌 , 几乎刷新了所有自然语言处理任务的成绩 , 而且在工业界也开始获得广泛的应用 , 其影响甚至远远超出了 NLP 的范围 。
最近新出现的 GPT-3 模型更是表现出了惊人的能力 , 似乎再一次印证了“大力出奇迹” 这样一个道理 。
在10月23日 , 由华为诺亚方舟实验室首席科学家刘群主持的CNCC论坛《预训练语言模型:还能走多远?》上 , 微软亚研自然语言计算组首席研究员韦福如、复旦大学计算机科学技术学院教授邱锡鹏、百度自然语言处理部杰出架构师孙宇、华为诺亚方舟实验室研究员尚利峰 , 作为学术界和工业界在这一领域的代表 , 探讨了预训练语言模型所面临的问题和发展趋势 。
刘群是自然语言处理和机器翻译领域的国际著名专家 , 研究方向包括多语言信息处理、机器翻译模型、方法与评价等 。 2012 年 7 月之前 , 刘群是中国科学院计算技术研究所的研究员和自然语言处理研究组负责人 。 2012 年 7 至 2018 年 6 月 , 刘群任都柏林城市大学教授、爱尔兰 ADAPT 研究中心(前身 CNGL 研究中心)自然语言处理主题负责人 。
2018 年 7 月开始 , 他正式加入华为诺亚方舟实验室 , 任语音语义首席科学家 , 主导语音和自然语言处理领域的前沿研究和技术创新 , 除了语音、对话、翻译、多模态以外 , 其实验室也在重点布局预训练语言模型 。
在论坛中 , 专家们讨论的话题包括但不限于:预训练语言模型还能给我们带来哪些惊喜?“大力出奇迹” 这条路还能继续下去吗?预训练语言模型还有哪些潜在的突破口?预训练语言模型亟待解决的问题有哪些?在最后的讨论环节 , 众专家将围绕这些话题进行讨论 。
韦福如对现有的语言模型预训练工作进行总结和比较 , 然后介绍面向自然语言理解和生成任务的统一预训练语言模型 UniLM 以及多语言预训练模型 InfoXLM(演讲内容请观看CNCC回放视频) 。
邱锡鹏总结了预训练语言模型目前的一些改进方向 , 包括迁移方法、知识嵌入、多模态、跨语言、特定领域等 。
孙宇分享了百度文心 (ERNIE) 在预训练语言模型方面的技术创新及产业应用方面的进展 。
尚利峰主要介绍华为诺亚方舟实验室语音语义团队在预训练语言模型方向上的研究和商业化探索 。
以下是论坛全文 , AI科技评论进行了不改变原意的整理 。
1 邱锡鹏:预训练语言模型的发展畅享
我谈一点预训练语言模型的未来发展畅想 , 聊聊预训练模型里面还有哪些东西是需要深入思考的 。
本文插图
预训练语言模型的主要架构如上图所示 , 先把词向量化 , 然后经过一个上下文的编码器 , 得到每个词的上下文相关表示 , 即上下文embedding , 最后输入到特定任务的模型当中去预测 。
我们现在知道 , 一个非常好的上下文Encoder能够大幅度简化下游任务特定模型的复杂度 。 换言之就是表示学的越好 , 下游任务越简单 。
为了得到更好的上下文表示 , 我们需要思考 , 要学习一个好的语言表示需要考虑什么因素 。
本文插图
首先从最宏观的认知层面看 , 语言就是一个符号 , 在人脑中它代表某种信息 。 我们需要考虑它隐含的东西是什么?如何把它表示出来?比如如何设计常识或者知识?
第二个就是模型层面 , 即模型驱动 , 如何设计出更适合自然语言的编码器 。
推荐阅读
- 超能网|亚马逊转用自家芯片进行人工智能训练,只剩少量程序仍然以显卡来训练
- 富前程社群裂变|富船长:Persona用户角色模型——一个找痛点神器
- |近期必读 ICLR 2021 模型压缩&预训练相关论文
- |甘肃消防探智慧建设:智能辅助作战训练 管理延伸细节末端
- |新模型揭示:餐馆是感染新冠“热点”场所
- |“增长”成娱乐营销必考题,酷营销-CBD模型为最佳选项?
- 大河风光|知乎带货实战训练营线上第2期,教您知乎带货,月收益几千到几万(无水印)
- 向奋科技说资讯|用了5年华为手机才发现,原来华为能当翻译器,一键翻译多国语言
- 技术编程,AI人工智能|性能超越图神经网络,将标签传递和简单模型结合实现SOTA
- |ImageNet训练再创纪录,EfficientNet异军突起,ResNet:感受到了威胁