机器之心史上最大AI模型GPT-3上线;Transformer跨界做目标检测( 四 )


机器之心史上最大AI模型GPT-3上线;Transformer跨界做目标检测
本文插图
GPT-3 生成新闻示例 。
机器之心史上最大AI模型GPT-3上线;Transformer跨界做目标检测
本文插图
人类对 GPT-3 175B 模型生成的约 500 词文章的判断准确率为 52% , 不过相比于 GPT-3 control 模型(没有语境和不断增加的输出随机性且只具备 1.6 亿参数的模型) , GPT-3 175B 生成的文本质量要高得多 。
机器之心史上最大AI模型GPT-3上线;Transformer跨界做目标检测
本文插图
OpenAI 研究人员在以上 10 项任务中测试了 GPT-3 做简单计算的能力 , 且无需任何任务特定的训练 。
OpenAI 在多项任务中对 GPT-3 的性能进行了测试 , 包括语言建模、补全、问答、翻译、常识推理、SuperGLUE 等任务 。
推荐:包含 1750 亿参数 , GPT-3 成为史上最大 AI 模型 , 不仅会写文章、答题 , 还懂数学 。
论文 7:PyChain: A Fully Parallelized PyTorch Implementation of LF-MMI for End-to-End ASR
作者:Yiwen Shao、Yiming Wang、Daniel Povey、Sanjeev Khudanpur
论文链接:https://arxiv.org/pdf/2005.09824.pdf
摘要:在本文中 , 来自约翰霍普金斯大学和小米的研究者(Daniel Povey)提出了 PyChain , 对于 Kaldi 自动语音识别(automatic speech recognition, ASR)工具包中链式模型的端到端无网格最大交互信息(lattice-free maximum mutual information, LF-MMI)训练 , PyChain 可以实现完全并行化 PyTorch 实现 。
与其他基于 PyTorch 和 Kaldi 的 ASR 工具包不同 , PyChain 在设计上尽可能轻巧灵活 , 这样可以轻松地插入新的 ASR 项目或者其他基于 PyTorch 的 ASR 工具 。 PyChain 的效率和灵活性体现在以下这些新特征上 , 如在分子/分母图上的完全 GPU 训练以及对不规则长度序列的支持 。
利用本研究中 PyChain 做端到端 LF-MMI 训练的 pipeline 。
PyChain 模块组成 。
算法 1:前向算法 。
数据增强下各模型的 WER(%) 结果对比 。
推荐:在 WSJ 数据集上的实验表明 , 利用简单的神经网络和常用的机器学习方法 , PyChain 可以实现媲美 Kaldi 甚至优于其他端到端 ASR 系统的结果 。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation , 在 7 Papers 的基础上 , 精选本周更多重要论文 , 包括NLP、CV、ML领域各10篇精选 , 并提供音频形式的论文摘要简介 , 详情如下:
本周 10 篇 NLP 精选论文是:
1. Language Models are Few-Shot Learners. (from Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child等)
2. Verification and Validation of Convex Optimization Algorithms for Model Predictive Control. (from Rapha?l Cohen, Eric Féron, Pierre-Lo?c Garoche)
3. Counterfactual Detection meets Transfer Learning. (from Kelechi Nwaike, Licheng Jiaoo)
4. T-RECS: a Transformer-based Recommender Generating Textual Explanations and Integrating Unsupervised Language-based Critiquing. (from Diego Antognini, Claudiu Musat, Boi Faltings)
5. Syntactic Structure Distillation Pretraining For Bidirectional Encoders. (from Adhiguna Kuncoro, Lingpeng Kong, Daniel Fried, Dani Yogatama, Laura Rimell, Chris Dyer, Phil Blunsom)


推荐阅读