一天star量破千,特斯拉AI总监写了个GPT的Pytorch训练库( 二 )
本文插图
minGPT 是如何实现的?
在实现过程中 , Karpathy 参考了 OpenAI GPT 官方项目 , 以及其他组织的示例等 。
代码
- OpenAI gpt-2 项目提供了模型 , 但没有提供训练代码(https://github.com/openai/gpt-2);
- OpenAI 的 image-gpt 库在其代码中进行了一些类似于 GPT-3 的更改 , 是一份不错的参考(https://github.com/openai/image-gpt);
- Huggingface 的 transformers 项目提供了一个语言建模示例 。 它功能齐全 , 但跟踪起来有点困难 。 (https://github.com/huggingface/transformers/tree/master/examples/language-modeling)
此外 , 项目作者还介绍了相关的论文和实现细节 。
1. GPT-1:《Improving Language Understanding by Generative Pre-Training》
- 论文地址:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf
本文插图
2. GPT-2:《Language Models are Unsupervised Multitask Learners》
- 论文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
本文插图
3. GPT-3:《Language Models are Few-Shot Learners》
- 论文地址:https://arxiv.org/pdf/2005.14165.pdf
本文插图
Andrej Karpathy 其人
Andrej Karpathy 是计算机视觉、生成式模型与强化学习领域的研究者 , 博士期间师从斯坦福大学计算机科学系教授李飞飞 。 读博期间 , 他曾两次在谷歌实习 , 研究在 Youtube 视频上的大规模特征学习 。 此外 , 他还和李飞飞等人一起设计、教授了斯坦福经典课程 CS231n 。
本文插图
2016 年 , Karpathy 加入 OpenAI 担任研究科学家 。 2017 年 , 他加入特斯拉担任人工智能与自动驾驶视觉总监 。 如今 , Karpathy 已经升任特斯拉 AI 高级总监 。 他所在的团队负责特斯拉自动驾驶系统 Autopilot 所有神经网络的设计 , 包括数据收集、神经网络训练及其在特斯拉定制芯片上的部署 。
和教授 CS231n 时一样 , Karpathy 希望他利用业余时间做的这个 minGPT 也能有一定的教育意义 。 他这种化繁为简的举动得到了众多社区成员的赞赏:
推荐阅读
- 大潮网|浙江19岁女大学生肚子一天天隆起!检查结果让她慌了,医生:立即手术
- 大方县|“大方县拖欠教师工资补贴4.7亿”被曝光前两天,教师一天收到3笔钱
- 晨株洲|炎陵为何赢得这么多投资商青睐,一天签约28个项目
- 娱乐青丝|刘备有了统一天下的实力,可关羽使他的努力付诸东流,汉中之战后
- 英雄联盟|余霜分手后开启奔放模式,一天连晒N组自拍,网友直呼太美了!
- 疯狂搞笑每一天|终于喝上了免费的可乐!,搞笑GIF趣图:跟了200公里
- 刑事责任|起底\纸面服刑\15年杀人犯:判刑后没坐一天牢,\出狱\摇身一变当村官
- 一天一个故事|玩家爆料至少还有三局,网友演职业第一人,心态演员事件再发酵
- 郭乐乐|被封杀的五位网红,第1位是活该,第2位太骚气,第5位只火了一天
- 小鱼段子手|小明约了两个朋友一起到公园的湖里,一天
