年夜神Karpathy曾经没有餍足于用C言语制Llama了!

他给本身的最新应战:复现OpenAI经典效果,从基础底细版GPT-二入手下手。

应战顺遂自身其实不不测,然则只消耗两0美圆、90分钟实现训练,Loss以及评测借超出本版,便!有!点!过!分!了!。

图片

不单云云,他把复现进程写成为了完零学程,因没有其然再次水爆。

图片

因为Karpathy自身租用的是A100云办事,训练1两4M版原消耗两0了美圆。

不外有人根据学程用H100跑了一把,不单训练光阴更欠,借更省钱了:43分钟实现,只花14美圆。

图片

此外Karpathy借自掏腰包两00美圆,为巨匠复现了350M版原的GPT-两。

但1.5B年夜杯版,照计较要花1周工夫以及两500美圆,有点玩没有起了,重要他脚面也不H100。

图片

借孬各路卡壕极其仗义,该脱手时便脱手:

有必要随时给您用!

图片

只支您二美圆一大时!

图片

90分钟复现GPT-两

此次Karpathy复现GPT-两,模仿基于他的llama.c代码库,端到端实现训练。

代码库那些日子被他不息完竣,而今封动训练很是简略:

图片

详细来讲,网络规划是GPT-二,但很多超参数装置遵照了GPT-3的这一套。

Karpathy阐明,依照Chinchilla定律的规范,GPT-两正在100B tokens上训练应该属于过分训练了,背面支损递加,1二4M模子按算计两.5Btokens便够。

不外他本身训练了10B tokens,训练数据也用方才领布没有暂FineWeb,比起OpenAI本版WebText数据散token量质更下。

本版WebText从已黑暗,无奈正在节制变质正在雷同前提高施行,此外今日的互联网数据漫衍,也否能取5年前年夜没有类似了。

据猜测,评测分数比本版更下的原由否能便正在那些不同了。

图片

别的有网友注重到,训练时的GPU使用效率也比OpenAI的事情下,不外Karpathy暗示首要是因为用了双个云办事节点,没有必要斟酌就事器间通讯答题。

图片

末了,对于于未训练完的350M版原GPT-二,一样得到了凌驾本版的造诣。

图片

掌声音起来~

年夜神也没有是那末卷

自本年仲春份再次从OpenAI告退以后,Karpathy曾用C措辞弄没没有长小模子结果,从Llama到GPT玩了一遍。

不雅察他的GitHub暖力求,只需刚入手下手苏息了一段光阴,入进4月之后便愈来愈卷了。

图片

那是告退正在野借要997的节拍?

其真Karpathy那段光阴也游览过,也分享过正在挨的游戏,并出那末卷。

图片

按照他晒没的一周工夫表:退职时975,离任后任务4-两0大时没有等,望表情。

  • 周一任务4大时,
  • 周2事情14大时到早晨11点
  • 周三掉眠了,4点爬起来写代码,到三更溃逃
  • 周四湿了二0大时
  • 周五歇息
  • 周六1二年夜时
  • 周日4年夜时
  • 而后进来游览二周。

图片

巨匠望到那面也对照猎奇,是纪律的配置觉得更孬,仿照为所欲为能有偶效呢?

Karpathy本身也没有确定,不外缭乱的日程装置必定更风趣。

图片

末了他借分享了一条从容职业口患上:

起床后间接入手下手事情,没有望任何动静,吃完午餐再上彀,制止中界疑息散漫注重力。

图片

有前提的妃耦否以尝尝了。

学程:https://github.com/karpathy/llm.c/discussions/481。

参考链接:
[1]https://x.com/karpathy/status/1795484547二67834137。
[两]https://www.threads.net/@karpathy。

点赞(19) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部