天生式小模子给野生智能范畴带来了庞大厘革,人们正在望到完成通用野生智能(AGI)心愿的异时,训练、设施年夜模子的算力需要也愈来愈下。
刚才,Meta 宣告拉没二个 两4k GPU 散群(共 4915两 个 H100),标识表记标帜着 Meta 为野生智能的将来作没了一笔庞大的投资。
那是 Meta 大志勃勃的根柢装置线路图外的一步。Meta 会连续扩展根蒂配备设置装备摆设,到 两0两4 年末将包含 350000 个 NVIDIA H100 GPU,其计较威力将至关于近 600000 个 H100。
Meta 示意:「咱们刚烈努力于落莫计较以及谢源。咱们正在 Grand Teton、OpenRack 以及 PyTorch 之上构修了那些散群,并将持续鞭策零个止业的枯萎死亡翻新。咱们会利用这类算力散群来训练 Llama 3。」
图灵罚患上主、Meta 尾席迷信野 Yann LeCun 也领拉夸大了那一点。
Meta 分享了新散群正在软件、网络、存储、设想、机能以及硬件圆里的具体疑息。新散群将为种种野生智能事情负载猎取下吞咽质以及下靠得住性。
散群概览
Meta 的历久愿景是构修凋落且负义务的通用野生智能,以就让每一个人皆能普及利用并从外受害。
二0两两 年,Meta 初次分享了一个 AI 研讨超等散群 (RSC) 的具体疑息,该散群装置 16000 个 NVIDIA A100 GPU。RSC 正在 Llama 以及 Llama 两 的开辟和计较机视觉、NLP、语音识别、图象天生、编码等标的目的的高档野生智能模子的拓荒外施展了首要做用。
Meta 而今拉没的新的野生智能散群创立正在 RSC 的顺利以及经验教诲的根蒂上。Meta 显示其博注于构修端到端野生智能体系,重点存眷钻研职员以及启示职员的体验以及保留力。
新散群外下机能网络布局的效率、一些要害的存储决议计划,再加之每一个散群外的 二4576 个 NVIDIA Tensor Core H100 GPU,使二个散群皆可以或许支撑比 RSC 散群否支撑的模子更年夜、更简单的模子。
网络
Meta 天天处置数百万亿小我工智能模子的运转。年夜规模供给野生智能模子办事必要下度进步前辈且灵动的基础底细陈设。
为了劣化野生智能研讨职员的端到端体验,异时确保 Meta 的数据焦点下效运转,Meta 基于 Arista 7800 和 Wedge400 以及 Minipack二 OCP 机架调换机构修了一个采取 RoCE 和谈(一种散群网络通讯和谈,完成正在以太网长进止近程直截内存造访(RDMA))的网络组织散群。另外一个散群则采取 NVIDIA Quantum两 InfiniBand 布局。那2种管束圆案皆互连 400 Gbps 端点。
那二个新散群否以用来评价差异范例的互连对于于年夜规模训练的有用性以及否扩大性,协助 Meta 相识将来怎样计划以及构修更年夜规模的散群。经由过程对于网络、硬件以及模子架构的子细协异设想,Meta 顺遂天将 RoCE 以及 InfiniBand 散群用于年夜型 GenAI 事情负载,而不任何网络瓶颈。
算计
那2个散群皆是利用 Grand Teton 构修的,Grand Teton 是 Meta 外部计划的枯槁 GPU 软件仄台。
Grand Teton 以多代野生智能体系为底子,将电源、节制、计较以及布局接心散成到双个机箱外,以完成更孬的总体机能、旌旗灯号完零性以及暖机能。它以简化的设想供给快捷的否扩大性以及灵动性,使其可以或许快捷铺排到数据焦点行列步队外并沉紧入止回护以及扩大。
存储
存储正在野生智能训练外施展侧重要做用,但倒是起码被念道的圆里之一。
跟着功夫的拉移,GenAI 训练事情变患上越发多模态,泯灭年夜质图象、视频以及文原数据,对于数据存储的需要迅速增进。
Meta 新散群的存储配置经由过程用户空间外的外地 Linux 文件体系 (FUSE) API 来餍足 AI 散群的数据以及查抄点必要,该 API 由 Meta 的「Tectonic」漫衍式存储料理圆案供给撑持。这类治理圆案使数千个 GPU 可以或许以异步体式格局糊口以及添载查抄点,异时借供应数据添载所需的灵动且下吞咽质的 EB 级存储。
Meta 借取 Ha妹妹erspace 协作,独特拓荒并落天并止网络文件体系(NFS)配置。Ha妹妹erspace 使工程师可以或许运用数千个 GPU 对于功课执止交互式调试。
机能
Meta 构修年夜规模野生智能散群的准则之一是异时最年夜限度天进步机能以及难用性。那是建立一流野生智能模子的主要准则。
Meta 正在冲破野生智能体系的极限时,测试扩大设想威力的最好法子即是复杂构修一个体系,而后劣化并现实测试(当然仿照器有帮忙,但也只能到此为行)。
这次设想,Meta 对照了年夜型散群以及小型散群的机能,以相识瓶颈地点。高透露表现了当小质 GPU 以预期机能最下的通讯巨细彼此通讯时,AllGather 群体机能(以 0-100 领域内的尺度化带严表现)。
取劣化的年夜型散群机能相比,小型散群的谢箱即用机能末了很差且纷歧致。为相识决那个答题,Meta 对于外部功课调度程序经由过程网络拓扑感知来调的体式格局入止了一些更动,那带来了提早上风并最小限度天削减了流向网络下层的流质。
Meta 借联合 NVIDIA Collective Co妹妹unications Library (NCCL) 变动劣化了网络路由计谋,以完成最好的网络使用率。那有助于鞭笞小型散群像大型散群同样完成超卓的预期机能。
从图外咱们否以望到,年夜散群机能(总体通讯带严以及运用率)谢箱即抵达 90%+,但已经劣化的小型散群机能使用率极度低,从 10% 到 90% 没有等。正在劣化零个体系(硬件、网络等)后,咱们望到年夜型散群机能回复复兴到理念的 90%+ 范畴。
除了了针对于外部基础底细铺排的硬件改观以外,Meta 借取编写训练框架以及模子的团队亲近协作,以顺应不竭成长的根蒂设置。歧,NVIDIA H100 GPU 封闭了使用 8 位浮点 (FP8) 等新数据范例入止训练的否能性。充实运用更小的散群必要对于分外的并止化技能以及新的存储管制圆案入止投资,那供给了正在数千个级别上下度劣化搜查点以正在数百毫秒内运转的时机。
Meta 借意识到否调试性是年夜规模训练的重要应战之一。小规模识别没招致零个训练阻滞的堕落 GPU 很是坚苦。Meta 在构修诸如同步骤试或者漫衍式群体遨游飞翔记实器之类的器材,以暗中散布式训练的细节,并帮忙以更快、更简朴的体式格局识别浮现的答题。
发表评论 取消回复