新闻

你的位置:开云(中国)kaiyun体育网址-登录入口 > 新闻 > 体育游戏app平台“出口转内销”地被关注到-开云(中国)kaiyun体育网址-登录入口


体育游戏app平台“出口转内销”地被关注到-开云(中国)kaiyun体育网址-登录入口

发布日期:2026-05-03 13:36    点击次数:133

转自知乎作家 张志强 蚂蚁Ling模子研发负责东说念主

蚂蚁开源大模子的低本钱磨真金不怕火细节,疑似曝光!

这段时辰,蚂蚁一篇时刻论文激励关注。论文中显现,他们推出的两款MoE大模子,或者在国产GPU上完成与同效的磨真金不怕火。一时辰,该讯息在时刻圈发酵,登上了热搜,以致还传出「磋议本钱低于DeepSeek」一些传奇。

当今,蚂蚁Ling模子研发负责东说念主意志强在上作出了复兴

他发布长文《对于咱们抠 FLOPS 的一些点滴》,共享了他们一些大模子磨真金不怕火的资格和资格。

包括磨真金不怕火正确性对都、Router TP(Tensor Parallelism)bug 开拓、磨真金不怕火康健性等问题的管理。

临了还复兴了外界对于他们本钱磋议的曲解,并暗示岂论是在 GPU 如故在国产加快卡上,LLM 的磨真金不怕火本钱优化都是无极端的。

Ling 的磨真金不怕火历程一定进度地阐发,在咱们作念的这些时刻发愤上,国产加快卡的磨真金不怕火本钱与 GPU 相等以致更低,同期不错保证 Loss 拘谨一模一样。

在不转换承诺的基础上,量子位作念了如下整理在此共享给巨匠,但愿能给巨匠带来一定的启发。

(量子位已获原作家授权)

对于咱们抠 FLOPS 的一些点滴

本周初始看到有媒体关注咱们团队的模子磨真金不怕火效果,其实月初咱们就在 GitHub 和 Hugging Face 上发布了 Ling 模子权重和时刻施展(https://arxiv.org/abs/2503.05139),名字就叫「EVERY FLOP COUNTS」,对于使用非 NVIDIA 加快卡集群磨真金不怕火 Ling 300B MoE 大模子的一些时刻细节。咱们的时刻施展被外媒记者发现了,“出口转内销”地被关注到。其实咱们底本就准备在月底的袖珍时刻沙龙上共享资格资格的,既然被关注到了,就来提前阐发一下吧。

从开源来,回社区去

即使如最近大热的 DeepSeek,也受限于算力问题进行了好多精彩的优化,对于咱们一线研发东说念主员来说,克服环境的礼貌等于责任。人所共知,和外洋的大模子团队比拟,中国团队濒临了更多的异构加快卡的挑战,咱们并不是第一家濒临异构问题的公司,比如智源有计划院就发起了 FlagScale 花式,研发面向异构加快卡的磨真金不怕火框架。有了开源社区,咱们不错愚弄同业们的前期探索当作责任的基础。相似,咱们的推行效果也回馈给社区,但愿不错匡助社区减少无谓要的重叠服务。蚂蚁在旧年开源 DLRover 花式(https://github.com/intelligent-machine-learning/dlrover),施展提到的轻量级聘请性追踪框架 XPUTimer 就集成在 DLRover 上,不错为不同算力平台上的大限制磨真金不怕火任务提供监控会诊功能。但愿这些对社区的回馈,不错给巨匠带来一些启发。

一些收货和资格资格

在写这份时刻施展时,咱们但愿共享 Ling 研发历程的一些关键 insight。Insight 不错是 novelty story,也不错是 bitter lesson。这里和巨匠聊聊咱们得到的一些资格。当作较早吃螃蟹的东说念主,共享这些资格并不是念念吐槽,仅仅但愿不错匡助其他同业逃避一些问题,天然也但愿不错促进国产加快卡的更快锻练。底下张开聊一聊几个我印象深切的 bitter lesson。

磨真金不怕火正确性对都

为了让大限制 MoE LLM 不错在多个算力平台上进行无缝切换磨真金不怕火,磨真金不怕火正确性对都是必不可少又极其繁琐的一个历程。对都有不同的圭臬,比如在不同平台磨真金不怕火都不错平淡拘谨是一个圭臬,而算子精度、磨真金不怕火框架、loss 统统对都又是另外一个圭臬。“很傻很生动”的咱们本着时刻问题应该知其然又知其是以然的信念,定下了一个相等严格圭臬,基础算子(除稳妥预期的精度舛误)统统对都 + 漫衍式磨真金不怕火框架前后向磋议统统对都 + 大限制磨真金不怕火长跑 loss 各异低于 0.1%,天然这也换来了无数个今夜 debug 的难忘体验。

真理的是,在作念正确性对都的历程中,咱们同步也在作念对于 scaling law 的有计划。咱们发现,通过贪图一个合理的外推拟合顺序,在不进行委果磨真金不怕火的情况下,一个尺寸较大(比如 20B、80B)的模子在郑重磨真金不怕火较万古辰(比如 2T token)后的 loss,不错被一系列 1B 以下的小尺寸模子的磨真金不怕火外推瞻望,其瞻望舛误低于 0.5%。这么看来,跨平台磨真金不怕火的 loss 各异低于 0.1% 其实是一个合理的条件。

在算子对都上,咱们将不同平台的基础算子进行了统统对都兑现,比如 matmul、linear 等。

Router TP(Tensor Parallelism)bug 开拓

在框架上,FSDP 向 MindSpeed(Megatron)对都引入 tensor parallelism 特点会导致一系列模子拘谨问题,尤其是在 MoE 有关的 router 部分相等严重。这里张开讲一下咱们的责任。

在 router 的前向磋议上,由于 sp(sequence parallel)在 Megatron 中对 router 的输入进行了切分,导致其输入并不齐备,因此在 router 有关 loss 磋议(包括 load_balance_loss 和 z_loss)时会迥殊使用 gather 操作将不同 sp rank 上的数据同步到整个,以进行齐备 batch 磋议。这个历程并莫得成心针对反向进行对应的 reduce 兑现,会导致回传梯度重叠,需要手动对 router 有关的 loss 整个进行放缩。值得扎眼的是该 bug 还是在 Megatron 0.7.0 版块开拓;那时 MindSpeed 撑捏到 0.6.0 版块,因此需要进行迥殊 patch 开拓。

在 router 的反向磋议上,Megatron 对 router 通过 gather 操作得回了齐备的 logits,而 MindSpeed 在后续的 permute/unpermute 操作中需要强制使用 local logits,因此迥殊进行一次 scatter 操作来进行切分,出现了 loss 不敛性问题。经过排查,咱们发现是 scatter_to_sequence_parallel_region在反向兑现中进行了一次 _gather_along_first_dim操作导致梯度比平淡梯度更大。最终咱们在每一次 scatter 操作之后添加了对应的 gradient_scale 兑现以保证梯度的正确性,从而粗糙 loss 拘谨的需求。

NormHead 迁徙

参考百川的磨真金不怕火资格,咱们也摄取了 NormHead 来保证磨真金不怕火的康健(天然初志是为了保证磨真金不怕火康健,关联词自后通过 scaling law 分析,咱们发现 NormHead 在 loss 上也会带来一些上风)。NormHead 从 FSDP 迁徙到多 D 并行的 MindSpeed/Megatron 上也遭逢了问题。FSDP 上的参数在逻辑上是莫得被切分的,因此 NormHead 的兑现相等浮浅高效,通过 Torch 原生自带的 torch.nn.functional.normalize 即可完成对 lm_head.weight 圭臬化操作。在 MindSpeed/Megatron 中,由于触及到了多 D 并行,因此需要修改 NormHead 的兑现顺序进行适配。最径直浮浅的决策等于趋附 torch.nn.functional.normalize 的骨子磋议历程,将腹地设备上的 lm_head.weight 先进行圭臬化磋议,临了使用 reduce 对圭臬化后的 lm_head.weight 值进行同步。缺憾的是咱们发现这么兑现无法保证 loss 拘谨,分析其原因主若是由于在不同机器上进行数据同步摄取 Megatron.core.tensor_parallel.mappings._ReduceFromModelParallelRegion,而该决策莫得在反向传播历程中兑现对应的梯度同步,最终导致 loss 上涨;于是咱们重写了一版_ReduceFromModelParallelRegionForNormHead并兑现了对应的反向以保证loss拘谨。另一方面,国产加快卡的某些算子可能不撑捏 BF16 磋议,而 FP32 的算子磋议服从远低于 BF16 算子,为了沉溺在多 D 并行中窒碍住模子的举座磋议,需要对 NormHead 性能进行优化。咱们贪图了基于 all2all 通讯的 NormHead 兑现以及 HeadNormCache 等决策,以在国产加快卡上达到更优的磋议服从。

磨真金不怕火康健性

与 GPU 比拟,国产加快卡在康健性上确乎存在不少问题,不时会遭逢由于机器不康健带来的 loss 以及 grad 极端,从而激励尖刺,影响模子的拘谨历程。为了缓解这些问题,咱们贪图了两种不同的尖刺处理机制。

对于 loss 尖刺,咱们会把历史最近的一部分 loss 当作参考,如果面前 loss 与参考的历史 loss 均值比拟有昭着的上涨,咱们就会跳过这一步的磨真金不怕火径直初始下一步,或径直缩小这一步的学习率来减少影响。这种顺序在大无数情况下是灵验的,不错很好地缓解磨真金不怕火不康健问题。

但咱们在实验不雅察中发现,loss 尖刺处理机制并不成管理扫数的磨真金不怕火不康健问题,因为 loss 是模子磨真金不怕火历程的一个很宏不雅的阐扬,模子的景色在 loss 产生尖刺之前可能还是出现了不康健。Grad 会径直作用于模子参数,对其监控比拟于 loss 愈加赶紧,因此咱们也开发了 grad 尖刺处理机制。参考 loss 尖刺的兑现,咱们在自研的 ATorch 框架中对扫数的 _ParamAndGradBuffer 进行处理,从而兑现对模子 grad 的监控。如果 grad 出现极端就跳过这一步磨真金不怕火。通过 grad+loss 尖刺处理机制,不错自动处理大部分的 loss 极端。

本钱的磋议

此次巨匠的一些曲解也源于对本钱磋议的形状,其实咱们在本钱磋议上使用了学术界比较通行的磋议顺序,这里也浮浅先容一下。

凭据在不同平台上对 Ling-Plus 的委果磨真金不怕火记载,咱们不错不雅察到某个平台在 K 张加快卡上捏续一段时辰(比如一周)的 token 数,再凭据时刻施展表 1 上提到的不同加快卡的单元时辰本钱,就不错很浮浅地磋议出对应平台上磨真金不怕火单元 token 量(施展里以 1 万亿 token 为单元)的本钱。

表1:AI加快器特点与单元本钱(估算)

事实上,岂论是在 GPU 如故在国产加快卡上,LLM 的磨真金不怕火本钱优化都是无极端的。Ling 的磨真金不怕火历程一定进度地阐发,在咱们作念的这些时刻发愤上,国产加快卡上的磨真金不怕火本钱与 GPU 相等以致更低,同期不错保证 loss 拘谨一模一样。

改日的责任

Ling 模子的发布仅仅咱们责任的一个里程碑,后续咱们还会进一步更正我方的责任。DeepSeek 为咱们对磨真金不怕火经济性的擢升带来了启发,DeepSeek 在磨真金不怕火中使用了 FP8 讲解了这么的低精度浮点数是不错磨真金不怕火出来优秀的大模子的;相似咱们昆玉团队基于强化学习的 AReaL(https://github.com/inclusionAI/AReaL)也开源了,强化学习亦然通往 AGI 之路的清贫一环。咱们后续的更多责任也会不时开源在 inclusionAI org(https://huggingface.co/inclusionAI)里。

每个 AI 研发工程师都敬佩 AGI 必将到来。咱们敬佩 AGI 一定是普惠巨匠的,感谢巨匠的柔和,期待改日的责任也能受到捏续关注。

知乎贯穿:https://zhuanlan.zhihu.com/p/1888526583813350974



上一篇:开云(中国)kaiyun网页版登录入口但离实质诈骗还有一段距离-开云(中国)kaiyun体育网址-登录入口
下一篇:开yun体育网崇拜开启了新能源汽车\"四电\"期间-开云(中国)kaiyun体育网址-登录入口

Powered by 开云(中国)kaiyun体育网址-登录入口 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024