蚂蚁集团,突传重磅!

2025-03-24 21:50:26 21综合

3月24日,据悉,蚂蚁集团使用国产芯片开发了一种训练人工智能模型的技术,可将成本降低20%。

据中国基金报报道,知情人士称,蚂蚁集团采用了国产芯片,基于所谓的“专家混合”(Mixture of Experts)机器学习方法来训练模型。该公司取得的效果与英伟达H800等芯片的结果相当。

蚂蚁集团,AI重大突破!

据证券时报报道,蚂蚁集团Ling团队的技术成果论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》已发表在预印版Arxiv平台上。

据技术成果论文,虽然DeepSeek、阿里通义千问、MiniMax等系列的MoE大模型在特定任务中展现出卓越性能,但是MoE模型的训练通常依赖高性能计算资源(如英伟达H100/H800等先进GPU),高昂成本制约了在资源受限环境中的普及应用。同时,近年来英伟达高性能芯片持续短缺,相比之下,低性能加速器供应更充足且单机成本更低。这种差异凸显了构建跨异构计算单元与分布式集群无缝切换技术框架的必要性。

因此,Ling团队设定的目标是“不使用高级GPU”来扩展模型,并通过提出创新性的训练策略,旨在突破资源与预算限制实现高效大语言模型训练,从而推动AI技术向普惠化方向发展。

具体而言,团队提出的创新策略包括:1)架构与训练策略革新:动态参数分配与混合精度调度技术;2)训练异常处理机制升级:自适应容错恢复系统缩短中断响应时间;3)模型评估流程优化:自动化评测框架压缩验证周期超50%;4)工具调用能力突破:基于知识图谱的指令微调提升复杂任务执行精度。

据技术论文,Ling团队在五种不同的硬件配置上对9万亿个token进行Ling-Plus的预训练,其中使用高性能硬件配置训练1万亿token的预训练成本约为635万元人民币,但利用蚂蚁的优化方法后,使用低规格硬件的训练成本将降至508万元左右,节省了近20%,最终实现与阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当的性能。

此前,DeepSeek通过一系列算法创新及工程优化,使用性能较低的英伟达H800训练出了性能与顶尖模型相当的V3与R1,为大模型的训练开辟了新的道路,让更多的企业和研究机构看到了降低成本、提高效率的可能性。如果蚂蚁集团的技术成果得到验证及推广,意味着国产大模型能够寻找成本更低、效率更高的国产芯片或其他替代方案,以进一步降低对英伟达芯片的依赖。

蚂蚁集团最新回应

据中国基金报报道,有分析指出,MoE模型的训练通常依赖于如英伟达所售GPU这类高性能芯片,这使得训练成本对许多中小企业而言过于高昂,限制了更广泛的应用。蚂蚁集团一直在致力于提高大语言模型的训练效率,并突破这一限制。从其论文标题即可看出,该公司将目标定为“在无需高端GPU的情况下扩展模型规模”。

这一方向与英伟达的战略背道而驰。英伟达首席执行官黄仁勋曾表示,即便更高效的模型(如DeepSeek的R1)出现,对计算力的需求仍会持续增长,企业要实现更多营收将依赖更强大的芯片,而非通过更便宜的芯片来削减成本。他坚持打造具备更多处理核心、更高晶体管数量和更大内存容量的大型GPU的战略。

有分析称,蚂蚁集团的研究论文凸显出中国AI领域技术创新和发展速度的加快。如果其研究成果属实,这将表明中国在人工智能领域正逐步走向自主可控,特别是在寻求成本更低、计算效率更高的模型架构来应对英伟达芯片出口限制的背景下。

针对此事,3月24日蚂蚁集团回应称,蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开源分享。

本文综合自21财经客户端、证券时报、中国基金报

21财经客户端下载