首页 > 商业 > 正文

英伟达市值蒸发破纪录 DeepSeek“连招”重新定义AI

2025-01-28 18:03:29 21世纪经济报道 21财经APP 倪雨晴

21世纪经济报道记者倪雨晴 深圳报道

2025年,AI的开局无疑令人振奋。

中国AI初创公司DeepSeek正掀起新的AI变革,热潮燃至除夕夜。1月28日凌晨,DeepSeek深夜出招,发布开源多模态人工智能模型Janus-Pro,宣布在GenEval和DPG-Bench基准测试中击败DALL-E 3和Stable Diffusion。

一周前,DeepSeek刚刚发布了AI推理大模型R1,不亚于OpenAI o1的高性能、训练的极低成本直接“震动”了全球AI市场,本周一度登顶苹果免费APP排行榜首位。

热度攀升的同时,大洋彼岸,DeepSeek在华尔街、AI界引发蝴蝶效应。圈内外激辩AI泡沫和价值,股市的风暴率先来临。

美东时间1月17日收盘,英伟达下跌16.86%,市值一夜蒸发5888.62亿美元(约合人民币4.27万亿元),创下美股历史上最大单日个股蒸发规模;博通大跌17.40%、台积电下跌13.33%,两者的市值都回落到1万亿美元以下;此外,美光科技下跌11.71%、AMD下跌6.37%。

面对剧烈的股价波动和DeepSeek的发展,1月28日,英伟达向21世纪经济报道记者回应道:“DeepSeek是一项卓越的人工智能进展,也是测试时扩展的绝佳范例。DeepSeek的研究展示了如何运用该技术,借助广泛可用的模型以及完全符合出口管制规定的算力,创建新模型。推理过程需要大量NVIDIA GPU和高性能网络。如今我们有三条扩展定律:持续适用的预训练和后训练定律,以及新的测试时扩展定律。”

在回应中,英伟达肯定了DeepSeek在AI领域的进步,澄清了出售的GPU芯片是合规的,并表示GPU还将有大量需求。短期内,以英伟达为首的算力产业链在猛涨后有回调受挫压力,长期对于AI前景的展望还要动态观察。

同时值得注意的是,此次暴跌的集中地主要在AI算力板块,或者说AI芯片的上下游领域,互联网等软件大厂微跌甚至有所上涨。比如,微软仅下跌2.14%,而亚马逊微涨0.24%、Meta上涨1.91%,Salesforce上涨3.96%。

从中能看到的趋势是,AI要素三角——算法、算力、数据当中,算力面临价值重估挑战。DeepSeek在算力制约下另辟蹊径,用算法进化和高质量数据,一定程度上冲击着芯片巨头们的算力壁垒。另一方面,大模型训练成本、推理成本的下降,未来将加速催化AI应用的爆发,软件在重生、新的软硬件体系也在重构,一起把AI蛋糕做大,方能促进整体市场的繁荣。

DeepSeek“奇袭”算力壁垒

近期,DeepSeek被冠上了不少标签,“英伟达算力大空头”“来自东方的神秘力量”“AI的斯普特尼克时刻”“AI界拼多多”“AI界SpaceX”等,已然成为AI界创业新星。

DeepSeek最广为传播的突破就在于效率和成本。公开信息显示,2024年底,DeepSeek-V3开源基础模型发布后,性能对标GPT-4o,训练成本只有2048块英伟达H800,总花费约557.6万美元。

同样是开源模型,Meta的Llama 3.1训练使用了16384块英伟达H100 GPU,GPT-4o模型的训练成本约为1亿美元,使用的英伟达GPU也在万块以上。

上万的加速卡曾经是训练的常规门槛,但是DeepSeek正在打破常规。R1的训练成本尚未可知,但是API定价远低于OpenAI o1,R1每百万输入tokens在1~4元人民币,每百万输出tokens为16元人民币。OpenAI在前两年一枝独秀后,迎来更多的劲敌。

最新的DeepSeek Janus-Pro公布后,OpenAI的CEO Sam Altman也忍不住对DeepSeek进行了评论,并剧透发布新品。

1月28日上午,Sam Altman在社交平台上表示:“Deepseek的R1是一个令人印象深刻的模型,尤其是考虑到性价比。我们显然会推出更好的模型,而且看到一个新的竞争者真是令人振奋!我们将发布一些新版本。

不过最让我们兴奋的还是能够继续推进我们的研究路线图,我们相信,现如今比以往任何时候都更加需要计算力让我们的使命成功。全球将会大量使用人工智能,下一代模型也将令人惊叹,期待将AGI以及更多技术带给大家。”

首先,从大模型横向对比看,开源的力量正在放大,事实上在2024年,DeepSeek已经凭借V2开源模型的高性价比一战成名,国内的公司纷纷跟进降价,到了2025年,战火也蔓延到全球AI企业。

同时,当前更受关注的是,业内人士认为,DeepSeek R1的成功可能会削弱英伟达等AI芯片需求的预期。与其他创业公司、科技巨头相比,DeepSeek既然能以更低的算力成本提供高计算性能的大模型,在不使用大量最尖端芯片的情况下,也有机会突破壁垒。

因此,也引发了业界对算力巨额投资的质疑,可以说,DeepSeek戳破大模型高成本的现状,算力的比重和角色正在发生变化。尤其是到了推理时代,异构计算的结构配比,又将发生变化。所以我们看到,不光是英伟达,博通、AMD等一同股价下跌,尤其是英伟达狂飙的增速或面临下滑。

近期,英伟达经历了多次股价波动,下滑的因素是多重的,包括大盘回调、利润增速下降、高估值隐忧、GB200交付问题、劲敌增多、各国反垄断审查等等。各种背景因素交织着情绪,在资本市场上拉扯。

但是英伟达创始人兼CEO黄仁勋一直强调,Blackwell平台的产品需求高,数据中心领域还将持续增长。随着接下来2月底新一季度财报的发布,英伟达将回应更多,只是短期还将承压。

但是这并不意味着算力从此一文不值,有了前期算力基建的基础上,方能涌现出如此多的创新,长期来看,AI应用的爆发继续需要算力支持。

当前美股科技巨头们还在算力军备竞赛中。美国最新公布的“星际之门”AI基础设施计划,由OpenAI、软银和甲骨文等公司合作开展,计划在未来4年内筹集5000亿美元,用于建设超大规模数据中心。微软计划在2025年在AI基础设施上投入800亿美元,Meta CEO扎克伯格最近刚表示,Meta计划在2025年投资600亿至650亿美元的资本支出,投入到AI战略中。

摩根士丹利(Morgan Stanley)2024年11月发布的报告显示,亚马逊、Google、Meta和微软2025年的资本支出合计将达到3000亿美元左右,2026年将进一步增长至3365亿美元,这些支出多数将投入固定资产,例如数据中心和房地产。

接下来,如何更有效率得使用算力、打造更先进的算力网络,将是新的考验。

新旧交替掀起AI新变革

一位AI从业者向21世纪经济报道记者评价道:“DeepSeek价格是拼多多,它的性价比无需多言;工程上是SpaceX,SpaceX在供应链降低成本上有目共睹,DeepSeek也是如此;软件上则是苹果,苹果并不太强调参数,软硬件优化达到高性能体验是它的实力。”

多位业内人士向记者分析称,DeepSeek的创新集中在系统工程上,在训练大模型的各个环节中都进行了升级迭代,从而形成了强大的新模型。

比如,DeepSeek采用了MoE架构模型(Mixture of Experts,专家混合)、MLA多层注意力架构、FP8混合精度训练框架、各类通信技术、MTP技术(Multi-Token Prediction,多token预测)、蒸馏R1等等,在各个环节上进行工程化的创新升级,让效率持续上升。

很多架构或者技术并不是DeepSeek原创,但是DeepSeek却将这些技术应用得炉火纯青。以MoE架构为例,MoE架构是一种用于提升深度学习模型性能和效率的架构,最早由谷歌提出,将模型划分为多个“专家”,动态选择最相关的专家参与特定项目的计算。怎么样让专家高效的满载运转,就是各家的本事了,目前看来DeepSeek做到了更优的动态调节。

又比如MTP技术,其实是Meta此前率先提出的技术,相比传统生成一个Token,MTP技术能同步生成多个Token,这就加快了AI生成的速度。DeepSeek很快就将MTP引入,并且应用的更快更好。同时,在数据上,DeepSeek也处理的很好,数据量大、质量高。

当然,也有专家指出,DeepSeek存在偏科现象,尤其擅长数学和编程,大模型还有进步空间,在基础技术上也要进一步突破。

或许,DeepSeek并没有达到范式的创新,但是工程上的创新、应用的创新,也在孕育新的变革。不断推陈出新的新模型,DeepSeek也向外界展示了更多的可能性,新一代的AI路径正在生成中。

虽然DeepSeek探索出了低成本的大模型训练方法,但是前期的投入却不少。DeepSeek孵化于国内顶级量化基金幻方量化,创始人梁文锋是浙江大学大学信息与通信工程专业硕士,2023年4月才成立了子公司DeepSeek,但是幻方量化已经在AI的路上布局多年。

根据官网介绍,幻方量化成立于2015年,到了2017 年底,几乎所有的量化策略都已经采用AI模型计算。2018年进一步确立以AI为发展方向,但是复杂的模型计算需求使得单机训练遭遇算力瓶颈,同时日益增加的训练需求和有限的计算资源产生了矛盾,寻求大规模算力解决方案。

在此背景下,2019年成立了幻方AI,致力于AI算法与基础应用研究,研发团队自研幻方“萤火一号”AI 集群,搭载了500块显卡,2020年“萤火一号”总投资近2亿元,搭载1100加速卡;2021年开始,幻方AI投入10亿建设“萤火二号”,2022年突破了一期的物理限制,算力扩容翻倍。

这也意味着,从2019年,幻方就开始购买卡建设AI集群,当时chatGPT还没有全球爆火,但是幻方就已经拿到了AI昂贵的船票,并在2021年左右就达到了万卡的储备。此前就有大厂高管向记者表示,金融和医疗是目前生成式AI应用最广的领域,因为数据基本上云且完备合规。从这个逻辑看来,从金融创业公司跑出来AI大模型也不奇怪,而且DeepSeek的一大商用场景就已经是量化金融。

对于创业公司与大厂的竞争,此前梁文锋接受暗涌采访时谈道:“说实话我们不太care这件事,只是顺便做了这件事。提供云服务不是我们的主要目标。我们的目标还是去实现AGI。目前没有看到什么新解法,但大厂也没有明显占优。大厂有现成的用户,但它的现金流业务也是它的包袱,也会让它成为随时被颠覆的对象。”

谈及其他中国的大模型创业公司,梁文锋表示,可能活下来2到3家,那些自我定位清晰、更能精细化运营的,更有机会活下来。其它公司可能会脱胎换骨。有价值的东西不会烟消云散,但会换一种方式。

DeepSeek现象级爆发之后

新锐AI企业DeepSeek凭借其R1模型的强劲表现和现象级爆发,成为行业焦点。极低的训练成本展现出媲美主流大模型的性能,这一成果在AI领域引发了巨大轰动,并对行业格局带来了影响。

目前看来,DeepSeek的崛起或许标志着AI技术从“规模优先”转向“效率优先”的新阶段。数据显示,我们的人脑功耗仅 20瓦(相当于一盏节能灯),却支持复杂的认知功能,未来大模型或许能进一步朝着大脑的方向进化。

可以确定的是,来到新的一年,AI竞技场上的技术创新和行业竞争将进入全新层次。其一,DeepSeek为AI市场注入了新的变量,在其推动下,AI巨头可能不得不调整商业策略,降价以应对竞争压力。未来,行业内的价格战或愈演愈烈,迫使企业优化成本结构,探索更具吸引力的商业模式。

其二,低成本催生应用爆发,AI普及正在加速,DeepSeek的技术突破降低了AI服务的总体成本,让更多传统行业能以更低门槛部署AI解决方案。这将加速AI在各行各业的渗透,进一步推动数字化转型。同时,低成本还使定制化AI应用成为可能,个人和中小型企业均可打造专属AI服务,催生个性化AI时代的到来。

其三,算力价值面临重估,R1模型展现的高效算力利用引发了行业对计算资源价值的重新思考。传统上,AI模型的发展高度依赖于昂贵的硬件资源,然而,DeepSeek通过优化架构减少了对算力的需求,这可能导致算力市场的供需关系发生结构性变化。未来,企业将更加注重通过算法创新提升效率,而非一味增加硬件投入。与此同时,在最高端算力受限的情况下,国产芯片也有新的替代机会。

其四,DeepSeek正在掀起效率革命,小而精模型或成新趋势。DeepSeek的成功表明,在AI模型开发中,“更大”并不一定代表“更优”,效率导向的大模型开发或成为新潮流。人脑功耗仅 20瓦(相当于一盏节能灯),却支持复杂的认知功能,或许接下来的进化。

其五,AI行业中开源与闭源生态的竞争在加剧。开源模式因其灵活性和创新性受到更多关注,而闭源企业可能通过生态建设和增值服务守住市场。然而,随着低成本技术的普及,开源社区的影响力或将持续扩大,进一步挑战闭源巨头的垄断地位。

而正是这样的英雄辈出、各领风骚,推动着AI世界波澜壮阔地进化。从全新的计算架构到革命性的芯片技术,下一个英伟达、下一个DeepSeek或许正从实验室中走向舞台。在新的AI浪潮中,行业格局将被重塑,全球的AI战略投入和人才争夺将更加白热化。

21财经客户端下载