清华大学人工智能研究院朱军：视频生成不会出现“DeepSeek时刻”

首页 > 商业 > 正文

2025-03-31 12:09:04 21世纪经济报道 21财经APP 白杨

21世纪经济报道记者白杨北京报道

“我判断，视频生成领域大概率不会出现像DeepSeek这种靠效率实现遥遥领先的模型”。在近日召开的2025中关村论坛年会期间，清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军向21世纪经济报道记者表示。

他这样判断的依据是，在视频生成领域，大家已经将DeepSeek主打的效率进行实践，并且在很多产品中都有体现。

“因此我不认为会在某一个时刻，突然出现一个换代式的或比别人都强很多倍的产品出现”。朱军说道。

当下，朱军还在等待视频模型的“ChatGPT时刻”。在他看来，这需要视频模型真正实现更好用和更可控，“只有这样，视频模型才能真正达到人人可用的状态。”

在这个方向上，朱军团队也在进行实践。在2025中关村论坛上，朱军对外发布了高可控视频大模型Vidu Q1。

一年前，同样是在中关村论坛上，生数科技联合清华大学对外发布了中国首个全面对标Sora的视频大模型 Vidu。随后的一年中，Vidu不断进化。

2024年11月，Vidu 1.5版本在全球范围内首次实现视觉模型的智能涌现，攻克了多主体一致性的难题；2025年1月，Vidu进化到2.0版本，在生成速度上取得关键突破，并且价格也降低到分时代。

而此次推出的Vidu Q1，更聚焦视频生成质量，可控性也进一步升级。

朱军表示，与此前Vidu 2.0是追求效率和性价比不同，Vidu Q1更强调的是质量。Vidu Q1通过接收空间布局信息作为输入，极大提升了视频模型的可控性，尤其是在多主体细节可控、音效同步可控、画质增强方面均取得成效。

以多主体细节可控为例，在语义指令的基础上，通过融入参考图的视觉指令，Vidu Q1可以对场景中多主体的位置、大小、运动轨迹等属性进行更进一步的可控，以及对所有动作行为（出场、退场、坐立姿态、行动路线）进行精准调整。

另外，在音效同步可控方面，Vidu Q1能基于语义指令输出音效，并可以精准控制每段音效的长短区间，以及精准设置每段音频出现的时间点。

朱军表示，一直以来，AI视频生成过程中的随机性都是老大难问题，Vidu Q1通过技术手段引入多元素控制，让它不再是没有头绪的乱生成，做到了人为可控。在此基础上，AI视频生成的创意呈现也将变得更极致和多元。

谈及多模态大模型的发展挑战，朱军表示，多模态也分为理解和生成两部分。在理解部分，多模态大模型正在向大语言模型对齐。

在生成部分，多模态模型打通了不同模态间的连接，并且在时间和空间维度上的表现也更强。因此这需要在语言智能之上，把时间、空间等维度都做全，这将推动人们走向所谓的通用人工智能。

对于为何目前市面上的生成视频时长大多只有5秒钟，朱军认为，这主要是成本以及用户使用习惯问题。“现在大家用视频模型，主要还是做素材，如果是生成1分钟的视频，对用户的要求会变高，因为他需要去写一个视频框架，而不是一句简单的Prompt”。

不过，随着模型可控性增强，用户生成长视频的门槛也将进一步降低，并会推动使用场景从素材制作向完整叙事扩展。

在朱军看来，视频生成的颠覆性突破或许不会来自效率的“代际差”，而是通过逐步实现人类意图的精准控制，最终迎来“人人可用”的爆发点。