清华大学人工智能研究院朱军:视频生成不会出现“DeepSeek时刻”
21世纪经济报道记者白杨北京报道
“我判断,视频生成领域大概率不会出现像DeepSeek这种靠效率实现遥遥领先的模型”。在近日召开的2025中关村论坛年会期间,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军向21世纪经济报道记者表示。
他这样判断的依据是,在视频生成领域,大家已经将DeepSeek主打的效率进行实践,并且在很多产品中都有体现。
“因此我不认为会在某一个时刻,突然出现一个换代式的或比别人都强很多倍的产品出现”。朱军说道。
当下,朱军还在等待视频模型的“ChatGPT时刻”。在他看来,这需要视频模型真正实现更好用和更可控,“只有这样,视频模型才能真正达到人人可用的状态。”
在这个方向上,朱军团队也在进行实践。在2025中关村论坛上,朱军对外发布了高可控视频大模型Vidu Q1。
一年前,同样是在中关村论坛上,生数科技联合清华大学对外发布了中国首个全面对标Sora的视频大模型 Vidu。随后的一年中,Vidu不断进化。
2024年11月,Vidu 1.5版本在全球范围内首次实现视觉模型的智能涌现,攻克了多主体一致性的难题;2025年1月,Vidu进化到2.0版本,在生成速度上取得关键突破,并且价格也降低到分时代。
而此次推出的Vidu Q1,更聚焦视频生成质量,可控性也进一步升级。
朱军表示,与此前Vidu 2.0是追求效率和性价比不同,Vidu Q1更强调的是质量。Vidu Q1通过接收空间布局信息作为输入,极大提升了视频模型的可控性,尤其是在多主体细节可控、音效同步可控 、画质增强方面均取得成效。
以多主体细节可控为例,在语义指令的基础上,通过融入参考图的视觉指令,Vidu Q1可以对场景中多主体的位置、大小、运动轨迹等属性进行更进一步的可控,以及对所有动作行为(出场、退场、坐立姿态、行动路线)进行精准调整。
另外,在音效同步可控方面,Vidu Q1能基于语义指令输出音效,并可以精准控制每段音效的长短区间,以及精准设置每段音频出现的时间点。
朱军表示,一直以来,AI视频生成过程中的随机性都是老大难问题,Vidu Q1通过技术手段引入多元素控制,让它不再是没有头绪的乱生成,做到了人为可控。在此基础上,AI视频生成的创意呈现也将变得更极致和多元。
谈及多模态大模型的发展挑战,朱军表示,多模态也分为理解和生成两部分。在理解部分,多模态大模型正在向大语言模型对齐。
在生成部分,多模态模型打通了不同模态间的连接,并且在时间和空间维度上的表现也更强。因此这需要在语言智能之上,把时间、空间等维度都做全,这将推动人们走向所谓的通用人工智能。
对于为何目前市面上的生成视频时长大多只有5秒钟,朱军认为,这主要是成本以及用户使用习惯问题。“现在大家用视频模型,主要还是做素材,如果是生成1分钟的视频,对用户的要求会变高,因为他需要去写一个视频框架,而不是一句简单的Prompt”。
不过,随着模型可控性增强,用户生成长视频的门槛也将进一步降低,并会推动使用场景从素材制作向完整叙事扩展。
在朱军看来,视频生成的颠覆性突破或许不会来自效率的“代际差”,而是通过逐步实现人类意图的精准控制,最终迎来“人人可用”的爆发点。