
文生视频模型为何迟迟没有“aha moment”?

出品|环球财经网科技组
作者|宋思杭
编辑|苗正卿
头图|AI生成
“多模态目前的水平仍处于GPT 2~3 中间,尚未迎来智能涌现的临界点”,视频生成模型公司“智象未来”创始人兼CEO梅涛对环球财经网坦言。这位曾主导微软研究院多模态AI体系建设的科学家、前京东副总裁,如今正带领团队占领视频生成高地。
回溯2023年初ChatGPT引爆国内市场之时,中国的大语言模型水平还处在GPT 2的程度,如此计算,多模态模型与大语言模型拉开的差距则至少是两年起步。
而在过去的两年时间里,无论是国内的可灵、MiniMax还是Vidu,抑或是海外的Sora,也都是雷声大雨点小。尽管是估值较高的MiniMax也将主要目标市场瞄向了海外。
在这场关乎未来的技术竞速中,三个关键问题亟待解答:造成这种差异的原因究竟是什么?多模态何时迎来“iPhone时刻”?创业公司又如何在大厂围剿中突围?
梅涛的成长轨迹恰似一部微缩版行业进化史。
今年是梅涛创业的第三年。在微软研究院期间,梅涛曾探索过文生视频的路线。可以说,今天从文字到图片/视频的生成,是站在过去从图片/视频到文字这块垫脚石之上的。
十年前,被大众所接受的路线并非是从文字到图片,或从文字到视频的生成,而是一种反过来的逻辑,即从图片/视频到文字的生成。但当时间来到十年后的今天,后者才是被大众接受的路线,前者则被认为是反直觉。
从文字到图片/视频,这个如今再正常不过的生成逻辑,在十年前却鲜少有人敢于尝试。而梅涛等人正是首批研究这种逆向路径的人。作为第一批吃螃蟹的人,梅涛需要突破的是一种“维度诅咒”。
简单理解是,因为图片和视频都是多维信号,而文字是单一维度,从多到一可以有标准答案,但从一到多却有多条发展路线/技术路线。这种技术范式的颠覆,也注定了行业内长达十年的技术蛰伏期。可以说,直到今天,这条路线都还未有收敛迹象。
技术架构的迭代勾勒出清晰的进化图谱:2015年深度神经网络突破、2017年Transformer架构革命、2020年Diffusion模型崛起、2024年自回归架构创新......每个节点都暗藏玄机。让梅涛真正走向创业道路的是一个重要的技术迭代契机:
2022年末Stable Diffusion架构点燃文生图赛道,这让梅涛嗅到了视频生成的技术拐点,也让他重拾起自己5年前的研究成果。彼时,受限于技术架构发展,视频生成模型的研究探索迟迟未能有突破。
2023年,梅涛成立了“智象未来”。巧合的是,这一年也正是国内的大模型元年。
梅涛告诉环球财经网,目前,视频生成类产品之所以还没有像大语言模型一样跨越大众认知门槛,一方面是因为受众范围较小,更偏重专业人士,因为它不像大模型一样能给人算命、提供问答;另一方面从模型能力来说,它的确还没出现太多次的“aha moment”。
另据环球财经网独家获悉,智象未来预计5月中旬上线C端视频生成类Agent应用。此前,智象未来在C端应用上所发力的重点则更聚焦在海外。值得一提的是,上周智象未来开源了image模型,截至目前,该模型在Hugging Face上排名第三。
然而,如今多模态模型正在面临现实窘境: 一边是DeepSeek开源势力带来的冲击,另一边是大厂生态资源的碾压。
更深层的行业拷问仍在延续:当下技术路线远未收敛,算力成本高企不下,这场多模态长征还需要多少时间与耐心?在这条征途上,中国创业者能否走出差异化创新路径?答案或许藏在下一个技术奇点的晨光里。
“工具革命”的生死时速
环球财经网:你能介绍下你在微软研究院做视频生成模型的背景吗?
梅涛:研究生期间,我的博士论文题目就是视频分析,当时做的第一个工作是做 Sports video,分析足球篮球运动的视频。
后来又开始做广告,当时世界上第一批视频广告插入的专利就是我们写的。再后来到了 2015 年左右, 开始研究深度神经网络。那个时候做过Captioning,即图片/视频生文。
到 2017 年的时候,业界的普遍认知是从图片/视频到文字会更简单。彼时微软是第一批把这个技术用在 office 和工业场景里的企业。
环球财经网:所以之前一直都是视频到文字,现在是反过来。
梅涛:当时很少有人敢尝试,因为觉得这个事情没有标准答案。原因很简单,要做一对多很难justify。但我们在 2017 年就做过一些文生视频的实验,就打算反过来,研究从文字到视频。
(环球财经网注:梅涛认为文字是一维信号,图片是二维信号,视频是三维信号。当时研究的都是多个维度到单一维度,会相对比较简单;而反过来,当时很难找到标准答案)
环球财经网:那你在京东做的事情也是这些吗?
梅涛:我们在京东做的事情不太一样。因为 DiT 是 2024 年出来的,Diffusion 应该是 2020 出来。但直到 2022 年底才有人把它变成 Stable Diffusion。这也是为什么我们从 2017 年做完,一直到 2023 年中间就没有做过生成。
所以智象是从 2023 年开始用UNet架构,到 2024 年是 Diffusion Transformer(DiT),2025 年就开始用DiT+AR(自回归)架构。
环球财经网:现在在 AI 时代做大模型的、做多模态的创业者基因上有很大不同,有些来自从硅谷圈,有些来自大厂,还有一类人是移动互联网时代的。你觉得这几类人创业做AI会有什么差异吗?
梅涛:差异很大,大家优势不一样。
第一,移动互联网这波人对商业化非常敏感,可能会做出一些短平快的产品,很快就能爆。但 AI 时代做产品不容易。
不过如果他能知道技术的边界,他依然可以。因为人性的需求在那里。所以有些人从移动互联网时代进入到 AI 时代,他依然能做出不错的产品,但上限不高。
因为 AI 时代,不像移动互联网,现在不是模式创新,是工具创新、工具革命,是利用工具来提高生产效率,降低成本。那么现在首先需要的是替代以前的工具,再从工具做到平台。
而过去是直接做平台,是一个新的模式。以前没有手机,只能在web端做,有手机后,就产生了很多新的生产场景,这就创造了新的商业模式。所以当时的逻辑比较简单,模式对了,投资人就会有投资的意愿,而对技术本身的要求并不高。
第二,从大厂出来的人,会对商业化思考更多,尤其是对技术和商业化的碰撞上面。但我们会追求一个更大的机会,比如颠覆掉从前的工具,再从工具到平台,从平台到社区。
第三,从学术界出来的人,他们在商业化方面,比如对用户的需求、对场景的认知,以及对产品怎样做增长,要做渠道诊断、拓客方面仍需要更多探索。但同时他们的长处也很明显,他们特别有科研精神。
所以到底什么时间适合出来,是需要考量的。如果这个技术在实验室已经非常成熟了,还有一个特别懂商业化的合伙人,出来做会比较合适。
环球财经网:这两年大模型圈有一个共识,大家会觉得大模型、多模态商业化是很难的事情。难点在于找PMF的过程中,不仅是找不到“M”,可能有些人连“P”是什么都不清楚。所以你怎么看这里面的P和M?
梅涛:目前大模型找 PMF 确实花了点时间。但宏观来讲,站在 AI 长期发展的角度来看,大家太着急了,整个市场上都比较迫切地在寻求所谓最优解,基本上每年都在跟一个新的风向。
环球财经网:着急会不会是因为大家还是延续过去的模式走?
梅涛:对,因为在思考链路上有一种惰性的惯性思维,这很难改变。今天很多人说 AI 泡沫,AI 肯定有泡沫。像很多公司估值过高,但收入却并不能覆盖成本。
但从人工智能发展来看,从 1950 年代开始至今共经历了三起三落。现在回头再看十年前会觉得是小儿科。所以说要学习历史。 AI 发展一定是长期的过程,今天看的东西不是终局。
当然现在找 PMF 并没有像模式创新时那么快。刚才我讲了工具革命,首先我们要把工具革掉,这个时间会稍微长一点。
在移动互联网时代,做一个新的模式也需要很长时间。比如字节跳动最开始也做过几个失败产品,到后来才找到信息流。后来做视频也花了很久。所以我觉得大家对 AI 还是要有点耐心。
另外,我并没有觉得多模态找PMF会比大模型慢。举几个例子,比如 Midjourney 2022 年 11 个人收入做到 1 亿美金,2023 年是 2 亿美金,2024年是做到 5 亿美金的ARR。你难道还说他找不到 PMF 吗?
再比如海外的HeyGen,也做到了几千万美金的ARR,以及 Photoroom 这种传统做图像处理的,现在加了AI,也是大几千万美金的ARR,所以我并不认为多模态 PMF 特别难。
环球财经网:你想做国内的 Midjourney? 还是其他什么场景?
梅涛:我们不会复制别人。我们想做全球化的视频创作开发平台,会为设计师或者泛设计师人群设置非常低门槛的在上面,让他们高效实现创意。
它首先是一个高效工具。这个工具未来可能是我们自研,也有可能由第三方提供一部分。在平台上也会有很多种设计创意,可以叫它模板或者工作流,可以供大家使用。
其实今天的平台包括Canva还存在一个问题,就是用户创作完之后需要在第三个平台上变现。
中间过程非常割裂。我们希望一个平台上既有我们的业务,比如游戏公司做宣发,影视公司做前期宣传,文旅集团做 IP 二创等等,它会把想法发布到我们平台上,我们会连接最合适的创意,创作者生成作品后,我们会有流量平台分发出去。最后再这些用户反馈也会回到创作者那边。我们希望实现整个流程的闭环。
环球财经网:这个事情很难吗?
梅涛:现在还没有人做到。智象未来也在努力。这里面首先需要生产力工具平台,其次是业务,还要有创作者生态的建设。
环球财经网:这件事大概什么时间会看到希望?
梅涛:预计明年能有雏形吧。
开源与技术架构的双重围城
环球财经网:你们为什么会选择在这个时间点开源?会不会受到 DeepSeek 影响?
梅涛 :我们现在这个阶段要迎接变化,之前我们对开源的认知是不够的。
DeepSeek 开源之后起到很大的作用。所有人使用大模型的门槛降低了,应用的天花板提高了,因为每个人都能创作出好用的东西。这对社区的贡献是非常大,同时也提高了他的品牌影响力。
第二,开源之后让大家认识到中国的公司其实有很强的技术。现在大模型里开源做比较好的两家,一个是DeepSeek,一个是阿里的Qwen系列。这是大家比较认可的。我们自己作为创业公司是想构建社区。
环球财经网:那你们开源和商业化之间是怎么平衡的?
梅涛 :我们开源了 1.0 版本,另外还有一个 Pro 版,效果会比这次的开源好,参数也会更大。
还有一点,我们开源的是图像模型,这也是我们在做试点操作过程中很关键的一步。因为很多时候,用户是先生成一张图片,基于图片再去上面修改做成视频的。这是目前比较主流的创作方式。
另外,我们也希望把它拿出来,让大家共同来把事情做得更好一点,同时也加速我们的技术迭代。
商业化方面我们靠视频模型。但目前视频模型暂无开源计划,不过也根据商业化情况调整。
环球财经网:之前听一些独角兽公司说他们讲到并不是说用户数越多,模型能力就会变得越强,所以说现在很多其实也并不是很 care 用户多不多。
梅涛 :对,这个我同意。用户数量大并不意味着能留存下来。目前用户普遍的留存度不高,用户还没有形成完整的工作流习惯。现在大家更多是几种工具间来回切换,用户会看效果看成本。
我觉得今天还是比较早期的竞争态势,它并不代表未来的结果。对于我们来说,我们并没有去大量的投流和投放,现在都是自然增长。
环球财经网:现在做视频生成模型,除了缺数据,技术上还存在哪些卡点?
梅涛:还有交互,比如我要拿这个杯子,我要递给你,然后你要接住这个杯子,还要喝水。这个过程是很难的。
4月7日我在香港参加了一个 panel discussion,跟学术届一起聊这个事情。大家普遍认为现在大家把大模型的能力边界扩得很大,包括Sam Altman也在讲他对 AI 的期望有点高。他觉得 AI 其实就是一个非常 powerful 的工具。
我们以前的一些同事,像香港大学的马毅教授、香港理工的杨红霞教授,还有我们中科大的姚欣教授,我们在论坛上都一致认为今天 AI 即使再powerful,也只在 memorizing the world,就是用token的方式把整个世界记住。
但还远远没有达到智能,现在它只是在建立连接。它也不一定能理解 2 和 3 是什么意思,3 一定比 2 要多一个 1。它只是在不断的输出。
但你也不能说它输出的没有价值。因为从神经学的角度来说,它其实在构建连接。这跟人的学习方式也有些类似,但人的学习方式更复杂。一个简单的逻辑就是现在的大模型也相当于在建立人的神经网络、神经元的连接。
但是我们现在大模型做的东西非常粗浅。跟人完全比不了。但即使这样,已经对工业界产生了极大的影响。
技术上哪怕是一点点的小进步,对世界的经济影响都是很大的。比如我们以前在微软做搜索,提高 0.1 个点的搜索准确率,广告收入就是几十亿美金。
所以说一方面我们要认可今天 AI 还不是那么 super(高级),也不是那么通用。但是它已经足够强大到成为一个非常好的工具。这个工具能对工业界和我们的生活产生巨大的影响,但同时也不要把它过分地扩大,说我们今天就要实现 AGI 了。
环球财经网:现在市面上Sora、MiniMax、可灵等等,大家视频生成的风格都不太一样,这个风格的差异是怎么形成的?
姚霆(智象未来CTO):最直接的来源肯定是数据,数据决定一切。如果没有对应的数据,你做不了任何风格,这个是从模型侧的角度来看。我不知道其他公司的侧重点是什么,我们的侧重点是在叙事性。
实际上,今天无论是生图还是视频,用户买单的都是叙事能力。举个例子,比如我脑海中就想讲述一个故事,那每一幅图它需要长成什么样?它的景别是什么样?每幅图应该都有所不同,因为它是一个叙事的过程,一开始可能是近景,然后是中景、远景等等,这样才知道我要生成是什么样的图。
接下来,生成好每一幅图或者视频帧以后,我再把它变成一个视频,这样才能够串起来一个故事。
如果它不是一个故事的话,说实话今天所有的素材可能价值都不大,因为那样就失去了灵魂,所以说叙事性是要贯穿始终的。
环球财经网:最新开源的 image 模型是170亿参数。那视频呢?
姚霆:视频肯定比图片更大,几百亿的参数吧。
环球财经网:选择多大参数,数据可能是一方面,还有其他方面的考量吗?
姚霆:今天去看模型训练的好坏,选择多少的参数比较合适,是要看在训练过程中,需要多大量级的模型能够把训练数据“重现”出来,这是我们的核心点。先不管训练数据有多少,如果模型训练到一定程度发现能把训练数据完全重现了,那这就是一个相对好的匹配。
如果当数据量极大的情况下,模型没办法完全重现训练数据,那就要增大参数量,因为模型的容量不够。
所以说参数量不能过大也不能过小,过大会造成浪费模型能力和成本,过小会没法完全压缩数据内容和知识,所以这是一个匹配的过程。
环球财经网:你们的数据是从哪里获取的?
姚霆:一部分是公开域的数据,另一部分是和影视公司合作的,包括有版权的视频数据等,不过商业化大部分都是私域数据。
环球财经网:之前国内在视频生成领域,也出现过版权纠纷案。从行业角度来讲,视频生成模型厂商会不会考虑使用几大视频平台的数据?或者会如何使用?
姚霆:其实这种海量数据更多会用在预训练。后训练会少一些,因为它和应用场景是强耦合的。等到后训练的时候会找一些特定应用场景的数据。
环球财经网:智象使用的是DiT+AR的架构。这两年也一直有讨论DiT其实并不能完全满足视频生成模型。所以想问这个DiT+AR目前解决了哪些问题?行业里这方面的探索进行到什么程度了?
姚霆:对,这个我们内部一直也会有讨论,到底是什么样的一套架构是我们要选择的。目前路线也在不断变化,还没有收敛。
我猜测GPT-4o用的也是类似融合的架构,虽然他们在报告中没有详细的介绍。目前我们正在用DiT和自回归(AR)融合的方式,但如果你问终局是什么,现在还很难说。
另外也要看你的目标是什么,对我们来说自回归和DiT的融合已经能满足大部分场景了。
DiT具备较高的生成质量,但它需要多步的加噪去噪过程,因此推理速度较慢;而传统的自回归模型AR通过离散图像编码结合整图的自回归建模实现了较快的推理速度,但离散图像编码会带来一定的信息损失,影响生成质量。因此我们采用DiT+AR的技术路线,在保持连续图像编码的同时实现自回归过程和轻量化扩散过程的结合,从而提升推理速度的同时保持了生成质量,而且自回归的过程也能天然地和上下文语境理解适配和对齐,从而达到更强的指令跟随特质。
(环球财经网注:2025年4月3日,一篇揭秘GPT4o图像生成架构的论文正式发表,该论文指出GPT-4o很可能采用了AR+Diffusion架构,而智象未来也提到,HiDream模型于2024年末开始使用DiT+AR架构)
环球财经网:用自回归和DiT融合的架构对成本也会有节省吗?
姚霆:会。极致的话可能节省 50% 以上,甚至 80% 都有可能,但要是看怎么去组合和平衡。例如扩散过程做的特别轻,那可能会影响生成效果。但如果重心都放到扩散过程中,前面自回归建模部分做的轻量级,那其实推理成本上节省的就不多了。实际上,这个DiT+AR技术路线里面的训练机制方式非常复杂,并不是一个简单的积木拼接,需要结构上巧妙地组合和优化。
“文生视频模型至今没出现aha moment”
环球财经网:考虑到现在 Deepseek 还有大厂,他们可能更有场景,你们怎么看待来自外部的竞争,智象的护城河在哪?
梅涛:我们并不会关注和创业公司的竞争,但我们最担心就是大厂的竞争。对我们来说,他们有更多的场景、数据、现金流、资源等等。
目前来说,大厂是在 C 端流量上竞争非常激烈。但我们目前还并没有去竞争纯C端。
当然初创公司从零开始肯定得有过程,但也不是说不能做了。像我刚刚提到很多ARR过亿的都是小公司。
所以还是有机会。另外大厂的劣势是反应速度没有初创公司那么敏捷。虽然它资源多,但具体到某一个细分场景下,它的人员、资源的配置反而不像小公司那么极致的。它比较零散,很难聚汇聚到一起。
环球财经网:你怎么看ARR过亿的应用都是小公司做出来的?
梅涛:AI这一波趋势很明显。回到两年前,当时做得比较好的产品基本都是创业公司的。投资人也基本只看了小公司,不看大公司。
因为首先大公司很难去做一个很大的决定,比如 all in 某个地方,它有很多的包袱。相比之下,小公司没有包袱,组织架构比较轻盈,投资人也愿意在某个细分领域去砸。
环球财经网:但大公司优势可能也在于生态。
梅涛:生态是双刃剑吧。说实话,所谓的生态是你有没有一个好的产品,好的场景。有的话生态是可以跟着你走,但并不是说生态会一直跟着你走。在商业社会大家都讲商业利益。
现在 AI 做的是增量市场。比如DeepSeek很迅速地帮创业公司把大众的认知鸿沟迈过去了。同样地,Midjourney去年也达到5亿美金ARR。他们都很垂。
所以AI不是一个存量市场,我也不认为大公司在这个增量市场里一定会找到自己的位置。
环球财经网:Deepseek 出现之后,很多人认为 Deepseek 暂时还没有入局多模态,那么AI创业公司在多模态还是有机会的。但是这个事情有没有壁垒?
梅涛:他们已经做了一个很简单的图像模型,架构也是用AR自回归,不保证它将来不会重投入。因为多模态大家都能看得见,如果要做物理模型、世界模型,肯定要结合多模态的数据。这样多模态模型才会离商业化更近,离那个物理世界更近。
我不认为现在还有人从零开始做多模态这件事能有很好的排名。它的壁垒可能不在于模型本身,自研也好,用开源也好,真正的壁垒在于有没有自己的版权数据,有没有把生态建起来。还有就是能否基于模型构建用户粘性高的产品,这是很重要的。
目前来说,模型还没有收敛。现在多模态还处于 GPT 2 的阶段,等到了 GPT 5 ,类似于做到了连续几个 aha moment。那个时候就可以从模型到完整产品了。
环球财经网:那现在出现了几次aha moment?
梅涛:视频生成领域中的几个要素:稳定性、可控性和叙事性。这三个难点解决后才会出现,未来慢慢会出现的。
环球财经网:那在数据方面你们会考虑和具身智能公司合作吗?
梅涛:其实我们正在和机器人公司做一些合作。因为我们本来就是从视频到世界模型之间中间缺了一步,就是具身智能的数据。但具体合作方式我们还在谈。