生成式 AI 这几年火得一塌糊涂,但说实话,它一直有个“隐疾”。

不管是 Stable Diffusion 还是 FLUX,这些模型想要画出像样的图,或者生成连贯的视频,都得靠“老师”教。

AI配图

这里的老师,指的是 CLIP、DINOv2 这些外部编码器。它们负责告诉模型“这是什么”,模型只负责“怎么画”。

这就像是让一个画家只管动笔,至于画的是猫是狗,全靠旁边有个解说员在喊。

问题来了,解说员(外部编码器)的能力是封顶的。

当模型越练越大,老师的水平跟不上,瓶颈就出现了——你再怎么堆算力,效果也不见涨。

今天,德国 AI 独角兽 Black Forest Labs(就是那个做 FLUX 模型的公司)搞了个大新闻。

他们发布了一项叫 Self-Flow 的技术,直接把“老师”炒了鱿鱼。

这不仅是技术迭代,简直是一场“造反”。

既然老师不行,那就自己教自己

Black Forest Labs 的逻辑很简单:靠人不如靠己。

传统的训练方法,本质上是个“去噪”任务。

给模型一堆噪点,让它还原成图。模型只关心像素对不对,根本不关心画出来的东西有没有意义。

AI配图

为了解决这个问题,以前的办法是强行把生成模型和外面的判别模型对齐。

但这招有个致命伤:外部模型的目标往往是错位的,而且它们大多是单模态的,懂图像的不懂声音,懂画面的不懂逻辑。

Self-Flow 搞了个很有意思的机制,叫 Dual-Timestep Scheduling(双时间步调度)

这名字听着绕,其实原理有点像“左右互搏”。

系统把输入数据分成两份,一份加了很重的噪声给“学生”看,另一份比较干净的给“老师”看。

这里的“老师”不是外人,而是模型自己的一个 Exponential Moving Average (EMA) 版本。

学生不仅要还原画面,还得猜那个“更聪明的自己”看到了什么。

这种“信息不对称”逼着模型必须自己学会理解语义,不仅要会画,还得懂自己在画什么。

这是一种自蒸馏过程,让模型在学会创作的同时,也学会了“看”。

效率炸裂:50 倍的差距不是开玩笑

这技术听起来玄乎,但数据不会撒谎。

我们直接看结果,这可能是这篇报道最刺激的部分。

AI配图

以前那种“香草”训练法(最原始的方法),想要达到基准性能,得跑 700 万步。

后来业界出了个叫 REPA 的方法,把路程缩短到了 40 万步,这已经是 17.5 倍的加速了,当时大家都觉得挺牛。

现在,Self-Flow 出来,直接把步数干到了 14.3 万步

这是什么概念?

从 700 万到 14.3 万,这中间差了将近 50 倍

这意味着原本需要跑几个月的训练任务,现在可能几天就搞定了。

而且,它不会像以前那样遇到瓶颈。

算力堆上去,参数加上去,效果就跟着涨,完全没有天花板。

Black Forest Labs 拿了个 40 亿参数的多模态模型练手,喂了 2 亿张图、600 万个视频和 200 万个音视频对。

效果如何?

以前 AI 画文字,那是出了名的“鬼画符”,招牌上的字母经常乱飞。

Self-Flow 画出来的霓虹灯牌,能清晰地拼出 "FLUX is multimodal"。

视频生成里那种手突然消失、物体凭空变样的“幻觉”也被大幅消除。

甚至,它还能直接生成音画同步的视频,不需要靠外部的图像编码器去瞎猜声音。

因为它是自己学的,它真的懂声音和画面该咋配。

从画画到干体力活,AI 真的要抢饭碗了?

有意思的是,Black Forest Labs 并没满足于让 AI 画好看的图。

他们把这项技术用到了更硬核的领域:机器人。

这让我觉得,他们可能真的想搞出“世界模型”。

他们拿了一个 6.75 亿参数的 Self-Flow 模型,去跑 RT-1 机器人数据集。

在 SIMPLER 模拟器里,面对复杂的“打开抽屉并放入物品”这种多步骤任务,传统的流匹配模型经常傻眼,直接干趴下。

但 Self-Flow 模型保持了稳定的成功率。

这说明啥?

说明它脑子里的“表征”不是死记硬背的,而是真的理解了物理空间和逻辑顺序。

这不仅仅是生成漂亮像素的能力,这是在向物理世界进军。

我个人觉得,这点比画图更值得警惕。

撕掉“拼贴画”的标签,企业该醒醒了

对于搞技术的人来说,Self-Flow 还有一个巨大的诱惑:它把系统简化了。

现在的生成式 AI,说实话,很多都是“弗兰肯斯坦”怪物。

这里拼一个 CLIP,那里接一个 DINOv2,还得靠第三方的授权,维护起来累死人,一旦外部模型有 bug 或者版权问题,整个链条都得断。

Self-Flow 把表征和生成统一在了一个架构里。

不需要外部老师,不需要第三方依赖。

对于企业来说,这意味着什么?

意味着技术债务大幅降低,意味着可以更放心地搞专用模型。

不管是医疗影像还是工业传感器数据,以前可能担心算力不够、模型太重不敢碰。

现在训练效率快了 3 倍,成本降了 50 倍,是不是该考虑自己动手了?

老实讲,这种“自给自足”的技术路线,才是 AI 走向成熟的标志。

当 AI 不再需要抄作业,甚至开始教自己的时候,我们离真正的 AGI,是不是又近了一步?

【glm-4.7锐评】:把“老师”赶出教室,让学生自己左右互搏,Black Forest Labs 这波操作不仅省了算力,更像是给 AI 装上了独立思考的大脑。

参考链接:
https://venturebeat.com/technology/black-forest-labs-new-self-flow-technique-makes-training-multimodal-ai