生成式 AI 这几年火得一塌糊涂,但说实话,它一直有个“隐疾”。
不管是 Stable Diffusion 还是 FLUX,这些模型想要画出像样的图,或者生成连贯的视频,都得靠“老师”教。
这里的老师,指的是 CLIP、DINOv2 这些外部编码器。它们负责告诉模型“这是什么”,模型只负责“怎么画”。
这就像是让一个画家只管动笔,至于画的是猫是狗,全靠旁边有个解说员在喊。
问题来了,解说员(外部编码器)的能力是封顶的。
当模型越练越大,老师的水平跟不上,瓶颈就出现了——你再怎么堆算力,效果也不见涨。
今天,德国 AI 独角兽 Black Forest Labs(就是那个做 FLUX 模型的公司)搞了个大新闻。
他们发布了一项叫 Self-Flow 的技术,直接把“老师”炒了鱿鱼。
这不仅是技术迭代,简直是一场“造反”。
既然老师不行,那就自己教自己
Black Forest Labs 的逻辑很简单:靠人不如靠己。
传统的训练方法,本质上是个“去噪”任务。
给模型一堆噪点,让它还原成图。模型只关心像素对不对,根本不关心画出来的东西有没有意义。
为了解决这个问题,以前的办法是强行把生成模型和外面的判别模型对齐。
但这招有个致命伤:外部模型的目标往往是错位的,而且它们大多是单模态的,懂图像的不懂声音,懂画面的不懂逻辑。
Self-Flow 搞了个很有意思的机制,叫 Dual-Timestep Scheduling(双时间步调度)。
这名字听着绕,其实原理有点像“左右互搏”。
系统把输入数据分成两份,一份加了很重的噪声给“学生”看,另一份比较干净的给“老师”看。
这里的“老师”不是外人,而是模型自己的一个 Exponential Moving Average (EMA) 版本。
学生不仅要还原画面,还得猜那个“更聪明的自己”看到了什么。
这种“信息不对称”逼着模型必须自己学会理解语义,不仅要会画,还得懂自己在画什么。
这是一种自蒸馏过程,让模型在学会创作的同时,也学会了“看”。
效率炸裂:50 倍的差距不是开玩笑
这技术听起来玄乎,但数据不会撒谎。
我们直接看结果,这可能是这篇报道最刺激的部分。
以前那种“香草”训练法(最原始的方法),想要达到基准性能,得跑 700 万步。
后来业界出了个叫 REPA 的方法,把路程缩短到了 40 万步,这已经是 17.5 倍的加速了,当时大家都觉得挺牛。
现在,Self-Flow 出来,直接把步数干到了 14.3 万步。
这是什么概念?
从 700 万到 14.3 万,这中间差了将近 50 倍。
这意味着原本需要跑几个月的训练任务,现在可能几天就搞定了。
而且,它不会像以前那样遇到瓶颈。
算力堆上去,参数加上去,效果就跟着涨,完全没有天花板。
Black Forest Labs 拿了个 40 亿参数的多模态模型练手,喂了 2 亿张图、600 万个视频和 200 万个音视频对。
效果如何?
以前 AI 画文字,那是出了名的“鬼画符”,招牌上的字母经常乱飞。
Self-Flow 画出来的霓虹灯牌,能清晰地拼出 "FLUX is multimodal"。
视频生成里那种手突然消失、物体凭空变样的“幻觉”也被大幅消除。
甚至,它还能直接生成音画同步的视频,不需要靠外部的图像编码器去瞎猜声音。
因为它是自己学的,它真的懂声音和画面该咋配。
从画画到干体力活,AI 真的要抢饭碗了?
有意思的是,Black Forest Labs 并没满足于让 AI 画好看的图。
他们把这项技术用到了更硬核的领域:机器人。
这让我觉得,他们可能真的想搞出“世界模型”。
他们拿了一个 6.75 亿参数的 Self-Flow 模型,去跑 RT-1 机器人数据集。
在 SIMPLER 模拟器里,面对复杂的“打开抽屉并放入物品”这种多步骤任务,传统的流匹配模型经常傻眼,直接干趴下。
但 Self-Flow 模型保持了稳定的成功率。
这说明啥?
说明它脑子里的“表征”不是死记硬背的,而是真的理解了物理空间和逻辑顺序。
这不仅仅是生成漂亮像素的能力,这是在向物理世界进军。
我个人觉得,这点比画图更值得警惕。
撕掉“拼贴画”的标签,企业该醒醒了
对于搞技术的人来说,Self-Flow 还有一个巨大的诱惑:它把系统简化了。
现在的生成式 AI,说实话,很多都是“弗兰肯斯坦”怪物。
这里拼一个 CLIP,那里接一个 DINOv2,还得靠第三方的授权,维护起来累死人,一旦外部模型有 bug 或者版权问题,整个链条都得断。
Self-Flow 把表征和生成统一在了一个架构里。
不需要外部老师,不需要第三方依赖。
对于企业来说,这意味着什么?
意味着技术债务大幅降低,意味着可以更放心地搞专用模型。
不管是医疗影像还是工业传感器数据,以前可能担心算力不够、模型太重不敢碰。
现在训练效率快了 3 倍,成本降了 50 倍,是不是该考虑自己动手了?
老实讲,这种“自给自足”的技术路线,才是 AI 走向成熟的标志。
当 AI 不再需要抄作业,甚至开始教自己的时候,我们离真正的 AGI,是不是又近了一步?
【glm-4.7锐评】:把“老师”赶出教室,让学生自己左右互搏,Black Forest Labs 这波操作不仅省了算力,更像是给 AI 装上了独立思考的大脑。
参考链接:
https://venturebeat.com/technology/black-forest-labs-new-self-flow-technique-makes-training-multimodal-ai