AI 终于不用“抄作业”了？Black Forest Labs 这波操作，把训练成本砍掉 50 倍

生成式 AI 这几年火得一塌糊涂，但说实话，它一直有个“隐疾”。

不管是 Stable Diffusion 还是 FLUX，这些模型想要画出像样的图，或者生成连贯的视频，都得靠“老师”教。

AI配图

这里的老师，指的是 CLIP、DINOv2 这些外部编码器。它们负责告诉模型“这是什么”，模型只负责“怎么画”。

这就像是让一个画家只管动笔，至于画的是猫是狗，全靠旁边有个解说员在喊。

问题来了，解说员（外部编码器）的能力是封顶的。

当模型越练越大，老师的水平跟不上，瓶颈就出现了——你再怎么堆算力，效果也不见涨。

今天，德国 AI 独角兽 Black Forest Labs（就是那个做 FLUX 模型的公司）搞了个大新闻。

他们发布了一项叫 Self-Flow 的技术，直接把“老师”炒了鱿鱼。

这不仅是技术迭代，简直是一场“造反”。

既然老师不行，那就自己教自己

Black Forest Labs 的逻辑很简单：靠人不如靠己。

传统的训练方法，本质上是个“去噪”任务。

给模型一堆噪点，让它还原成图。模型只关心像素对不对，根本不关心画出来的东西有没有意义。

AI配图

为了解决这个问题，以前的办法是强行把生成模型和外面的判别模型对齐。

但这招有个致命伤：外部模型的目标往往是错位的，而且它们大多是单模态的，懂图像的不懂声音，懂画面的不懂逻辑。

Self-Flow 搞了个很有意思的机制，叫 Dual-Timestep Scheduling（双时间步调度）。

这名字听着绕，其实原理有点像“左右互搏”。

系统把输入数据分成两份，一份加了很重的噪声给“学生”看，另一份比较干净的给“老师”看。

这里的“老师”不是外人，而是模型自己的一个 Exponential Moving Average (EMA) 版本。

学生不仅要还原画面，还得猜那个“更聪明的自己”看到了什么。

这种“信息不对称”逼着模型必须自己学会理解语义，不仅要会画，还得懂自己在画什么。

这是一种自蒸馏过程，让模型在学会创作的同时，也学会了“看”。

效率炸裂：50 倍的差距不是开玩笑

这技术听起来玄乎，但数据不会撒谎。

我们直接看结果，这可能是这篇报道最刺激的部分。

AI配图

以前那种“香草”训练法（最原始的方法），想要达到基准性能，得跑 700 万步。

后来业界出了个叫 REPA 的方法，把路程缩短到了 40 万步，这已经是 17.5 倍的加速了，当时大家都觉得挺牛。

现在，Self-Flow 出来，直接把步数干到了 14.3 万步。

这是什么概念？

从 700 万到 14.3 万，这中间差了将近 50 倍。

这意味着原本需要跑几个月的训练任务，现在可能几天就搞定了。

而且，它不会像以前那样遇到瓶颈。

算力堆上去，参数加上去，效果就跟着涨，完全没有天花板。

Black Forest Labs 拿了个 40 亿参数的多模态模型练手，喂了 2 亿张图、600 万个视频和 200 万个音视频对。

效果如何？

以前 AI 画文字，那是出了名的“鬼画符”，招牌上的字母经常乱飞。

Self-Flow 画出来的霓虹灯牌，能清晰地拼出 "FLUX is multimodal"。

视频生成里那种手突然消失、物体凭空变样的“幻觉”也被大幅消除。

甚至，它还能直接生成音画同步的视频，不需要靠外部的图像编码器去瞎猜声音。

因为它是自己学的，它真的懂声音和画面该咋配。

从画画到干体力活，AI 真的要抢饭碗了？

有意思的是，Black Forest Labs 并没满足于让 AI 画好看的图。

他们把这项技术用到了更硬核的领域：机器人。

这让我觉得，他们可能真的想搞出“世界模型”。

他们拿了一个 6.75 亿参数的 Self-Flow 模型，去跑 RT-1 机器人数据集。

在 SIMPLER 模拟器里，面对复杂的“打开抽屉并放入物品”这种多步骤任务，传统的流匹配模型经常傻眼，直接干趴下。

但 Self-Flow 模型保持了稳定的成功率。

这说明啥？

说明它脑子里的“表征”不是死记硬背的，而是真的理解了物理空间和逻辑顺序。

这不仅仅是生成漂亮像素的能力，这是在向物理世界进军。

我个人觉得，这点比画图更值得警惕。

撕掉“拼贴画”的标签，企业该醒醒了

对于搞技术的人来说，Self-Flow 还有一个巨大的诱惑：它把系统简化了。

现在的生成式 AI，说实话，很多都是“弗兰肯斯坦”怪物。

这里拼一个 CLIP，那里接一个 DINOv2，还得靠第三方的授权，维护起来累死人，一旦外部模型有 bug 或者版权问题，整个链条都得断。

Self-Flow 把表征和生成统一在了一个架构里。

不需要外部老师，不需要第三方依赖。

对于企业来说，这意味着什么？

意味着技术债务大幅降低，意味着可以更放心地搞专用模型。

不管是医疗影像还是工业传感器数据，以前可能担心算力不够、模型太重不敢碰。

现在训练效率快了 3 倍，成本降了 50 倍，是不是该考虑自己动手了？

老实讲，这种“自给自足”的技术路线，才是 AI 走向成熟的标志。

当 AI 不再需要抄作业，甚至开始教自己的时候，我们离真正的 AGI，是不是又近了一步？

【glm-4.7锐评】：把“老师”赶出教室，让学生自己左右互搏，Black Forest Labs 这波操作不仅省了算力，更像是给 AI 装上了独立思考的大脑。

参考链接：
https://venturebeat.com/technology/black-forest-labs-new-self-flow-technique-makes-training-multimodal-ai