说实话,AI 圈子里很久没有这么让人眼前一亮的“打脸”时刻了。

就在刚才,一条推文在科技圈疯传。Yann LeCun 那个备受争议的“世界模型”愿景,居然在医疗影像领域被验证了——而且是用一种极其暴力的方式。

这不是实验室里的小打小闹,而是实打实的数据战。

1800 万份心脏超声视频,30 万名患者。

这就是刚刚发布的 EchoJEPA,一个号称“首个医疗视频世界模型”的 AI。它干了一件很反直觉的事:不再死磕像素的完美重建,而是学会了像医生一样“看”心脏。

结果呢?

在只有 1% 标注数据的情况下,它的准确率干到了 79%,而那些用 100% 数据训练的传统模型,只有 42%。

这哪里是进步,这简直是降维打击。

这里的“脏乱差”,正是 AI 的噩梦

先说背景。

心脏超声(Echocardiography),也就是我们常说的B超,是临床上最常用的心脏检查手段。仅在美国,每年就有约 3000 万次检查。

但这对 AI 来说,简直是个地狱级的难度。

AI配图

为什么?因为超声视频太“脏”了。

画面里全是随机出现的斑点(Speckle)、深度带来的信号衰减、还有各种声学阴影。这些干扰因素千奇百怪,跟心脏解剖结构毫无关系,却占据了画面的绝大部分。

以前的 AI 怎么做?不管是监督学习还是对比学习,甚至是最新的掩码自编码器(MAE),大多都在干一件事:拼命重建像素。

为了降低误差,模型不得不把那些毫无医学意义的噪点、阴影都学得惟妙惟肖。

这就像让你去画一个人,你却把衣服上的每一根线头、背景里的每一粒灰尘都画得清清楚楚,却忘了画脸。

老实说,这种努力,方向就偏了。

扔掉像素,它学会了“抓重点”

EchoJEPA 的出现,就是来纠偏的。

它的核心思想直接继承了 LeCun 的 JEPA(Joint Embedding Predictive Architecture):别重建像素了,去预测潜在结构。

简单说,就是让模型学会“抽象”。

在训练过程中,EchoJEPA 会主动丢弃那些不可预测的噪点,只锁定真正有临床价值的东西:心室几何结构、室壁运动、瓣膜动力学。

这就好比一个老练的医生,看着满是雪花点的屏幕,脑海里自动过滤掉干扰,直接构建出心脏跳动的 3D 模型。

Image 4: Refer to caption

看这张图,这就是注意力可视化的对比。

以前的模型(VideoMAE),注意力是散乱的,甚至被多普勒的颜色带偏了;而 EchoJEPA 呢?它的目光死死咬住了瓣膜叶子、心室壁这些关键部位。

这才是真正的“懂行”。

数据不会说谎,差距大到离谱

光说概念没用,我们来看硬碰硬的数据。

这次测试非常严格,统一了评估协议,冻结了所有模型的骨干网络,只训练探测头(Probe)。

首先是**左室射血分数(LVEF)的估算,这是衡量心脏功能的核心指标。EchoJEPA 直接把误差降低了 20%。在右室收缩压(RVSP)**预测上,误差也降低了 17%。

但这还不是最狠的。

最让我震惊的是它的样本效率

在只有 1% 的标注数据时,EchoJEPA-L 的准确率达到了 57.6%,而最好的基线模型(EchoPrime)用 100% 的数据才勉强到 42.1%。

如果你用最大的 EchoJEPA-G 模型,用 1% 的数据就能跑到 78.6%,几乎双杀了全量数据训练的对手。

这说明什么?说明 latent prediction(潜在预测)学到的 representation(表征)极其稠密,它不需要海量标注就能理解什么是“心脏视图”。

零样本“秒杀”儿科数据

更有意思的一幕发生了。

研究团队把在成人数据上训练好的模型,直接扔到了儿科心脏数据集上(Zero-shot)。

这可是完全不同的领域。小孩心脏小、比例不同、病理分布也完全不同。按照惯例,模型肯定得崩,或者至少得重新微调。

AI配图

结果呢?

EchoJEPA-G 在完全没见过儿科数据的情况下,直接超越了所有经过微调的基线模型。

哪怕是微调之后,它依然保持着 15% 的领先优势。

这让我不得不感叹一句:当 AI 真正理解了“生理学”而不是“像素”之后,这种泛化能力简直就是降维打击。

抗噪能力:这才是临床需要的

最后,还有一个点特别打动我。

临床环境是复杂的,探头角度不对、病人配合度差,画面里全是噪点。

研究团队特意加了物理模拟的干扰(深度衰减、高斯阴影)。结果,其他模型的性能暴跌了 16.8%,而 EchoJEPA 只下降了 2.3%。

这就好比在吵闹的酒吧里聊天,别人还在试图听清每一句背景噪音,而你已经直接抓住了对方说话的逻辑。

这才是医疗 AI 该有的样子:鲁棒、稳定、不被表象迷惑。

写在最后

EchoJEPA 的出现,不仅仅是发了一篇论文那么简单。

它用实打实的数据证明了 LeCun 那套“世界模型”理论在医疗领域的巨大潜力。

以前的 AI,更像是在“背图”,背得越多,算得越准;而现在的 EchoJEPA,开始尝试“理解”,理解心脏作为一个生物系统的运作规律。

我个人觉得,这可能是一个分水岭。

当 AI 开始学会忽略噪点、直击本质,我们离真正可靠的“AI 医生”,或许又近了一大步。

至于那些还在死磕像素重建的方法?嗯,是时候该换个思路了。

参考链接:
https://x.com/BoWang87/status/2019864109517611440