别再盯着像素看了！刚刚，AI 医疗迎来了一次“降维打击”

说实话，AI 圈子里很久没有这么让人眼前一亮的“打脸”时刻了。

就在刚才，一条推文在科技圈疯传。Yann LeCun 那个备受争议的“世界模型”愿景，居然在医疗影像领域被验证了——而且是用一种极其暴力的方式。

这不是实验室里的小打小闹，而是实打实的数据战。

1800 万份心脏超声视频，30 万名患者。

这就是刚刚发布的 EchoJEPA，一个号称“首个医疗视频世界模型”的 AI。它干了一件很反直觉的事：不再死磕像素的完美重建，而是学会了像医生一样“看”心脏。

结果呢？

在只有 1% 标注数据的情况下，它的准确率干到了 79%，而那些用 100% 数据训练的传统模型，只有 42%。

这哪里是进步，这简直是降维打击。

这里的“脏乱差”，正是 AI 的噩梦

先说背景。

心脏超声（Echocardiography），也就是我们常说的B超，是临床上最常用的心脏检查手段。仅在美国，每年就有约 3000 万次检查。

但这对 AI 来说，简直是个地狱级的难度。

AI配图

为什么？因为超声视频太“脏”了。

画面里全是随机出现的斑点（Speckle）、深度带来的信号衰减、还有各种声学阴影。这些干扰因素千奇百怪，跟心脏解剖结构毫无关系，却占据了画面的绝大部分。

以前的 AI 怎么做？不管是监督学习还是对比学习，甚至是最新的掩码自编码器（MAE），大多都在干一件事：拼命重建像素。

为了降低误差，模型不得不把那些毫无医学意义的噪点、阴影都学得惟妙惟肖。

这就像让你去画一个人，你却把衣服上的每一根线头、背景里的每一粒灰尘都画得清清楚楚，却忘了画脸。

老实说，这种努力，方向就偏了。

扔掉像素，它学会了“抓重点”

EchoJEPA 的出现，就是来纠偏的。

它的核心思想直接继承了 LeCun 的 JEPA（Joint Embedding Predictive Architecture）：别重建像素了，去预测潜在结构。

简单说，就是让模型学会“抽象”。

在训练过程中，EchoJEPA 会主动丢弃那些不可预测的噪点，只锁定真正有临床价值的东西：心室几何结构、室壁运动、瓣膜动力学。

这就好比一个老练的医生，看着满是雪花点的屏幕，脑海里自动过滤掉干扰，直接构建出心脏跳动的 3D 模型。

Image 4: Refer to caption

看这张图，这就是注意力可视化的对比。

以前的模型（VideoMAE），注意力是散乱的，甚至被多普勒的颜色带偏了；而 EchoJEPA 呢？它的目光死死咬住了瓣膜叶子、心室壁这些关键部位。

这才是真正的“懂行”。

数据不会说谎，差距大到离谱

光说概念没用，我们来看硬碰硬的数据。

这次测试非常严格，统一了评估协议，冻结了所有模型的骨干网络，只训练探测头（Probe）。

首先是**左室射血分数（LVEF）的估算，这是衡量心脏功能的核心指标。EchoJEPA 直接把误差降低了 20%。在右室收缩压（RVSP）**预测上，误差也降低了 17%。

但这还不是最狠的。

最让我震惊的是它的样本效率。

在只有 1% 的标注数据时，EchoJEPA-L 的准确率达到了 57.6%，而最好的基线模型（EchoPrime）用 100% 的数据才勉强到 42.1%。

如果你用最大的 EchoJEPA-G 模型，用 1% 的数据就能跑到 78.6%，几乎双杀了全量数据训练的对手。

这说明什么？说明 latent prediction（潜在预测）学到的 representation（表征）极其稠密，它不需要海量标注就能理解什么是“心脏视图”。

零样本“秒杀”儿科数据

更有意思的一幕发生了。

研究团队把在成人数据上训练好的模型，直接扔到了儿科心脏数据集上（Zero-shot）。

这可是完全不同的领域。小孩心脏小、比例不同、病理分布也完全不同。按照惯例，模型肯定得崩，或者至少得重新微调。

AI配图

结果呢？

EchoJEPA-G 在完全没见过儿科数据的情况下，直接超越了所有经过微调的基线模型。

哪怕是微调之后，它依然保持着 15% 的领先优势。

这让我不得不感叹一句：当 AI 真正理解了“生理学”而不是“像素”之后，这种泛化能力简直就是降维打击。

抗噪能力：这才是临床需要的

最后，还有一个点特别打动我。

临床环境是复杂的，探头角度不对、病人配合度差，画面里全是噪点。

研究团队特意加了物理模拟的干扰（深度衰减、高斯阴影）。结果，其他模型的性能暴跌了 16.8%，而 EchoJEPA 只下降了 2.3%。

这就好比在吵闹的酒吧里聊天，别人还在试图听清每一句背景噪音，而你已经直接抓住了对方说话的逻辑。

这才是医疗 AI 该有的样子：鲁棒、稳定、不被表象迷惑。

写在最后

EchoJEPA 的出现，不仅仅是发了一篇论文那么简单。

它用实打实的数据证明了 LeCun 那套“世界模型”理论在医疗领域的巨大潜力。

以前的 AI，更像是在“背图”，背得越多，算得越准；而现在的 EchoJEPA，开始尝试“理解”，理解心脏作为一个生物系统的运作规律。

我个人觉得，这可能是一个分水岭。

当 AI 开始学会忽略噪点、直击本质，我们离真正可靠的“AI 医生”，或许又近了一大步。

至于那些还在死磕像素重建的方法？嗯，是时候该换个思路了。

参考链接：
https://x.com/BoWang87/status/2019864109517611440