DeepMind 又甩王炸：AlphaGenome 横空出世，读懂那 98% 的“生命暗物质”

说实话，生物学界等这一天等太久了。

如果你翻看人类基因组图谱，会发现一个极其尴尬的事实：只有不到 2% 的 DNA 负责编码蛋白质，剩下的 98% 曾被科学家傲慢地称为“垃圾 DNA”（Junk DNA）。

但现在我们知道，这 98% 才是真正的“生命控制台”。癌症、罕见病、遗传病，大部分的元凶都藏在这些非编码区里。

问题是，这地方太难读了。

AI配图

就在刚才，Google DeepMind 在《Nature》上扔出了一颗重磅炸弹——AlphaGenome。

这不是一个普通的 AI 模型，它更像是给生命科学界装上了一个“高倍显微镜”加“广角镜头”。它能一次读取 100 万个碱基对的 DNA 序列，并且精确到每一个碱基对的变化。

以前那些做不到的事，现在它全包圆了。

AI配图

不做选择题：我要鱼和熊掌

在 AlphaGenome 出现之前，这个领域的 AI 模型一直面临两个极其让人头疼的“死结”。

要么，你看得远，但看不清。
比如 Enformer、Borzoi 这些前辈，它们能处理很长的序列（比如 200kb 到 500kb），捕捉远距离的调控关系，但代价是分辨率很低。这就像你用卫星地图看城市，知道哪条是主干道，但根本看不清路边有没有井盖。

要么，你看得清，但看不远。
像 SpliceAI 这种专业模型，能精确到单个碱基，但只能处理极短的序列（10kb 以下）。这就像你拿着放大镜趴在地上看，细节是有了，但根本不知道这条路通向哪里。

AlphaGenome 直接把这两个“死结”给解开了。

它采用了 U-Net 风格的架构，配合 Transformer 模块，硬是把 1 Mb（100 万个碱基对） 的超长上下文和 1 bp（单碱基） 的超高分辨率塞进了一个模型里。

这是什么概念？
这意味着它能同时看到“整片森林”和“每一片树叶的脉络”。

更有意思的是，DeepMind 这次没打算造“专用工具”，他们造了一把“瑞士军刀”。

以前的模型，要么专门看剪接，要么专门看染色质可及性，要么专门看基因表达。你要研究一个复杂的变异，得把好几个模型跑一遍，结果还不一定对得上号。

AlphaGenome 是一个真正的多模态模型。

它一口气预测了 11 种不同的数据类型：从 RNA-seq（基因表达）、剪接模式，到染色质可及性（ATAC-seq）、组蛋白修饰，甚至还有 3D 基因组结构（接触图谱）。

数据不会骗人。

在 24 项基因组轨迹预测任务中，它赢了 22 项；
在 26 项变异效应预测任务中，它赢了 25 项。

哪怕是面对那些在自己领域深耕多年的“专才”模型，AlphaGenome 也是毫不留情。
在预测接触图时，它比专业模型 Orca 准确率高了 6.3%；
在预测转录起始位点时，它比 ProCapNet 高了 15%。

我个人觉得，这种“通才碾压专才”的局面，说明 AI 已经开始掌握 DNA 底层那些通用的调控逻辑了，而不是死记硬背某些特定模式。

光说不练假把式。我们来看看 AlphaGenome 是怎么破案的。

科学家们拿一种叫做 T-ALL（T 细胞急性淋巴细胞白血病）的癌症来测试它。这种病里，有一个叫 TAL1 的致癌基因会被异常激活。

但为什么激活？以前大家只能猜。

AlphaGenome 拿到 DNA 序列后，不仅准确预测出了 TAL1 的表达量会飙升，还直接指出了背后的“作案手法”：
它发现某个特定的突变，在 DNA 上凭空创造了一个新的增强子，这个增强子像幽灵一样，远程强行开启了 TAL1 基因。

这还没完，通过“虚拟筛选”，AlphaGenome 还展示了这个突变是如何改变染色质的开放程度，以及转录因子是如何结合上去的。

以前可能需要几个月的湿实验验证，现在模型几秒钟就给出了完整的推理过程。

这就好比福尔摩斯不仅告诉你凶手是谁，还把作案动机、手法、逃跑路线全给你画出来了。

这篇论文里其实藏着一个不起眼，但影响深远的细节。

DeepMind 在训练 AlphaGenome 时，用了一种叫“蒸馏”的技术。
简单说，他们先训练了一堆“老师”模型，然后把这些老师的知识压缩到一个“学生”模型里。

这个“学生”模型有多快？
在 NVIDIA H100 GPU 上，预测一个变异的影响，不到 1 秒钟。

而且，DeepMind 已经把模型权重开源了，API 也开放了。
根据推文里的数据，现在每天有超过 100 万次 API 调用，来自 160 个国家的 3000 多名用户正在用这个模型搞研究。

这让我想起 AlphaFold 刚出来的时候。

以前我们说 AlphaFold 解决了蛋白质结构预测，现在看，AlphaGenome 很有可能在非编码 DNA 领域复刻这个奇迹。

正如网友 @lakshmann 说的：

AlphaFold changed protein structure prediction. AlphaGenome could do the same for understanding the 98% of DNA that doesn't code for proteins.

这不仅仅是技术的胜利，更是科研范式的转移。

当我们在几分钟内就能扫描整个基因组，预测出每一个微小变异可能带来的分子后果时，我们对生命的理解，恐怕要被彻底重写了。

毕竟，读懂了那 98% 的“暗物质”，才算真正读懂了生命的源代码。

参考链接：
https://x.com/GoogleDeepMind/status/2016542480955535475