说实话,生物学界等这一天等太久了。
如果你翻看人类基因组图谱,会发现一个极其尴尬的事实:只有不到 2% 的 DNA 负责编码蛋白质,剩下的 98% 曾被科学家傲慢地称为“垃圾 DNA”(Junk DNA)。
但现在我们知道,这 98% 才是真正的“生命控制台”。癌症、罕见病、遗传病,大部分的元凶都藏在这些非编码区里。
问题是,这地方太难读了。
就在刚才,Google DeepMind 在《Nature》上扔出了一颗重磅炸弹——AlphaGenome。
这不是一个普通的 AI 模型,它更像是给生命科学界装上了一个“高倍显微镜”加“广角镜头”。它能一次读取 100 万个碱基对的 DNA 序列,并且精确到每一个碱基对的变化。
以前那些做不到的事,现在它全包圆了。
不做选择题:我要鱼和熊掌
在 AlphaGenome 出现之前,这个领域的 AI 模型一直面临两个极其让人头疼的“死结”。
要么,你看得远,但看不清。
比如 Enformer、Borzoi 这些前辈,它们能处理很长的序列(比如 200kb 到 500kb),捕捉远距离的调控关系,但代价是分辨率很低。这就像你用卫星地图看城市,知道哪条是主干道,但根本看不清路边有没有井盖。
要么,你看得清,但看不远。
像 SpliceAI 这种专业模型,能精确到单个碱基,但只能处理极短的序列(10kb 以下)。这就像你拿着放大镜趴在地上看,细节是有了,但根本不知道这条路通向哪里。
AlphaGenome 直接把这两个“死结”给解开了。
它采用了 U-Net 风格的架构,配合 Transformer 模块,硬是把 1 Mb(100 万个碱基对) 的超长上下文和 1 bp(单碱基) 的超高分辨率塞进了一个模型里。
这是什么概念?
这意味着它能同时看到“整片森林”和“每一片树叶的脉络”。
一个打十个:通才碾压专才
更有意思的是,DeepMind 这次没打算造“专用工具”,他们造了一把“瑞士军刀”。
以前的模型,要么专门看剪接,要么专门看染色质可及性,要么专门看基因表达。你要研究一个复杂的变异,得把好几个模型跑一遍,结果还不一定对得上号。
AlphaGenome 是一个真正的多模态模型。
它一口气预测了 11 种不同的数据类型:从 RNA-seq(基因表达)、剪接模式,到染色质可及性(ATAC-seq)、组蛋白修饰,甚至还有 3D 基因组结构(接触图谱)。
数据不会骗人。
在 24 项基因组轨迹预测任务中,它赢了 22 项;
在 26 项变异效应预测任务中,它赢了 25 项。
哪怕是面对那些在自己领域深耕多年的“专才”模型,AlphaGenome 也是毫不留情。
在预测接触图时,它比专业模型 Orca 准确率高了 6.3%;
在预测转录起始位点时,它比 ProCapNet 高了 15%。
我个人觉得,这种“通才碾压专才”的局面,说明 AI 已经开始掌握 DNA 底层那些通用的调控逻辑了,而不是死记硬背某些特定模式。
侦探时刻:抓出癌症背后的“幽灵”
光说不练假把式。我们来看看 AlphaGenome 是怎么破案的。
科学家们拿一种叫做 T-ALL(T 细胞急性淋巴细胞白血病)的癌症来测试它。这种病里,有一个叫 TAL1 的致癌基因会被异常激活。
但为什么激活?以前大家只能猜。
AlphaGenome 拿到 DNA 序列后,不仅准确预测出了 TAL1 的表达量会飙升,还直接指出了背后的“作案手法”:
它发现某个特定的突变,在 DNA 上凭空创造了一个新的增强子,这个增强子像幽灵一样,远程强行开启了 TAL1 基因。
这还没完,通过“虚拟筛选”,AlphaGenome 还展示了这个突变是如何改变染色质的开放程度,以及转录因子是如何结合上去的。
以前可能需要几个月的湿实验验证,现在模型几秒钟就给出了完整的推理过程。
这就好比福尔摩斯不仅告诉你凶手是谁,还把作案动机、手法、逃跑路线全给你画出来了。
反转:真正的赢家是科研效率
这篇论文里其实藏着一个不起眼,但影响深远的细节。
DeepMind 在训练 AlphaGenome 时,用了一种叫“蒸馏”的技术。
简单说,他们先训练了一堆“老师”模型,然后把这些老师的知识压缩到一个“学生”模型里。
这个“学生”模型有多快?
在 NVIDIA H100 GPU 上,预测一个变异的影响,不到 1 秒钟。
而且,DeepMind 已经把模型权重开源了,API 也开放了。
根据推文里的数据,现在每天有超过 100 万次 API 调用,来自 160 个国家的 3000 多名用户正在用这个模型搞研究。
这让我想起 AlphaFold 刚出来的时候。
以前我们说 AlphaFold 解决了蛋白质结构预测,现在看,AlphaGenome 很有可能在非编码 DNA 领域复刻这个奇迹。
正如网友 @lakshmann 说的:
AlphaFold changed protein structure prediction. AlphaGenome could do the same for understanding the 98% of DNA that doesn't code for proteins.
这不仅仅是技术的胜利,更是科研范式的转移。
当我们在几分钟内就能扫描整个基因组,预测出每一个微小变异可能带来的分子后果时,我们对生命的理解,恐怕要被彻底重写了。
毕竟,读懂了那 98% 的“暗物质”,才算真正读懂了生命的源代码。
参考链接:
https://x.com/GoogleDeepMind/status/2016542480955535475