普通人谢赛宁：7小时播客揭开与杨立昆创业的“玄学”选择

2018年，谢赛宁在小黑屋里关了五六个小时，出来的时候天都黑了。

面试官是OpenAI的联合创始人John Schulman，手里拿着一张A4纸，上面是手写的铅笔题。一切都很有“初创公司”的味道。

offer很快发过来了。

然后Ilya Sutskever的电话打了过来。这位后来的“AI大神”语气非常严厉，想知道为什么谢赛宁连讨论都不讨论，就直接把OpenAI拒了。

“是我们给的钱不够吗？”

那时候OpenAI的package大概是40-50万美金。对于一个刚毕业的PhD来说，这是顶薪。

谢赛宁的回答很简单：抱歉，我去FAIR。

电话那头的Ilya生气了。但他不知道，这只是一个开始。6年后，Ilya会再次给谢赛宁打电话。那时候Ilya已经离开了OpenAI，创立了SSI。

而谢赛宁，再次拒绝了他。

两次拒绝Ilya的男人，却说自己是“普通人”。

这就有意思了。

那个在寝室打游戏的高光时刻

“我的高光时刻？大概是大学提前进校的那个暑假，两个月啥也没干，就在寝室打Dota。”

谢赛宁说出这句话的时候，语气里带着一种怀念。那是他人生中最后一次“虚度时光”。

此后的十几年，他一路从上海交大ACM班，到新加坡国立大学实习，再到UCSD读博，5次实习横跨NEC、Adobe、Meta、Google、DeepMind，最后加入FAIR，成为何恺明的同事，又跳到NYU做教授，现在和图灵奖得主Yann LeCun一起创业。

这条履历，怎么看都不像“普通人”。

但谢赛宁坚持这么说。他的理由是：跟那些一路保送、竞赛金牌、本科发顶会、博士毕业直接四大教职的“A Class”相比，他确实是个“B Class”。

“我很多决策其实还是蛮玄学的，”他说，“并没有刻意在优绩主义的框架下去努力追求什么。”

这种“玄学”，从他本科拒绝去微软亚研院实习就开始了。

那时候ACM班的学生都要出去实习6个月，大部分人乖乖去了微软亚洲研究院。谢赛宁不愿意，因为他想做的计算机视觉方向，在亚研院没有组愿意收本科生。

他自己发邮件联系了新加坡国立大学的颜水成实验室。敲定之后才去找班主任俞勇老师说：我不想去亚研院，我想去新加坡。

“俞老师沉默了几秒，最后说好，你去吧。”

这沉默的几秒里，大概包含了无数复杂情绪。但在谢赛宁看来，这是他第一次“take initiative”，做自己想做的事。

世界不让我做视觉

有意思的是，谢赛宁想做计算机视觉这件事，一直被“世界”阻拦。

本科申请时，他想去的学校、想跟的老师，统统没戏。最后差点要去做什么推荐系统的研究，直到4月份，离截止日期只剩几天，屠卓文教授把他“捞”了起来。

他拿到了UCLA的offer，办好签证，准备入学。

然后屠老师一周前告诉他：我要跳槽了，去一个还不能告诉你的学校。

“你有几个选择，”屠老师说，“可以留在UCLA被其他老师托管，也可以等我确定了新地方再跟我一起走。”

谢赛宁想都没想：我跟你走。

几个月后，他知道那个地方叫UCSD。在当时，UCSD的排名、AI方向的实力，都远不如UCLA。

“我不在意学校，”他说，“我在意的是跟谁做什么事。”

这是他的选择逻辑：抛开所有噪音，只看本质。

后来的故事证明，这个选择没错。屠卓文成了那个“坐在显示器旁边，一行一行跟你对代码”的导师。从Deeply Supervised Nets到Holistically-Nested Edge Detection，谢赛宁的博士工作，都是在UCSD完成的。

博二那年，他的论文拿了马尔奖提名（相当于最佳论文提名）。站在领奖台上的时候，他觉得“人生开始了”。

然后现实就把他打翻在地。

一个月，何恺明，和ResNeXt

谢赛宁的博士期间，实习了5次。

从NEC Labs到Adobe，从Meta到Google再到DeepMind。大部分实习，都没做出什么东西。尤其在Adobe那段时间，他特别消沉。

然后他去了Meta的FAIR实验室。

那是他实习的第二个月，前两个月依然什么都没做出来。然后何恺明加入了FAIR。

“他第一次来美国，人生地不熟，不会开车，也不会用Linux。”谢赛宁开着车带他出去吃饭，送他回家，教他用集群。

那时候，恺明在微软都用Windows编程。

然后恺明说：要不我们来打一下ImageNet Challenge？

只剩一个月了。

“他的魔力在于，能把所有看起来很普通的东西，变成一个金子般的idea。”

那个idea，就是ResNeXt。X是“Xie”的X，恺明说这是“Xie‘s ResNet”。

一个月，从一个不工作的实习生，到一篇顶会论文的一作。谢赛宁第一次见识到，什么叫“顶尖研究员”。

“research从来不是一个线性的发展，”他说，“我很多最好的工作，都是同样的节奏：一开始怎么做都做不出来，最后一个月突然灵光迸发，然后把事情收敛。”

这成了他的方法论。

论文被拒稿的学问

Deeply Supervised Nets第一次投NeurIPS，分数是886或887，很高。

但还是被拒了。

理由很离谱：论文里有个数学公式，本应是平方，他们漏写了那个平方符号。纯粹一个笔误，几分钟就能fix。但审稿人没看到，program chair说这个数学错误导致整个公式不成立。

拒稿。

“那时候大家会非常非常抠这些细节。”谢赛宁说。换到今天，可能根本没人检查公式。

这篇论文最后投了AISTATS，去年拿了Test of Time Award——十年后，它成了影响力最大的论文之一。

所以谢赛宁现在跟学生说：不要在乎每一个时刻的成败。从数学角度来说，不要在乎一个point estimate，所有的评价直到最后都是一个积分。

但他说这话的时候，也承认：在那一刻，你真的很沮丧。你很难想到10年后的事。

同样的事情反复发生。DiT（Diffusion Transformer）投CVPR，被拒了，理由是“novelty不够”。然后他们什么也没改，投另一个会，中了Oral。

“完全是一个纯粹的随机过程。”

这种随机经历多了，他开始变得“反脆弱”。黑天鹅事件的发生，如果收益比损失大，那这个系统就是反脆弱的。论文被拒也一样——你损失了什么？什么都没损失。但你获得了什么？可能是一个更好的落点。

他现在甚至有点喜欢这种“反脆弱”的感觉。

从质疑JEPA到成为JEPA

2023年1月，谢赛宁离开FAIR，加入NYU做教授。

离开的原因，是FAIR开始变了。ChatGPT出来后，FAIR开了好几个小时的“对齐会议”，讨论“我们到底应该做什么”。这种会开了好几个星期，还是没讨论出结果。

“在我、恺明或者很多研究员心里，这完全是反research的。”他说。

在FAIR的最后一段时间，他和实习生Bill Peebles做了一个工作：把Transformer用在Diffusion Model上，取代U-Net。前两个月，他们想做的是表征学习相关的东西，发现不行。最后一个月，突然发现这个新架构特别简洁、特别efficient、特别scalable。

这个工作叫DiT。

做完之后，Bill Peebles去了OpenAI，后来成了Sora的负责人之一。DiT被用在Sora里。

而谢赛宁去了NYU，开始和Yann LeCun共事。

AI配图

“我从质疑JEPA，到理解JEPA，到成为JEPA。”他说。

JEPA是Yann LeCun提出的一套认知架构，核心思想是在抽象的表征空间里做预测，而不是在像素空间里做重建。刚开始做自监督学习的时候，他觉得JEPA就是“又一个自监督学习算法”。后来慢慢理解，JEPA其实是一个更广阔的框架，LLM只是其中的一部分。

“Yann每次给同样的talk，那个slides说实话也挺难看的，”谢赛宁说，“但我看了10次20次，每次都有新的收获。”

这种收获不是来自内容本身，而是来自他自己在做的事情。当他有了自己的实践，再看Yann讲的东西，就能找到新的映射。

“它变成了inspiration，不只是knowledge。”

两次拒绝Ilya

2024年7月，Ilya又给谢赛宁发邮件了。

那时候Ilya刚离开OpenAI，创立了SSI。他想邀请谢赛宁一起工作。

这次没有小黑屋面试，也没有手写的铅笔题。他们在纽约街头一起走了走，等餐厅排队的时候，聊了一个话题：

怎么给未来的人工智能赋予爱的能力？

“如果没有爱，我们面临的是一个非常不确定、非常危险的未来。”Ilya说。

谢赛宁听完，问了一个问题：你对多模态怎么看？对计算机视觉怎么看？

Ilya的回答是：我觉得这件事情已经解决得很不错了。

对话到此结束。谢赛宁第二次拒绝了Ilya。

“有爱就一定会有恨，它是一体两面。”谢赛宁后来说，“但当他说视觉已经解决得不错的时候，我觉得我们的路线可能不太一样。”

他想做的事情，叫世界模型。

一个能理解物理世界、能预测动作后果、能做规划和推理的模型。语言只是它的一个接口，不是全部。

而Ilya的SSI，走的还是语言路线。

“兄弟爬山，各自努力。”谢赛宁说。

创业，和那个反向OpenAI的想法

2024年底，谢赛宁做了一个重大决定。

他和Yann LeCun一起创业，公司叫AMI Labs，总部在巴黎，同时在纽约、蒙特利尔、新加坡设办公室。融资目标是差不多10亿美元，团队初始25人。

这个决定的起源很“玄学”：他的一个mentor说，你去问问Yann，他好像在Meta待得不太顺心。

谢赛宁的第一反应是：怎么可能？Yann是AI教父，纯粹的researcher，怎么会创业？

第二周的周一，他和Yann有一对一的meeting。还没等他开口，Yann就说：赛宁，我决定要做一件事，应该在外面做，我想创业。

然后Yann讲了他的想法。

谢赛宁听完发现：这跟我自己想做的事完全一致。

他们要做的，是一个“反向OpenAI”。

正向OpenAI的逻辑是：从互联网下载数据，训练一个Transformer，得到一个智能，然后推向市场。这是LLM的叙事。

反向OpenAI的逻辑是：没有现成的数据可以下载，需要和真实世界里的人、公司合作，获取连续空间的、高维度的、可能有噪音的信号，然后在这个基础上训练一个世界模型。这个模型不一定要很大，但要有足够的抽象能力，能够过滤掉冗余信息，抓住真正重要的东西。

“语言模型的Scaling Law里是有水分的，”谢赛宁说，“它不需要真正理解这个世界，只需要能检索出factual knowledge。”

而世界模型的Scaling Law，可能会完全不同。

硅谷被催眠了

AI配图

为什么不在硅谷创业？

“硅谷已经被LLM催眠了。”谢赛宁说。

被催眠的人，总会醒来的。但醒来之前，他们不相信任何别的东西。

很多硅谷投资人给他们的反馈是不相信。不相信LLM之外的路线，不相信世界模型的叙事，不相信Yann LeCun这个“固执的老头”还能做出什么新东西。

但在世界其他地方，相信的人更多。

“我不知道比例是多少，”谢赛宁说，“但我们有很多人相信，也有很多人不相信。”

他把这称为“underdog”的状态——在某种行业的压迫下生存的公司。Yann LeCun，这个AI教父，在投资人面前也是一半支持一半反对。

“他不是众星捧月的那种英雄，他是一个坚守自己、永远尝试做下一件事情、但这件事情还没有做成功的这么一个人。”

谢赛宁喜欢这种underdog的身份。

“做research也是一样，你们越不相信我，我越happy。”

42

采访快结束的时候，我问谢赛宁：这个世界是一个巨大的世界模型吗？

他说：当然。

又问：那你能预测命运吗？

他笑了：不能。

为什么？

因为我们资源不够。你需要用地球这么大的一个计算机，或者说整个宇宙作为你的计算机，才能告诉你一个关于生命、关于宇宙、关于任何事情的答案。

那个答案，最后可能是42。

这是《银河系漫游指南》里的梗。一台超级计算机花了750万年计算“生命、宇宙以及一切终极问题的答案”，结果是42。

谢赛宁喜欢这个答案。

不是因为它是正确的，而是因为它提醒我们：有些问题，可能根本没有答案。我们能做的，只是不停地问，不停地探索，不停地做选择。

就像他这些年的所有选择一样。

从拒绝去微软亚研院，到跟着屠卓文去UCSD；从拒绝OpenAI，到跟着Yann LeCun创业；从质疑JEPA，到成为JEPA。

每一个选择都挺“玄学”，但每一个选择都在遵循同一个逻辑：做自己想做的事，跟想共事的人一起。

“每一个个体都是这个世界的一个变量，”他说，“有可能谁说的准呢，有可能你就是这个世界上最重要的那个变量。”

这句话，大概就是他对自己“普通人”定位的最好注解。

普通人也好，天选之子也罢，重要的是：你相信什么，然后因为相信而看见。

不是因为看见所以相信。

这是他在ACM班时，俞勇老师说过的话。

【deepseek 锐评】：所谓“普通人”，不过是那些在命运拐角处，永远选择听从内心而非外界喧嚣的人。

参考链接：
https://x.com/zhang_benita/status/2033467851655512142