2018年,谢赛宁在小黑屋里关了五六个小时,出来的时候天都黑了。
面试官是OpenAI的联合创始人John Schulman,手里拿着一张A4纸,上面是手写的铅笔题。一切都很有“初创公司”的味道。
offer很快发过来了。
然后Ilya Sutskever的电话打了过来。这位后来的“AI大神”语气非常严厉,想知道为什么谢赛宁连讨论都不讨论,就直接把OpenAI拒了。
“是我们给的钱不够吗?”
那时候OpenAI的package大概是40-50万美金。对于一个刚毕业的PhD来说,这是顶薪。
谢赛宁的回答很简单:抱歉,我去FAIR。
电话那头的Ilya生气了。但他不知道,这只是一个开始。6年后,Ilya会再次给谢赛宁打电话。那时候Ilya已经离开了OpenAI,创立了SSI。
而谢赛宁,再次拒绝了他。
两次拒绝Ilya的男人,却说自己是“普通人”。
这就有意思了。
那个在寝室打游戏的高光时刻
“我的高光时刻?大概是大学提前进校的那个暑假,两个月啥也没干,就在寝室打Dota。”
谢赛宁说出这句话的时候,语气里带着一种怀念。那是他人生中最后一次“虚度时光”。
此后的十几年,他一路从上海交大ACM班,到新加坡国立大学实习,再到UCSD读博,5次实习横跨NEC、Adobe、Meta、Google、DeepMind,最后加入FAIR,成为何恺明的同事,又跳到NYU做教授,现在和图灵奖得主Yann LeCun一起创业。
这条履历,怎么看都不像“普通人”。
但谢赛宁坚持这么说。他的理由是:跟那些一路保送、竞赛金牌、本科发顶会、博士毕业直接四大教职的“A Class”相比,他确实是个“B Class”。
“我很多决策其实还是蛮玄学的,”他说,“并没有刻意在优绩主义的框架下去努力追求什么。”
这种“玄学”,从他本科拒绝去微软亚研院实习就开始了。
那时候ACM班的学生都要出去实习6个月,大部分人乖乖去了微软亚洲研究院。谢赛宁不愿意,因为他想做的计算机视觉方向,在亚研院没有组愿意收本科生。
他自己发邮件联系了新加坡国立大学的颜水成实验室。敲定之后才去找班主任俞勇老师说:我不想去亚研院,我想去新加坡。
“俞老师沉默了几秒,最后说好,你去吧。”
这沉默的几秒里,大概包含了无数复杂情绪。但在谢赛宁看来,这是他第一次“take initiative”,做自己想做的事。
世界不让我做视觉
有意思的是,谢赛宁想做计算机视觉这件事,一直被“世界”阻拦。
本科申请时,他想去的学校、想跟的老师,统统没戏。最后差点要去做什么推荐系统的研究,直到4月份,离截止日期只剩几天,屠卓文教授把他“捞”了起来。
他拿到了UCLA的offer,办好签证,准备入学。
然后屠老师一周前告诉他:我要跳槽了,去一个还不能告诉你的学校。
“你有几个选择,”屠老师说,“可以留在UCLA被其他老师托管,也可以等我确定了新地方再跟我一起走。”
谢赛宁想都没想:我跟你走。
几个月后,他知道那个地方叫UCSD。在当时,UCSD的排名、AI方向的实力,都远不如UCLA。
“我不在意学校,”他说,“我在意的是跟谁做什么事。”
这是他的选择逻辑:抛开所有噪音,只看本质。
后来的故事证明,这个选择没错。屠卓文成了那个“坐在显示器旁边,一行一行跟你对代码”的导师。从Deeply Supervised Nets到Holistically-Nested Edge Detection,谢赛宁的博士工作,都是在UCSD完成的。
博二那年,他的论文拿了马尔奖提名(相当于最佳论文提名)。站在领奖台上的时候,他觉得“人生开始了”。
然后现实就把他打翻在地。
一个月,何恺明,和ResNeXt
谢赛宁的博士期间,实习了5次。
从NEC Labs到Adobe,从Meta到Google再到DeepMind。大部分实习,都没做出什么东西。尤其在Adobe那段时间,他特别消沉。
然后他去了Meta的FAIR实验室。
那是他实习的第二个月,前两个月依然什么都没做出来。然后何恺明加入了FAIR。
“他第一次来美国,人生地不熟,不会开车,也不会用Linux。”谢赛宁开着车带他出去吃饭,送他回家,教他用集群。
那时候,恺明在微软都用Windows编程。
然后恺明说:要不我们来打一下ImageNet Challenge?
只剩一个月了。
“他的魔力在于,能把所有看起来很普通的东西,变成一个金子般的idea。”
那个idea,就是ResNeXt。X是“Xie”的X,恺明说这是“Xie‘s ResNet”。
一个月,从一个不工作的实习生,到一篇顶会论文的一作。谢赛宁第一次见识到,什么叫“顶尖研究员”。
“research从来不是一个线性的发展,”他说,“我很多最好的工作,都是同样的节奏:一开始怎么做都做不出来,最后一个月突然灵光迸发,然后把事情收敛。”
这成了他的方法论。
论文被拒稿的学问
Deeply Supervised Nets第一次投NeurIPS,分数是886或887,很高。
但还是被拒了。
理由很离谱:论文里有个数学公式,本应是平方,他们漏写了那个平方符号。纯粹一个笔误,几分钟就能fix。但审稿人没看到,program chair说这个数学错误导致整个公式不成立。
拒稿。
“那时候大家会非常非常抠这些细节。”谢赛宁说。换到今天,可能根本没人检查公式。
这篇论文最后投了AISTATS,去年拿了Test of Time Award——十年后,它成了影响力最大的论文之一。
所以谢赛宁现在跟学生说:不要在乎每一个时刻的成败。从数学角度来说,不要在乎一个point estimate,所有的评价直到最后都是一个积分。
但他说这话的时候,也承认:在那一刻,你真的很沮丧。你很难想到10年后的事。
同样的事情反复发生。DiT(Diffusion Transformer)投CVPR,被拒了,理由是“novelty不够”。然后他们什么也没改,投另一个会,中了Oral。
“完全是一个纯粹的随机过程。”
这种随机经历多了,他开始变得“反脆弱”。黑天鹅事件的发生,如果收益比损失大,那这个系统就是反脆弱的。论文被拒也一样——你损失了什么?什么都没损失。但你获得了什么?可能是一个更好的落点。
他现在甚至有点喜欢这种“反脆弱”的感觉。
从质疑JEPA到成为JEPA
2023年1月,谢赛宁离开FAIR,加入NYU做教授。
离开的原因,是FAIR开始变了。ChatGPT出来后,FAIR开了好几个小时的“对齐会议”,讨论“我们到底应该做什么”。这种会开了好几个星期,还是没讨论出结果。
“在我、恺明或者很多研究员心里,这完全是反research的。”他说。
在FAIR的最后一段时间,他和实习生Bill Peebles做了一个工作:把Transformer用在Diffusion Model上,取代U-Net。前两个月,他们想做的是表征学习相关的东西,发现不行。最后一个月,突然发现这个新架构特别简洁、特别efficient、特别scalable。
这个工作叫DiT。
做完之后,Bill Peebles去了OpenAI,后来成了Sora的负责人之一。DiT被用在Sora里。
而谢赛宁去了NYU,开始和Yann LeCun共事。
“我从质疑JEPA,到理解JEPA,到成为JEPA。”他说。
JEPA是Yann LeCun提出的一套认知架构,核心思想是在抽象的表征空间里做预测,而不是在像素空间里做重建。刚开始做自监督学习的时候,他觉得JEPA就是“又一个自监督学习算法”。后来慢慢理解,JEPA其实是一个更广阔的框架,LLM只是其中的一部分。
“Yann每次给同样的talk,那个slides说实话也挺难看的,”谢赛宁说,“但我看了10次20次,每次都有新的收获。”
这种收获不是来自内容本身,而是来自他自己在做的事情。当他有了自己的实践,再看Yann讲的东西,就能找到新的映射。
“它变成了inspiration,不只是knowledge。”
两次拒绝Ilya
2024年7月,Ilya又给谢赛宁发邮件了。
那时候Ilya刚离开OpenAI,创立了SSI。他想邀请谢赛宁一起工作。
这次没有小黑屋面试,也没有手写的铅笔题。他们在纽约街头一起走了走,等餐厅排队的时候,聊了一个话题:
怎么给未来的人工智能赋予爱的能力?
“如果没有爱,我们面临的是一个非常不确定、非常危险的未来。”Ilya说。
谢赛宁听完,问了一个问题:你对多模态怎么看?对计算机视觉怎么看?
Ilya的回答是:我觉得这件事情已经解决得很不错了。
对话到此结束。谢赛宁第二次拒绝了Ilya。
“有爱就一定会有恨,它是一体两面。”谢赛宁后来说,“但当他说视觉已经解决得不错的时候,我觉得我们的路线可能不太一样。”
他想做的事情,叫世界模型。
一个能理解物理世界、能预测动作后果、能做规划和推理的模型。语言只是它的一个接口,不是全部。
而Ilya的SSI,走的还是语言路线。
“兄弟爬山,各自努力。”谢赛宁说。
创业,和那个反向OpenAI的想法
2024年底,谢赛宁做了一个重大决定。
他和Yann LeCun一起创业,公司叫AMI Labs,总部在巴黎,同时在纽约、蒙特利尔、新加坡设办公室。融资目标是差不多10亿美元,团队初始25人。
这个决定的起源很“玄学”:他的一个mentor说,你去问问Yann,他好像在Meta待得不太顺心。
谢赛宁的第一反应是:怎么可能?Yann是AI教父,纯粹的researcher,怎么会创业?
第二周的周一,他和Yann有一对一的meeting。还没等他开口,Yann就说:赛宁,我决定要做一件事,应该在外面做,我想创业。
然后Yann讲了他的想法。
谢赛宁听完发现:这跟我自己想做的事完全一致。
他们要做的,是一个“反向OpenAI”。
正向OpenAI的逻辑是:从互联网下载数据,训练一个Transformer,得到一个智能,然后推向市场。这是LLM的叙事。
反向OpenAI的逻辑是:没有现成的数据可以下载,需要和真实世界里的人、公司合作,获取连续空间的、高维度的、可能有噪音的信号,然后在这个基础上训练一个世界模型。这个模型不一定要很大,但要有足够的抽象能力,能够过滤掉冗余信息,抓住真正重要的东西。
“语言模型的Scaling Law里是有水分的,”谢赛宁说,“它不需要真正理解这个世界,只需要能检索出factual knowledge。”
而世界模型的Scaling Law,可能会完全不同。
硅谷被催眠了
为什么不在硅谷创业?
“硅谷已经被LLM催眠了。”谢赛宁说。
被催眠的人,总会醒来的。但醒来之前,他们不相信任何别的东西。
很多硅谷投资人给他们的反馈是不相信。不相信LLM之外的路线,不相信世界模型的叙事,不相信Yann LeCun这个“固执的老头”还能做出什么新东西。
但在世界其他地方,相信的人更多。
“我不知道比例是多少,”谢赛宁说,“但我们有很多人相信,也有很多人不相信。”
他把这称为“underdog”的状态——在某种行业的压迫下生存的公司。Yann LeCun,这个AI教父,在投资人面前也是一半支持一半反对。
“他不是众星捧月的那种英雄,他是一个坚守自己、永远尝试做下一件事情、但这件事情还没有做成功的这么一个人。”
谢赛宁喜欢这种underdog的身份。
“做research也是一样,你们越不相信我,我越happy。”
42
采访快结束的时候,我问谢赛宁:这个世界是一个巨大的世界模型吗?
他说:当然。
又问:那你能预测命运吗?
他笑了:不能。
为什么?
因为我们资源不够。你需要用地球这么大的一个计算机,或者说整个宇宙作为你的计算机,才能告诉你一个关于生命、关于宇宙、关于任何事情的答案。
那个答案,最后可能是42。
这是《银河系漫游指南》里的梗。一台超级计算机花了750万年计算“生命、宇宙以及一切终极问题的答案”,结果是42。
谢赛宁喜欢这个答案。
不是因为它是正确的,而是因为它提醒我们:有些问题,可能根本没有答案。我们能做的,只是不停地问,不停地探索,不停地做选择。
就像他这些年的所有选择一样。
从拒绝去微软亚研院,到跟着屠卓文去UCSD;从拒绝OpenAI,到跟着Yann LeCun创业;从质疑JEPA,到成为JEPA。
每一个选择都挺“玄学”,但每一个选择都在遵循同一个逻辑:做自己想做的事,跟想共事的人一起。
“每一个个体都是这个世界的一个变量,”他说,“有可能谁说的准呢,有可能你就是这个世界上最重要的那个变量。”
这句话,大概就是他对自己“普通人”定位的最好注解。
普通人也好,天选之子也罢,重要的是:你相信什么,然后因为相信而看见。
不是因为看见所以相信。
这是他在ACM班时,俞勇老师说过的话。
【deepseek 锐评】:所谓“普通人”,不过是那些在命运拐角处,永远选择听从内心而非外界喧嚣的人。
参考链接:
https://x.com/zhang_benita/status/2033467851655512142