Google DeepMind给AGI出了一张“考卷”，但谁来打分？

20万美元。

Google DeepMind刚刚把这么一大笔钱撒在了一张“考卷”上——不是给AI考的，是给人考的。

3月17日，他们发了一篇论文，叫《Measuring Progress Toward AGI: A Cognitive Taxonomy》。翻译成人话就是：怎么衡量我们离AGI（通用人工智能）还有多远？他们的答案是——先给AI的能力列个清单。

但看完这篇东西，我脑子里只有一个问题：这清单靠谱吗？

十年了，我们连AGI长啥样都不知道

说实话，AGI这个词已经被炒了快十年了。

从AlphaGo击败李世石，到ChatGPT横空出世，再到现在的Claude、Gemini、GPT-4……我们见证了AI一个又一个里程碑。但你发现没有，我们始终没有一个统一的标准来回答一个最基本的问题：到底什么才算AGI？

AI配图

是能通过图灵测试？是通过所有人类考试？还是能在任何环境下自主学习？

没人说得清。

Google DeepMind这次跳出来，说他们找到了答案——或者至少，找到了答案的框架。

10种能力，10把尺子

他们从认知科学里搬出了10种核心能力，给AI画了张“体检表”：

感知、生成、注意力、学习、记忆、推理、元认知、执行功能、问题解决、社会认知。

Cognitive Framework

听起来很面熟对吧？没错，这些词你能在任何一本心理学教科书里找到。Google DeepMind的意思是：通用智能，不分人和机器，都得具备这些能力。

他们的评估方法也挺好玩的：三步走——

给AI一套题考考考
找一群真人来同样的题也做一遍
把AI的成绩和人类成绩放一起比一比

这思路没毛病：要判断AGI多先进，先得知道普通人多先进嘛。

但评论区的火药味，快溢出屏幕了

有意思的是，论文一发，评论区炸锅了。

有人直接开炮：

“Google DeepMind这两个人来制定规则？这合适吗？”

确实，凭什么Google说这是AGI的标准，这就是标准？这就好比让考生自己出题、自己打分——天下哪有这么好的事儿？

还有更狠的质疑：

“一个200年前的原始人，和今天的你我，智力是一样的。没有语言、没有技术，但一样能推理、能学习。所以'通用智能'这事儿，真的能被这些能力定义吗？”

这句话有点扎心。

我们总以为AGI就是“更聪明的人类”，但仔细想想，人类引以为豪的那些能力——创造力、直觉、情感——好像没一个在Google这份清单的核心位置。

尤其是社会认知（Social cognition）这一项，被好几个人喷：

“社会认知是衡量非社会实体的智能标准？这本身就很矛盾。”

确实，AI又没有朋友，也没有社交需求，让它学“察言观色”，是不是有点强人所难？

20万奖金的真相：他们在“买”答案

AI配图

那Google为什么突然搞这么大阵仗？

看明白了吗——他们自己也知道，这框架只是个开始。

所以他们联合Kaggle发起了黑客松，邀请全世界的开发者一起来设计评估题目。奖金20万美元，听着挺大方，但你细算：5个领域，每个领域top2各1万，再加4个全场最佳25万……

说白了，Google在用这笔钱“买”创意。

他们缺的不是一个理论框架，而是实打实的测试题。这就好比建了个健身房，但跑步机、哑铃都得用户自己带。

这也暴露了一个尴尬的现实：我们连怎么测试AGI都没想清楚。

我的看法

AI配图

说实话，我部分认同那些批评。

Google DeepMind这次更像是在“定义问题”而非“解决问题”。10种能力听起来全面，但有没有可能，AGI需要的恰好是清单之外的东西？

就像评论里有人说的：

“普通人类可能根本过不了某些测试，但他们依然'通用智能'。反过来，AI能通过很多专家测试，但不代表它'通用'。”

这句话让我思考了很久。

我们测量的是“智能”，还是“考试能力”？

这两个东西，可能根本不是一回事。

【MiniMax-M2.5锐评】： Google DeepMind用认知科学给AGI画了张“体检表”，但表准不准、谁来填、填完谁打分——这些问题，可能比AGI本身更难回答。

参考链接：
https://blog.google/innovation-and-ai/models-and-research/google-deepmind/measuring-agi-cognitive-framework/