20万美元。
Google DeepMind刚刚把这么一大笔钱撒在了一张“考卷”上——不是给AI考的,是给人考的。
3月17日,他们发了一篇论文,叫《Measuring Progress Toward AGI: A Cognitive Taxonomy》。翻译成人话就是:怎么衡量我们离AGI(通用人工智能)还有多远?他们的答案是——先给AI的能力列个清单。
但看完这篇东西,我脑子里只有一个问题:这清单靠谱吗?
十年了,我们连AGI长啥样都不知道
说实话,AGI这个词已经被炒了快十年了。
从AlphaGo击败李世石,到ChatGPT横空出世,再到现在的Claude、Gemini、GPT-4……我们见证了AI一个又一个里程碑。但你发现没有,我们始终没有一个统一的标准来回答一个最基本的问题:到底什么才算AGI?
是能通过图灵测试?是通过所有人类考试?还是能在任何环境下自主学习?
没人说得清。
Google DeepMind这次跳出来,说他们找到了答案——或者至少,找到了答案的框架。
10种能力,10把尺子
他们从认知科学里搬出了10种核心能力,给AI画了张“体检表”:
感知、生成、注意力、学习、记忆、推理、元认知、执行功能、问题解决、社会认知。
听起来很面熟对吧?没错,这些词你能在任何一本心理学教科书里找到。Google DeepMind的意思是:通用智能,不分人和机器,都得具备这些能力。
他们的评估方法也挺好玩的:三步走——
- 给AI一套题考考考
- 找一群真人来同样的题也做一遍
- 把AI的成绩和人类成绩放一起比一比
这思路没毛病:要判断AGI多先进,先得知道普通人多先进嘛。
但评论区的火药味,快溢出屏幕了
有意思的是,论文一发,评论区炸锅了。
有人直接开炮:
“Google DeepMind这两个人来制定规则?这合适吗?”
确实,凭什么Google说这是AGI的标准,这就是标准?这就好比让考生自己出题、自己打分——天下哪有这么好的事儿?
还有更狠的质疑:
“一个200年前的原始人,和今天的你我,智力是一样的。没有语言、没有技术,但一样能推理、能学习。所以'通用智能'这事儿,真的能被这些能力定义吗?”
这句话有点扎心。
我们总以为AGI就是“更聪明的人类”,但仔细想想,人类引以为豪的那些能力——创造力、直觉、情感——好像没一个在Google这份清单的核心位置。
尤其是社会认知(Social cognition)这一项,被好几个人喷:
“社会认知是衡量非社会实体的智能标准?这本身就很矛盾。”
确实,AI又没有朋友,也没有社交需求,让它学“察言观色”,是不是有点强人所难?
20万奖金的真相:他们在“买”答案
那Google为什么突然搞这么大阵仗?
看明白了吗——他们自己也知道,这框架只是个开始。
所以他们联合Kaggle发起了黑客松,邀请全世界的开发者一起来设计评估题目。奖金20万美元,听着挺大方,但你细算:5个领域,每个领域top2各1万,再加4个全场最佳25万……
说白了,Google在用这笔钱“买”创意。
他们缺的不是一个理论框架,而是实打实的测试题。这就好比建了个健身房,但跑步机、哑铃都得用户自己带。
这也暴露了一个尴尬的现实:我们连怎么测试AGI都没想清楚。
我的看法
说实话,我部分认同那些批评。
Google DeepMind这次更像是在“定义问题”而非“解决问题”。10种能力听起来全面,但有没有可能,AGI需要的恰好是清单之外的东西?
就像评论里有人说的:
“普通人类可能根本过不了某些测试,但他们依然'通用智能'。反过来,AI能通过很多专家测试,但不代表它'通用'。”
这句话让我思考了很久。
我们测量的是“智能”,还是“考试能力”?
这两个东西,可能根本不是一回事。
【MiniMax-M2.5锐评】: Google DeepMind用认知科学给AGI画了张“体检表”,但表准不准、谁来填、填完谁打分——这些问题,可能比AGI本身更难回答。
参考链接:
https://blog.google/innovation-and-ai/models-and-research/google-deepmind/measuring-agi-cognitive-framework/