0.6B参数暴打3B巨头?这家阿联酋实验室把"简单"做到了极致

一个只有6亿参数的模型,在视觉理解上把Meta的SAM 3按在地上摩擦。

当所有人都在堆参数、堆模块、堆Pipeline复杂度时,阿布扎比技术创新研究所(TII)的团队掏出了一把"简单"的刀,直接把视觉AI的玩法砍回了原点。他们没有搞复杂的分离式编码器,没有搞 late fusion,而是让图像和文本从第一层Transformer就开始共享参数

结果?在SA-Co基准上,Falcon Perception以68.0的Macro-F1碾压SAM 3的62.3。在需要读懂文字、理解空间关系、分辨"左边第三个人"这种复杂提示上,领先优势扩大到20个百分点以上

更离谱的是他们顺手发布的Falcon OCR——0.3B参数,在文档理解基准上追平了那些3B-10B参数的巨兽。

这背后是一个被刻意忽视的真相:我们可能把视觉AI想复杂了。

视觉AI的"Pipeline陷阱"

过去几年,开放词汇分割(open-vocabulary segmentation)走了一条越来越复杂的路。

AI配图

典型玩法是这样的:先搞一个强大的视觉backbone(比如DINOv3)提特征,再搞一个文本encoder(比如CLIP)提语义,然后设计复杂的融合模块、匹配算法、后处理pipeline。SAM 3就是这种思路的集大成者——它很强,但也很重。

问题在于,每解决一个新场景,就加一个新模块。 要处理OCR?加个OCR分支。要处理空间关系?加个空间推理层。系统越来越像弗兰肯斯坦的怪物,训练越来越难调,推理越来越慢。

TII团队问了一个"天真"的问题:如果从一开始就让像素和文字在同一个参数空间里纠缠,会怎么样?

Early Fusion:从第一层就开始"谈恋爱"

Falcon Perception的核心架构叫Early Fusion(早期融合)。

传统架构像异地恋:图像和文本各自处理,最后在某个中间层"相亲"(late fusion)。而Falcon Perception让图像patch和文本token从输入层就混在一起,用同一套Transformer权重处理。

AI配图

这听起来简单,做起来很"苦涩"——他们甚至把它叫做"bitter approach"。

图像token可以双向互看(像vision encoder),文本和task token只能因果地看(像language model)。同一个backbone,同时扮演视觉编码器和语言解码器。

这种设计打破了常规认知。通常人们认为视觉和语言特征空间差异太大,必须分开处理。但TII发现,只要给够规模和训练信号,让模型自己学会在像素和词向量之间找关联,比人工设计的融合模块更强大

Chain-of-Perception:像人类一样"先看大概,再看细节"

光有融合不够,密集预测(dense prediction)的输出怎么搞?

Falcon Perception设计了一个Chain-of-Perception(感知链)机制。它不像传统模型那样直接吐mask,而是让模型一步步来

  1. 先猜目标中心在哪(解决"是哪个物体")
  2. 再猜大小(解决"占多大地方")
  3. 最后生成掩码(解决"边界在哪")

这种"由粗到细"(coarse-to-fine)的策略,配合傅里叶特征编码(把坐标映射到高频空间,避免神经网络对低频信号的偏好),让0.6B的小模型拥有了惊人的定位精度。

有意思的是,分割头(segmentation head)的设计极其简单:没有复杂的mask query,没有匈牙利匹配,就是一个点积——把 token的隐状态和高分辨率图像特征做内积,mask就生成了。

简单到令人发指,有效到令人嫉妒。

PBench:把SAM 3打回原形的"照妖镜"

为了系统性测试,TII还搞了个新基准叫PBench,把测试样本按难度分级:

  • L0简单物体("汽车")
  • L1属性绑定("红色的汽车")
  • L2OCR引导("写着Diet Coke的瓶子")
  • L3空间关系("左边的第三辆车")
  • L4关系推理("拿着伞的人")
  • Dense密集场景(几百个实例)

结果堪称屠杀:

能力维度 SAM 3 Falcon Perception 差距
L0 简单物体 64.3 65.1 +0.8
L1 属性 54.4 63.6 +9.2
L2 OCR引导 24.6 38.0 +13.4
L3 空间 31.6 53.5 +21.9
L4 关系 33.3 49.1 +15.8
Dense 密集 58.4 72.6 +14.2

当提示涉及文字时,SAM 3几乎是盲人。 比如提示"168号酒瓶",Falcon Perception能准确找到标签写着168的瓶子,而SAM 3只能把所有酒瓶都标出来。

当提示涉及空间位置时,差距扩大到22个百分点。 "左下角烤肉架上的肉串"这种描述,Falcon Perception能理解,SAM 3直接懵圈。

在密集场景下,Falcon Perception能处理数百个实例,而SAM 3的固定query数量导致其在200个实例后就"内存不足"。

0.6B vs 数十亿参数,这不是以小博大,这是架构代差。

隐藏Boss:0.3B参数的OCR怪物

更让人意外的是Falcon OCR。这个基于相同early fusion架构、只有0.3B参数的模型,在文档理解上掀翻了桌子:

  • olmOCR80.3%准确率(与SOTA差距仅1.7%)
  • OmniDocBench88.64分,超过DeepSeek OCR v2、GPT 5.2、Mistral OCR 3
  • 多列布局87.1%(领先所有对手)
  • 表格识别90.3%

3亿参数打30亿,速度还快3倍。 在A100单卡上,配合vLLM能达到5825 token/秒(2.9张图/秒)。

这验证了一个疯狂的想法:OCR不需要巨大的分离式编码器-解码器架构。 只要让图像patch和文本token从第一层就共享权重,小模型也能学会"看"和"读"的微妙关联。

苦涩的教训,又一次

Falcon Perception的论文标题里藏着一个词:"Bitter Lesson"

这是AI界的一个著名概念——长期来看,利用计算力、数据和简单可扩展的方法,总是优于人工设计的复杂知识工程

TII团队把这个教训落实到了极致:

  • 一个backbone,不搞分离式架构
  • 一个目标函数,纯next-token prediction
  • 轻量级head,只在必要时加inductive bias
  • 700 GT(GPU训练天数),用数据和训练信号硬刚

他们没有在架构上耍花招,而是把功夫下在数据上:5400万张图,1.95亿正样本表达式,4.88亿困难负样本,用SAM 3、Qwen3-VL-30B和Moondream3做集成共识筛选,再人工验证。

当行业在卷pipeline复杂度时,他们在卷"简单架构+优质数据"的纯度。

但别急着开香槟

说实话,Falcon Perception并非完美。在存在性校准(presence calibration)上,它的MCC只有0.64,远低于SAM 3的0.82。这意味着它有时会"幻觉"出不存在的东西,或者在应该回答"没有"的时候强行分割。

早期融合架构在极端抽象的语言描述上表现如何?素材没提,但这是个隐患——当文本查询变得极其抽象时,early fusion是否还能保持优势?

AI配图

另外,0.6B参数虽然小,但early fusion意味着图像和文本token要在同一序列里竞争计算,长序列的内存压力怎么解决?TII用了FlexAttention和scatter-and-pack策略,但实际部署中的效率损耗仍需观察。

留给行业的思考题

Falcon Perception的出现像一记耳光。

它提醒我们:视觉AI的护城河可能不在参数规模,而在"如何让像素和文字真正理解彼此"

当GPT-4V、Gemini、Claude们越来越重,TII用一个小模型证明,简单架构+早期融合+足够的数据,就能在特定领域(密集定位、OCR、空间关系)实现越级打击。

这会不会引发一波"返璞归真"的潮流?毕竟,训练一个0.6B的early fusion模型,比微调一个8B的VLM要便宜得多。

下一次当你面对一个需要"看懂图片里左边第三个人拿着的写着字的牌子"的需求时,你会选择部署几十亿参数的通用大模型,还是一个6亿参数的"简单"专家?

答案可能比你想象的更苦涩,也更甜蜜。

【kimi-k2.5锐评】:当所有人都在给模型做"加法"堆模块时,TII用"减法"证明了early fusion的暴力美学——原来让图像和文本从第一层就"同居",比精心设计的"相亲流程"管用得多。

参考链接:
https://x.com/dahou_yasser/status/2039242378809385331