Falcon Perception：开源指代表达分割模型及0.3B OCR模型发布

0.6B参数暴打3B巨头？这家阿联酋实验室把"简单"做到了极致

一个只有6亿参数的模型，在视觉理解上把Meta的SAM 3按在地上摩擦。

当所有人都在堆参数、堆模块、堆Pipeline复杂度时，阿布扎比技术创新研究所（TII）的团队掏出了一把"简单"的刀，直接把视觉AI的玩法砍回了原点。他们没有搞复杂的分离式编码器，没有搞 late fusion，而是让图像和文本从第一层Transformer就开始共享参数。

结果？在SA-Co基准上，Falcon Perception以68.0的Macro-F1碾压SAM 3的62.3。在需要读懂文字、理解空间关系、分辨"左边第三个人"这种复杂提示上，领先优势扩大到20个百分点以上。

更离谱的是他们顺手发布的Falcon OCR——0.3B参数，在文档理解基准上追平了那些3B-10B参数的巨兽。

这背后是一个被刻意忽视的真相：我们可能把视觉AI想复杂了。

视觉AI的"Pipeline陷阱"

过去几年，开放词汇分割（open-vocabulary segmentation）走了一条越来越复杂的路。

AI配图

典型玩法是这样的：先搞一个强大的视觉backbone（比如DINOv3）提特征，再搞一个文本encoder（比如CLIP）提语义，然后设计复杂的融合模块、匹配算法、后处理pipeline。SAM 3就是这种思路的集大成者——它很强，但也很重。

问题在于，每解决一个新场景，就加一个新模块。 要处理OCR？加个OCR分支。要处理空间关系？加个空间推理层。系统越来越像弗兰肯斯坦的怪物，训练越来越难调，推理越来越慢。

TII团队问了一个"天真"的问题：如果从一开始就让像素和文字在同一个参数空间里纠缠，会怎么样？

Early Fusion：从第一层就开始"谈恋爱"

Falcon Perception的核心架构叫Early Fusion（早期融合）。

传统架构像异地恋：图像和文本各自处理，最后在某个中间层"相亲"（late fusion）。而Falcon Perception让图像patch和文本token从输入层就混在一起，用同一套Transformer权重处理。

AI配图

这听起来简单，做起来很"苦涩"——他们甚至把它叫做"bitter approach"。

图像token可以双向互看（像vision encoder），文本和task token只能因果地看（像language model）。同一个backbone，同时扮演视觉编码器和语言解码器。

这种设计打破了常规认知。通常人们认为视觉和语言特征空间差异太大，必须分开处理。但TII发现，只要给够规模和训练信号，让模型自己学会在像素和词向量之间找关联，比人工设计的融合模块更强大。

Chain-of-Perception：像人类一样"先看大概，再看细节"

光有融合不够，密集预测（dense prediction）的输出怎么搞？

Falcon Perception设计了一个Chain-of-Perception（感知链）机制。它不像传统模型那样直接吐mask，而是让模型一步步来：

：先猜目标中心在哪（解决"是哪个物体"）
：再猜大小（解决"占多大地方"）
：最后生成掩码（解决"边界在哪"）

这种"由粗到细"（coarse-to-fine）的策略，配合傅里叶特征编码（把坐标映射到高频空间，避免神经网络对低频信号的偏好），让0.6B的小模型拥有了惊人的定位精度。

有意思的是，分割头（segmentation head）的设计极其简单：没有复杂的mask query，没有匈牙利匹配，就是一个点积——把 token的隐状态和高分辨率图像特征做内积，mask就生成了。

简单到令人发指，有效到令人嫉妒。

PBench：把SAM 3打回原形的"照妖镜"

为了系统性测试，TII还搞了个新基准叫PBench，把测试样本按难度分级：

L0：简单物体（"汽车"）
L1：属性绑定（"红色的汽车"）
L2：OCR引导（"写着Diet Coke的瓶子"）
L3：空间关系（"左边的第三辆车"）
L4：关系推理（"拿着伞的人"）
Dense：密集场景（几百个实例）

结果堪称屠杀：

能力维度	SAM 3	Falcon Perception	差距
L0 简单物体	64.3	65.1	+0.8
L1 属性	54.4	63.6	+9.2
L2 OCR引导	24.6	38.0	+13.4
L3 空间	31.6	53.5	+21.9
L4 关系	33.3	49.1	+15.8
Dense 密集	58.4	72.6	+14.2

当提示涉及文字时，SAM 3几乎是盲人。 比如提示"168号酒瓶"，Falcon Perception能准确找到标签写着168的瓶子，而SAM 3只能把所有酒瓶都标出来。

当提示涉及空间位置时，差距扩大到22个百分点。 "左下角烤肉架上的肉串"这种描述，Falcon Perception能理解，SAM 3直接懵圈。

在密集场景下，Falcon Perception能处理数百个实例，而SAM 3的固定query数量导致其在200个实例后就"内存不足"。

0.6B vs 数十亿参数，这不是以小博大，这是架构代差。

隐藏Boss：0.3B参数的OCR怪物

更让人意外的是Falcon OCR。这个基于相同early fusion架构、只有0.3B参数的模型，在文档理解上掀翻了桌子：

olmOCR：80.3%准确率（与SOTA差距仅1.7%）
OmniDocBench：88.64分，超过DeepSeek OCR v2、GPT 5.2、Mistral OCR 3
多列布局：87.1%（领先所有对手）
表格识别：90.3%

3亿参数打30亿，速度还快3倍。 在A100单卡上，配合vLLM能达到5825 token/秒（2.9张图/秒）。

这验证了一个疯狂的想法：OCR不需要巨大的分离式编码器-解码器架构。 只要让图像patch和文本token从第一层就共享权重，小模型也能学会"看"和"读"的微妙关联。

苦涩的教训，又一次

Falcon Perception的论文标题里藏着一个词："Bitter Lesson"。

这是AI界的一个著名概念——长期来看，利用计算力、数据和简单可扩展的方法，总是优于人工设计的复杂知识工程。

TII团队把这个教训落实到了极致：

一个backbone，不搞分离式架构
一个目标函数，纯next-token prediction
轻量级head，只在必要时加inductive bias
700 GT（GPU训练天数），用数据和训练信号硬刚

他们没有在架构上耍花招，而是把功夫下在数据上：5400万张图，1.95亿正样本表达式，4.88亿困难负样本，用SAM 3、Qwen3-VL-30B和Moondream3做集成共识筛选，再人工验证。

当行业在卷pipeline复杂度时，他们在卷"简单架构+优质数据"的纯度。

但别急着开香槟

说实话，Falcon Perception并非完美。在存在性校准（presence calibration）上，它的MCC只有0.64，远低于SAM 3的0.82。这意味着它有时会"幻觉"出不存在的东西，或者在应该回答"没有"的时候强行分割。

早期融合架构在极端抽象的语言描述上表现如何？素材没提，但这是个隐患——当文本查询变得极其抽象时，early fusion是否还能保持优势？

AI配图

另外，0.6B参数虽然小，但early fusion意味着图像和文本token要在同一序列里竞争计算，长序列的内存压力怎么解决？TII用了FlexAttention和scatter-and-pack策略，但实际部署中的效率损耗仍需观察。

留给行业的思考题

Falcon Perception的出现像一记耳光。

它提醒我们：视觉AI的护城河可能不在参数规模，而在"如何让像素和文字真正理解彼此"。

当GPT-4V、Gemini、Claude们越来越重，TII用一个小模型证明，简单架构+早期融合+足够的数据，就能在特定领域（密集定位、OCR、空间关系）实现越级打击。

这会不会引发一波"返璞归真"的潮流？毕竟，训练一个0.6B的early fusion模型，比微调一个8B的VLM要便宜得多。

下一次当你面对一个需要"看懂图片里左边第三个人拿着的写着字的牌子"的需求时，你会选择部署几十亿参数的通用大模型，还是一个6亿参数的"简单"专家？

答案可能比你想象的更苦涩，也更甜蜜。

【kimi-k2.5锐评】：当所有人都在给模型做"加法"堆模块时，TII用"减法"证明了early fusion的暴力美学——原来让图像和文本从第一层就"同居"，比精心设计的"相亲流程"管用得多。

参考链接：
https://x.com/dahou_yasser/status/2039242378809385331