爆改10年前洋垃圾跑260亿参数大模型!谁说没H100就不配玩AI?
当整个科技圈都在为几十万一张的H100挤破头,当你买个API Token都要精打细算时,有人干了一件极度离谱的事。
他把一个2026年最前沿的260亿参数大模型,塞进了一台2016年的废旧服务器里。
没GPU,没DDR5,连AVX-512指令集都没有。只有一颗尘封十年的Intel Xeon E5-2620 v4,和128GB慢如蜗牛的DDR3内存。
老实讲,这配置放今天,连收破烂的都嫌占地方。但结果呢?这台老古董不仅跑起来了,生成速度还跟人类阅读速度差不多。
这简直是对算力霸权的一记响亮耳光。
黑盒工具全面摆烂,老硬件只能靠自己
想在这台老破小上跑大模型,主流工具直接给你关门。
不管是Ollama还是标准的llama.cpp,面对这种极限硬件,基本就是两个字:没戏。要么干脆不支持新模型,要么跑起来卡成PPT。
为什么?因为这些黑盒工具把所有性能旋钮全锁死了。
在LLM推理里,真正的拦路虎根本不是算力,而是内存带宽。模型每吐出一个字,都要把几十GB的权重从内存搬到CPU缓存里。CPU算得再快也没用,它得干等着数据慢慢穿过那根比现在慢5到6倍的DDR3总线。
这就是臭名昭著的“内存墙”。H100靠HBM显存绕过去,那我们这颗老Xeon呢?
只能靠魔法。
25个神秘参数,把CPU榨干到最后一滴
既然黑盒靠不住,那就上硬核分支 ik_llama.cpp。这段长达25个参数的启动命令,堪称赛博炼丹术的巅峰:
llama-cli \
--model gemma-4-26B-A4B-it-Q8_0.gguf \
--model-draft gemma-4-26B-A4B-it-assistant-GGUF/wikitext-2-raw_ik-llama-mtp_drafter-conservative/gemma-4-26B-A4B-it-assistant-Q8_0.gguf \
--spec-type mtp --draft-max 3 --draft-p-min 0.0 --spec-autotune \
-cnv --color --jinja --special \
-sm graph -smgs -sas -mea 256 --split-mode-f32 \
--temp 0.7 -t 8 --parallel 8 \
--cpu-moe --merge-up-gate-experts \
--flash-attn on --mla-use 3 \
--mlock --run-time-repack --no-kv-offload
说实话,一半的参数连官方文档都找不到,全靠去GitHub的PR评论区刨代码。更有意思的是,四分之一的参数敲下去会静默失败,系统只是轻描淡写地在日志里跳过。
但每一个参数,都是在给这台老机器续命。
推测解码是第一招。让小模型先猜几个词,大模型只负责验证。在CPU上,算力比带宽便宜得多,让小模型在L3缓存里猜词,简直稳赚不赔。
MoE路由重构是第二招。Gemma 4有128个专家,乱跳会让CPU缓存疯狂失效。加个--cpu-moe,让路由老实点,别把缓存抖没影了。
内存锁死与重排是第三招。--mlock直接告诉Linux内核:这27GB模型给我死死钉在物理内存里,敢换页到硬盘就跟你急!--run-time-repack更暴力,启动时花几秒钟把权重矩阵重新排列,硬生生对齐CPU缓存的胃口。
最离谱的是,开发者ikawrakow居然把Flash Attention移植到了CPU上。这原本是GPU的专属魔法,能把巨大的注意力矩阵计算压缩在缓存里消化。现在,老Xeon也能玩这一套了。
最终,82GB的内存占用,25GB权重,56GB的KV缓存,全在DDR3里跑通了。
易用性护城河,才是最大的谎言
这整场硬核实验,撕开了一个行业遮羞布。
现在的开源AI圈,最喜欢干的事就是扔个没校准的权重文件,然后包一层看似好用的黑盒工具。这些工具为了“易用性”,默认把模型塞进硬盘换页,默认不开启任何极限优化。
他们造出了一道“易用性护城河”。让你觉得不用最新的GPU,不买最贵的云服务,就根本跑不动这些庞然大物。
但这位极客用行动证明:只要你愿意扒开引擎盖,搞懂内存架构和推理引擎的底层逻辑,这道护城河就是个摆设。
泡沫破裂的前夜,还是极客的自嗨?
当然,这事儿也不是没有破绽。
评论区里有人算了一笔账:这台老服务器满载功耗200W,跑起来的电费,可能比直接调OpenRouter的API还要贵。更别提那风扇的轰鸣声,足以让你没法在书房待下去。
而且,12 tokens/s的速度,勉强能跟着读,离丝滑交互还差得远。
个人觉得,这更像是极客的一种“不服气”。我不认同这种玩法能立刻替代云端服务,但它揭示的趋势无法忽视。
HN上的一条评论一针见血:AI真正的终局,不是谁搞出了AGI,而是本地设备上跑的模型,对大多数人来说“足够好”了。一旦到了那一天,现在疯狂堆算力的科技泡沫,瞬间就会土崩瓦解。
当10年前的洋垃圾都能跑起百亿参数模型,那些靠算力焦虑兜售硬件的巨头,晚上还能睡得着吗?
【锐评】:算力霸权是门好生意,但极客的偏执总能把泡沫戳个窟窿。
参考链接:
https://point.free/blog/gemma-4-on-a-2016-xeon/