十年老Xeon无GPU跑通26B MoE模型：底层优化实战

封面图

爆改10年前洋垃圾跑260亿参数大模型！谁说没H100就不配玩AI？

当整个科技圈都在为几十万一张的H100挤破头，当你买个API Token都要精打细算时，有人干了一件极度离谱的事。

他把一个2026年最前沿的260亿参数大模型，塞进了一台2016年的废旧服务器里。

没GPU，没DDR5，连AVX-512指令集都没有。只有一颗尘封十年的Intel Xeon E5-2620 v4，和128GB慢如蜗牛的DDR3内存。

老实讲，这配置放今天，连收破烂的都嫌占地方。但结果呢？这台老古董不仅跑起来了，生成速度还跟人类阅读速度差不多。

这简直是对算力霸权的一记响亮耳光。

黑盒工具全面摆烂，老硬件只能靠自己

想在这台老破小上跑大模型，主流工具直接给你关门。

不管是Ollama还是标准的llama.cpp，面对这种极限硬件，基本就是两个字：没戏。要么干脆不支持新模型，要么跑起来卡成PPT。

为什么？因为这些黑盒工具把所有性能旋钮全锁死了。

在LLM推理里，真正的拦路虎根本不是算力，而是内存带宽。模型每吐出一个字，都要把几十GB的权重从内存搬到CPU缓存里。CPU算得再快也没用，它得干等着数据慢慢穿过那根比现在慢5到6倍的DDR3总线。

这就是臭名昭著的“内存墙”。H100靠HBM显存绕过去，那我们这颗老Xeon呢？

只能靠魔法。

25个神秘参数，把CPU榨干到最后一滴

既然黑盒靠不住，那就上硬核分支 ik_llama.cpp。这段长达25个参数的启动命令，堪称赛博炼丹术的巅峰：

llama-cli \
  --model gemma-4-26B-A4B-it-Q8_0.gguf \
  --model-draft gemma-4-26B-A4B-it-assistant-GGUF/wikitext-2-raw_ik-llama-mtp_drafter-conservative/gemma-4-26B-A4B-it-assistant-Q8_0.gguf \
  --spec-type mtp --draft-max 3 --draft-p-min 0.0 --spec-autotune \
  -cnv --color --jinja --special \
  -sm graph -smgs -sas -mea 256 --split-mode-f32 \
  --temp 0.7 -t 8 --parallel 8 \
  --cpu-moe --merge-up-gate-experts \
  --flash-attn on --mla-use 3 \
  --mlock --run-time-repack --no-kv-offload

说实话，一半的参数连官方文档都找不到，全靠去GitHub的PR评论区刨代码。更有意思的是，四分之一的参数敲下去会静默失败，系统只是轻描淡写地在日志里跳过。

但每一个参数，都是在给这台老机器续命。

推测解码是第一招。让小模型先猜几个词，大模型只负责验证。在CPU上，算力比带宽便宜得多，让小模型在L3缓存里猜词，简直稳赚不赔。

MoE路由重构是第二招。Gemma 4有128个专家，乱跳会让CPU缓存疯狂失效。加个--cpu-moe，让路由老实点，别把缓存抖没影了。

内存锁死与重排是第三招。--mlock直接告诉Linux内核：这27GB模型给我死死钉在物理内存里，敢换页到硬盘就跟你急！--run-time-repack更暴力，启动时花几秒钟把权重矩阵重新排列，硬生生对齐CPU缓存的胃口。

最离谱的是，开发者ikawrakow居然把Flash Attention移植到了CPU上。这原本是GPU的专属魔法，能把巨大的注意力矩阵计算压缩在缓存里消化。现在，老Xeon也能玩这一套了。

最终，82GB的内存占用，25GB权重，56GB的KV缓存，全在DDR3里跑通了。

易用性护城河，才是最大的谎言

这整场硬核实验，撕开了一个行业遮羞布。

现在的开源AI圈，最喜欢干的事就是扔个没校准的权重文件，然后包一层看似好用的黑盒工具。这些工具为了“易用性”，默认把模型塞进硬盘换页，默认不开启任何极限优化。

他们造出了一道“易用性护城河”。让你觉得不用最新的GPU，不买最贵的云服务，就根本跑不动这些庞然大物。

但这位极客用行动证明：只要你愿意扒开引擎盖，搞懂内存架构和推理引擎的底层逻辑，这道护城河就是个摆设。

泡沫破裂的前夜，还是极客的自嗨？

当然，这事儿也不是没有破绽。

评论区里有人算了一笔账：这台老服务器满载功耗200W，跑起来的电费，可能比直接调OpenRouter的API还要贵。更别提那风扇的轰鸣声，足以让你没法在书房待下去。

而且，12 tokens/s的速度，勉强能跟着读，离丝滑交互还差得远。

个人觉得，这更像是极客的一种“不服气”。我不认同这种玩法能立刻替代云端服务，但它揭示的趋势无法忽视。

HN上的一条评论一针见血：AI真正的终局，不是谁搞出了AGI，而是本地设备上跑的模型，对大多数人来说“足够好”了。一旦到了那一天，现在疯狂堆算力的科技泡沫，瞬间就会土崩瓦解。

当10年前的洋垃圾都能跑起百亿参数模型，那些靠算力焦虑兜售硬件的巨头，晚上还能睡得着吗？

【锐评】：算力霸权是门好生意，但极客的偏执总能把泡沫戳个窟窿。

参考链接：
https://point.free/blog/gemma-4-on-a-2016-xeon/