把 Claude Code 变成免费工具？用 Gemma 4 在本地跑，这波操作有点野

如果你是 Claude Code 的重度用户，看到每个月的 API 账单时，心头会不会微微一颤？

要是能白嫖呢？

最近 LM Studio 搞了个大动作，新版 0.4.0 直接支持了 Anthropic 兼容 API。这不仅仅是个接口更新，它意味着你可以把 Claude Code 这个原本依赖云端 API 的生产力工具，强行“嫁接”到本地模型上。

不用给 Anthropic 交钱，数据不出本地，甚至不用联网。

这事儿听着有点“魔改”的味道，但实测下来，居然真的能跑，而且体验比想象中要野。

LM Studio 这次不玩图形界面了

AI配图

以前提到 LM Studio，大家第一反应就是那个好用的图形化客户端。但这回，他们搞了个“无头”模式（Headless CLI）。

简单说，就是你再也不用盯着那个 GUI 窗口了。一行命令 lms daemon up，后台守护进程启动，服务直接跑起来。

这对开发者来说简直是福音。以前想本地跑个模型服务，还得专门开个窗口挂着，现在直接扔后台，SSH 连上服务器也能玩。

安装也极其简单，Mac/Linux 一行 curl，Windows 一行 irm，完事。

# Mac/Linux
curl -fsSL https://lmstudio.ai/install.sh | bash

AI配图

启动守护进程后，下载 Google 刚出的 Gemma 4 26B 模型，也就 17.99 GB。这模型用的是 MoE（混合专家）架构，26B 的参数量，每次推理只激活 4B。

这就好比养了一支 26 人的专家团队，干活的时候只叫其中 4 个人出来。省钱、省力，推理速度还快。

51 tok/s，M4 Pro 有点猛

在 14 寸 MacBook Pro M4 Pro（48 GB 内存）上，这模型跑出了 51.35 tok/s 的成绩。

说实话，这个速度有点超出预期。首字延迟只有 1.5 秒，交互起来完全没有那种“卡顿感”。

来看看这组数据：

Prediction Stats:
  Tokens/Second: 51.35
  Time to First Token: 1.551s
  Prompt Tokens: 39
  Predicted Tokens: 176

而且这还是在开启了 48K 上下文窗口的情况下。

有意思的是，LM Studio 这次加了个 --estimate-only 参数，专门用来算命——算你的内存够不够用。

Gemma 4 基础模型本身大概吃掉 17.6 GiB。上下文越长，内存吃得越多。默认 48K 上下文需要约 21 GiB。如果你想把上下文拉满到 256K？准备好 37.48 GiB 的内存吧。

在 48 GB 的机器上，跑满 256K 上下文，剩下的内存给系统刚好够用，但这基本就是“压线”运行了。

看上面这张图，内存压力直接干到 46.69 GB / 48.00 GB，Swap 都用了 27.49 GB。CPU 温度 91 度，GPU 92 度。

这机器确实在“全速运转”。

这才是真正的“偷天换日”

重头戏来了。

LM Studio 现在支持 Anthropic 兼容端点。这意味着什么？

意味着你可以骗过 Claude Code，让它以为自己在调用 Anthropic 的 API，实际上背后干活的却是你本地的 Gemma 4。

配置方法也不复杂，在你的 ~/.zshrc 里加个函数：

claude-lm() {
    export ANTHROPIC_BASE_URL=http://localhost:1234
    export ANTHROPIC_AUTH_TOKEN=lmstudio
    export ANTHROPIC_MODEL="gemma-4-26b-a4b"
    # ... 其他配置
    claude "$@"
}

核心就是把 ANTHROPIC_BASE_URL 指向本地 LM Studio 的服务地址，然后把所有 Opus、Sonnet、Haiku 的模型名都强制映射成 Gemma 4。

这样一来，你输入 claude-lm，启动的就是一个完全本地化、零费用的 Claude Code。

代码审查、小修改、探索性编程，它都能干。而且数据完全在你自己手里，不用担心代码泄露给云端。

但这事儿真有那么完美吗？

以为捡了便宜，结果显存先爆了？

个人觉得，这波操作虽然骚，但坑也不少。

首先是内存。评论区有老哥一针见血：MoE 省算力，但不省显存。

你推理的时候虽然只激活 4B 参数，但 26B 的权重你得全部加载进内存里。这就像你虽然只派了 4 个专家干活，但你得把整个 26 人的专家库都养在内存里。

所以别以为 MoE 就能省下买内存的钱。

AI配图

其次，推测解码（Speculative Decoding）这招对 MoE 模型基本废了。本来想用小模型加速大模型，结果因为 MoE 每次激活的专家不一样，内存带宽直接被打爆。实测下来，甚至可能变慢。

最后，也是最关键的——能力差距。

Gemma 4 确实不错，但拿来顶替 Claude 3.5 Sonnet 甚至 Opus，还是有点勉强。复杂的多步任务、超长上下文的理解，本地模型目前还是有点“力不从心”。

作者自己也承认，这套 setup 最适合的是单文件任务、代码审查这种轻量级工作。真要搞那种跨几十个文件的重构，还是老老实实给 Anthropic 交钱吧。

而且，有个小 Bug：Gemma 4 在 lms chat 里不会自报家门。问它“你是什么模型”，它只会说自己是“AI 助手”。这倒是不影响使用，就是有点不够“智能”。

锐评

LM Studio 这波更新确实给“白嫖党”开了扇窗，但想完全替代云端 API，你的内存条和耐心可能都得先升级。

参考链接：
https://ai.georgeliu.com/p/running-google-gemma-4-locally-with