彻底告别 API 计费：Mac 零成本极简部署 Qwen3.5 指南

2026 年，大模型的“军备竞赛”卷出了新高度。阿里开源的 Qwen 3.5 系列彻底打破了“小模型不聪明，大模型跑不动”的魔咒。尤其是 Qwen3.5-9B，其逻辑推理和代码补全能力直逼上一代的千亿巨头，却能被轻松塞进个人的电脑里。

但真正的问题是：你真的拥有完全属于自己的 AI 吗？

很多极客和开发者在使用云端 API 时，总会遇到几个绕不开的痛点：

想让 AI 帮你处理私密代码或个人账单，但数据传到云端总觉得隐私堪忧；
跑自动化脚本需要极高频调用，按 Token 计费让人肉疼；
网络一旦波动，整个工作流就会崩溃；
看本地部署教程时，又常常陷入 Python 虚拟环境冲突、CUDA 报错的“配置地狱”，折腾一晚上也跑不起来。

其实，如果你使用的是搭载 Apple Silicon（如 M4 芯片）的 Mac，根本不需要这么痛苦。苹果强大的统一内存架构，天生就是跑大模型的利器。

今天我们抛弃臃肿的 Python 依赖，直接使用高效底层推理框架 llama.cpp，在 Mac 上极简部署 Qwen3.5-9B，并把它封装为一个兼容 OpenAI 格式的本地局域网 API 服务。这套参数特别适配 16GB 统一内存的 Mac：推理丝滑，同时还给日常软件留出空间。

第一步：环境准备与获取源码

打开 Mac 自带“终端（Terminal）”，先确认开发者工具已安装：


# 安装 Xcode 命令行工具（若已安装会提示跳过）
xcode-select --install

然后拉取官方源码：


git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

第二步：榨干 M 系列芯片，多核极速编译

旧时代的 make 已被弃用，我们使用 CMake 构建。Apple Silicon 下 Metal GPU 加速会自动开启。


# 初始化构建环境（Release 模式，优先性能）
cmake -B build -DCMAKE_BUILD_TYPE=Release

# 自动识别 CPU 核心并并行编译
cmake --build build -j$(sysctl -n hw.ncpu)

编译完成后，核心程序位于 ./build/bin/。

第三步：获取高质量量化模型

原生 9B 模型太大，建议下载 4-bit 量化版本（约 5.4GB）。推荐 Unsloth 仓库：


# 进入模型目录
cd models

# 下载模型（大小写需完全一致）
curl -L -o Qwen3.5-9B-Q4_K_M.gguf https://huggingface.co/unsloth/Qwen3.5-9B-GGUF/resolve/main/Qwen3.5-9B-Q4_K_M.gguf

# 返回项目根目录
cd ..

第四步：一键挂载局域网 API 服务


nohup ./build/bin/llama-server \
 -m models/Qwen3.5-9B-Q4_K_M.gguf \
 -c 4096 \
 -ngl 99 \
 --host 0.0.0.0 \
 --port 8080 \
 > api_server.log 2>&1 &

参数速览（重点）：

-ngl 99：把主要层数交给 Metal GPU，避免 CPU 龟速推理。
-c 4096：16GB 内存的“甜点”上下文窗口。若是 64GB 设备，可尝试调到 8192 甚至更高。
--host 0.0.0.0：允许局域网内其他设备访问。

第五步：服务验证与优雅关闭

查看实时日志：


tail -f api_server.log

看到 listening at http://0.0.0.0:8080 后，按 Ctrl + C 退出日志窗口。如果你想彻底关闭模型释放内存：


pkill -f llama-server

现在，你的 Mac 已在 8080 端口跑起一个免费、无限火力、绝对隐私的 OpenAI 兼容接口。你可以把 http://127.0.0.1:8080/v1 填入任何支持自定义 API 地址的应用：

接入本地自动化框架（例如 OpenClaw）
让 Qwen3.5-9B 负责复杂文本解析
用于 UI 树节点提取与任务脚本生成

全程局域网/本地运行，成本可控、隐私可控。别让你的 M 系列芯片闲着了——今晚就花 5 分钟，把它跑起来。

—

关机重启后如何快速拉起服务

你只需要做简单的两步：

第一步：进入你的 llama.cpp 文件夹

如果你之前是默认下载在用户根目录，打开终端运行：


cd ~/llama.cpp

第二步：重新运行启动命令

直接复制粘贴以下命令回车即可：


nohup ./build/bin/llama-server \
 -m models/Qwen3.5-9B-Q4_K_M.gguf \
 -c 4096 \
 -ngl 99 \
 --host 0.0.0.0 \
 --port 8080 \
 > api_server.log 2>&1 &

跑完这串命令，模型就在后台静默运行了。

💡 偷懒小技巧（一键启动脚本）：

如果你不想每次重启都复制这么长一串命令，可以在 llama.cpp 文件夹里创建一个快捷脚本：

终端运行：echo 'nohup ./build/bin/llama-server -m models/Qwen3.5-9B-Q4_K_M.gguf -c 4096 -ngl 99 --host 0.0.0.0 --port 8080 > api_server.log 2>&1 &' > start_ai.sh
赋予执行权限：chmod +x start_ai.sh

以后每次重启电脑，只要打开终端输入 ./start_ai.sh，模型就瞬间上线了。