2026 年,大模型的“军备竞赛”卷出了新高度。阿里开源的 Qwen 3.5 系列彻底打破了“小模型不聪明,大模型跑不动”的魔咒。尤其是 Qwen3.5-9B,其逻辑推理和代码补全能力直逼上一代的千亿巨头,却能被轻松塞进个人的电脑里。
但真正的问题是:你真的拥有完全属于自己的 AI 吗?
很多极客和开发者在使用云端 API 时,总会遇到几个绕不开的痛点:
- 想让 AI 帮你处理私密代码或个人账单,但数据传到云端总觉得隐私堪忧;
- 跑自动化脚本需要极高频调用,按 Token 计费让人肉疼;
- 网络一旦波动,整个工作流就会崩溃;
- 看本地部署教程时,又常常陷入 Python 虚拟环境冲突、CUDA 报错的“配置地狱”,折腾一晚上也跑不起来。
其实,如果你使用的是搭载 Apple Silicon(如 M4 芯片)的 Mac,根本不需要这么痛苦。苹果强大的统一内存架构,天生就是跑大模型的利器。
今天我们抛弃臃肿的 Python 依赖,直接使用高效底层推理框架 llama.cpp,在 Mac 上极简部署 Qwen3.5-9B,并把它封装为一个兼容 OpenAI 格式的本地局域网 API 服务。这套参数特别适配 16GB 统一内存的 Mac:推理丝滑,同时还给日常软件留出空间。
第一步:环境准备与获取源码
打开 Mac 自带“终端(Terminal)”,先确认开发者工具已安装:
# 安装 Xcode 命令行工具(若已安装会提示跳过)
xcode-select --install
然后拉取官方源码:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
第二步:榨干 M 系列芯片,多核极速编译
旧时代的 make 已被弃用,我们使用 CMake 构建。Apple Silicon 下 Metal GPU 加速会自动开启。
# 初始化构建环境(Release 模式,优先性能)
cmake -B build -DCMAKE_BUILD_TYPE=Release
# 自动识别 CPU 核心并并行编译
cmake --build build -j$(sysctl -n hw.ncpu)
编译完成后,核心程序位于 ./build/bin/。
第三步:获取高质量量化模型
原生 9B 模型太大,建议下载 4-bit 量化版本(约 5.4GB)。推荐 Unsloth 仓库:
# 进入模型目录
cd models
# 下载模型(大小写需完全一致)
curl -L -o Qwen3.5-9B-Q4_K_M.gguf https://huggingface.co/unsloth/Qwen3.5-9B-GGUF/resolve/main/Qwen3.5-9B-Q4_K_M.gguf
# 返回项目根目录
cd ..
第四步:一键挂载局域网 API 服务
nohup ./build/bin/llama-server \
-m models/Qwen3.5-9B-Q4_K_M.gguf \
-c 4096 \
-ngl 99 \
--host 0.0.0.0 \
--port 8080 \
> api_server.log 2>&1 &
参数速览(重点):
-ngl 99:把主要层数交给 Metal GPU,避免 CPU 龟速推理。-c 4096:16GB 内存的“甜点”上下文窗口。若是 64GB 设备,可尝试调到 8192 甚至更高。--host 0.0.0.0:允许局域网内其他设备访问。
第五步:服务验证与优雅关闭
查看实时日志:
tail -f api_server.log
看到 listening at http://0.0.0.0:8080 后,按 Ctrl + C 退出日志窗口。如果你想彻底关闭模型释放内存:
pkill -f llama-server
现在,你的 Mac 已在 8080 端口跑起一个免费、无限火力、绝对隐私的 OpenAI 兼容接口。你可以把 http://127.0.0.1:8080/v1 填入任何支持自定义 API 地址的应用:
- 接入本地自动化框架(例如 OpenClaw)
- 让 Qwen3.5-9B 负责复杂文本解析
- 用于 UI 树节点提取与任务脚本生成
全程局域网/本地运行,成本可控、隐私可控。别让你的 M 系列芯片闲着了——今晚就花 5 分钟,把它跑起来。
—
关机重启后如何快速拉起服务
你只需要做简单的两步:
第一步:进入你的 llama.cpp 文件夹
如果你之前是默认下载在用户根目录,打开终端运行:
cd ~/llama.cpp
第二步:重新运行启动命令
直接复制粘贴以下命令回车即可:
nohup ./build/bin/llama-server \
-m models/Qwen3.5-9B-Q4_K_M.gguf \
-c 4096 \
-ngl 99 \
--host 0.0.0.0 \
--port 8080 \
> api_server.log 2>&1 &
跑完这串命令,模型就在后台静默运行了。
💡 偷懒小技巧(一键启动脚本):
如果你不想每次重启都复制这么长一串命令,可以在 llama.cpp 文件夹里创建一个快捷脚本:
- 终端运行:
echo 'nohup ./build/bin/llama-server -m models/Qwen3.5-9B-Q4_K_M.gguf -c 4096 -ngl 99 --host 0.0.0.0 --port 8080 > api_server.log 2>&1 &' > start_ai.sh - 赋予执行权限:
chmod +x start_ai.sh
以后每次重启电脑,只要打开终端输入 ./start_ai.sh,模型就瞬间上线了。