2026年5月6日
640

2026 年,大模型的“军备竞赛”卷出了新高度。阿里开源的 Qwen 3.5 系列彻底打破了“小模型不聪明,大模型跑不动”的魔咒。尤其是 Qwen3.5-9B,其逻辑推理和代码补全能力直逼上一代的千亿巨头,却能被轻松塞进个人的电脑里。

但真正的问题是:你真的拥有完全属于自己的 AI 吗?

很多极客和开发者在使用云端 API 时,总会遇到几个绕不开的痛点:

  • 想让 AI 帮你处理私密代码或个人账单,但数据传到云端总觉得隐私堪忧;
  • 跑自动化脚本需要极高频调用,按 Token 计费让人肉疼;
  • 网络一旦波动,整个工作流就会崩溃;
  • 看本地部署教程时,又常常陷入 Python 虚拟环境冲突、CUDA 报错的“配置地狱”,折腾一晚上也跑不起来。

其实,如果你使用的是搭载 Apple Silicon(如 M4 芯片)的 Mac,根本不需要这么痛苦。苹果强大的统一内存架构,天生就是跑大模型的利器。

今天我们抛弃臃肿的 Python 依赖,直接使用高效底层推理框架 llama.cpp,在 Mac 上极简部署 Qwen3.5-9B,并把它封装为一个兼容 OpenAI 格式的本地局域网 API 服务。这套参数特别适配 16GB 统一内存的 Mac:推理丝滑,同时还给日常软件留出空间。

第一步:环境准备与获取源码

打开 Mac 自带“终端(Terminal)”,先确认开发者工具已安装:


# 安装 Xcode 命令行工具(若已安装会提示跳过)
xcode-select --install

然后拉取官方源码:


git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

第二步:榨干 M 系列芯片,多核极速编译

旧时代的 make 已被弃用,我们使用 CMake 构建。Apple Silicon 下 Metal GPU 加速会自动开启。


# 初始化构建环境(Release 模式,优先性能)
cmake -B build -DCMAKE_BUILD_TYPE=Release

# 自动识别 CPU 核心并并行编译
cmake --build build -j$(sysctl -n hw.ncpu)

编译完成后,核心程序位于 ./build/bin/

第三步:获取高质量量化模型

原生 9B 模型太大,建议下载 4-bit 量化版本(约 5.4GB)。推荐 Unsloth 仓库:


# 进入模型目录
cd models

# 下载模型(大小写需完全一致)
curl -L -o Qwen3.5-9B-Q4_K_M.gguf https://huggingface.co/unsloth/Qwen3.5-9B-GGUF/resolve/main/Qwen3.5-9B-Q4_K_M.gguf

# 返回项目根目录
cd ..

第四步:一键挂载局域网 API 服务


nohup ./build/bin/llama-server \
 -m models/Qwen3.5-9B-Q4_K_M.gguf \
 -c 4096 \
 -ngl 99 \
 --host 0.0.0.0 \
 --port 8080 \
 > api_server.log 2>&1 &

参数速览(重点):

  • -ngl 99:把主要层数交给 Metal GPU,避免 CPU 龟速推理。
  • -c 4096:16GB 内存的“甜点”上下文窗口。若是 64GB 设备,可尝试调到 8192 甚至更高。
  • --host 0.0.0.0:允许局域网内其他设备访问。

第五步:服务验证与优雅关闭

查看实时日志:


tail -f api_server.log

看到 listening at http://0.0.0.0:8080 后,按 Ctrl + C 退出日志窗口。如果你想彻底关闭模型释放内存:


pkill -f llama-server

现在,你的 Mac 已在 8080 端口跑起一个免费、无限火力、绝对隐私的 OpenAI 兼容接口。你可以把 http://127.0.0.1:8080/v1 填入任何支持自定义 API 地址的应用:

  • 接入本地自动化框架(例如 OpenClaw)
  • 让 Qwen3.5-9B 负责复杂文本解析
  • 用于 UI 树节点提取与任务脚本生成

全程局域网/本地运行,成本可控、隐私可控。别让你的 M 系列芯片闲着了——今晚就花 5 分钟,把它跑起来。

关机重启后如何快速拉起服务

你只需要做简单的两步:

第一步:进入你的 llama.cpp 文件夹

如果你之前是默认下载在用户根目录,打开终端运行:


cd ~/llama.cpp

第二步:重新运行启动命令

直接复制粘贴以下命令回车即可:


nohup ./build/bin/llama-server \
 -m models/Qwen3.5-9B-Q4_K_M.gguf \
 -c 4096 \
 -ngl 99 \
 --host 0.0.0.0 \
 --port 8080 \
 > api_server.log 2>&1 &

跑完这串命令,模型就在后台静默运行了。

💡 偷懒小技巧(一键启动脚本):

如果你不想每次重启都复制这么长一串命令,可以在 llama.cpp 文件夹里创建一个快捷脚本:

  1. 终端运行:echo 'nohup ./build/bin/llama-server -m models/Qwen3.5-9B-Q4_K_M.gguf -c 4096 -ngl 99 --host 0.0.0.0 --port 8080 > api_server.log 2>&1 &' > start_ai.sh
  2. 赋予执行权限:chmod +x start_ai.sh

以后每次重启电脑,只要打开终端输入 ./start_ai.sh,模型就瞬间上线了。

About The Author

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注