Flux2-Klein 生图软件本地部署，完整版教程

[!NOTE]
内容简介（免费与收费内容导读）

本文针对 Black Forest Labs 最新推出的轻量生图模型 Flux2-Klein 4B / 9B 进行本地实战评测与完整部署方案拆解。为了方便阅读，本文分为免费与付费两部分：

🆓 免费版内容包含：

模型定位与选型：4B 与 9B 模型对比，以及针对 12G 到 24G+ 不同显卡的选型指南。

性能实测数据：RX 7900 XTX 24GB 实测冷启动/热启动出图速度与峰值显存占用，并与 FLUX.1 dev FP8 进行直观对比。

避坑前瞻：通俗说明为什么 Klein 不能直接套用旧版 FLUX.1 工作流，以及常见的报错逻辑。

💎 付费版（实战教程）包含：

准备工作：4B/9B 核心模型文件（UNET/VAE/文本编码器）的具体版本选择与存放路径。

环境搭建：ComfyUI 源码安装、虚拟环境配置及 PyTorch GPU 驱动识别验证。

工作流连线：13个核心节点（UNETLoader, Flux2Scheduler, EmptyFlux2LatentImage 等）的具体逻辑连线图解。

启动优化：针对 AMD (ROCm) 与 NVIDIA 显卡的优化启动参数，预防 OOM 报错。

生产 Prompt：精选人像写真、产品电商、室内设计等三类日常高频 Prompt 推荐。

排错指南：解决 KeyError: 't5xxl'、unexpected keyword argument 'model' 等 6 大经典报错，以及 Apple Silicon Mac 部署附录。

Flux2-Klein 本地部署实战

本地生图一直卡在同一个死循环：云端模型画得漂亮，但改 prompt 就花钱、批量出图还得排队，隐私更别提；本地 FLUX.1 dev FP8 能打，可 24GB 卡跑起来显存紧张、速度拖后腿，想快速迭代、接 ComfyUI 工作流基本是奢望。

Black Forest Labs 新出的轻量模型到底能不能打破这个僵局？我用 RX 7900 XTX 24GB 实测了一遍，不整虚的直接把大家最关心的几个问题一次性说透：

4B 和 9B 怎么选？
RTX 3090 / 7900 XTX 这类 24GB 卡到底稳不稳？
谁更适合当主力？
跟 FLUX.1 dev FP8 比，实际体感差多少？
部署踩了哪些坑？

结论先说：

12GB 显卡优先玩 4B。
24GB 显卡（3090/4090/7900XTX）可以直接把 9B FP8 / kv-fp8 当主力。
4B 别丢，留着做快速预览、批量测试和草图非常舒服。

为什么要测 Flux2-Klein

以前本地生图最大的毛病不是模型不行，是太重、太慢、太吃资源，嵌不进日常流程。FLUX.1 dev FP8 画质能看，但 24GB 卡上跑起来显存和速度都紧张。一天要做一堆封面、首帧、角色图、分镜的时候，它实在不够轻快。

我要的是一个能天天跑、反复改、批量出图、接进工作流的方案，不是偶尔出一张极限画质图。Klein 的价值就在这里：试 prompt 快、换 seed 快、出草图快、做候选快，配合 ComfyUI 自动化刚好。

所以这次不跑分，只看它能不能顶进真实生产。

Flux2-Klein 到底是啥

FLUX.2 [klein] 把文生图、图像编辑、单参考图/多参考图编辑、迭代修改这些能力揉进了一个轻量架构。对内容创作者来说，以前要拼好几个模型加一堆插件才能串起来的流程，现在一个模型就能扛大部分。

它不是文字渲染最强，也不是极限画质最顶，但速度、编辑和本地部署效率是真不错。

4B 和 9B 怎么选

版本	定位	适合谁
Klein-4B	轻量、高速、许可证友好	12G-16G 卡、商用开发、快速预览
Klein-9B FP8/kv-fp8	画质更好、编辑更稳、综合体验强	24G 卡当主力生图用

简单说：4B 是快反模型，9B 是主力成图模型。
12G 卡（比如 4070）别硬刚 9B，先让 4B 稳跑。24G 卡别只玩 4B，9B FP8 或 kv-fp8 值得直接进工作流。

我的测试环境

没用云，全在本地 ComfyUI 上跑。

GPU：AMD RX 7900 XTX 24GB
系统：Ubuntu，ROCm 7.2.4，PyTorch 2.11.0+rocm7.2
ComfyUI：0.23.0
启动参数：python main.py --listen 0.0.0.0 --port 8188 --disable-async-offload
内存：32GB
测试分辨率：1024x1024，batch size 1，euler 采样器 20 步

这套参数贴近日常用法，不是官方那种 4 步极限蒸馏跑分，所以速度看起来没那么夸张，但反映实际体感。

Klein-4B 实测

在 7900XTX 上 4B 比预期还稳。

分辨率 1024×1024，20 步 euler
峰值显存约 16.7–16.9 GB
换 seed 出图约 33–34 秒
缓存重复跑可到 16–17 秒

显存够用，速度够快，特别适合封面候选、prompt 调试。跟 FLUX.1 dev FP8 一比，效率提升立竿见影。

和 FLUX.1 dev FP8 对比

同环境，同提示词（红色机器人、雨夜街道、霓虹反射），1024×1024：

方案	速度	峰值显存	感受
FLUX.1 dev FP8 冷启动	约 95–98 秒	约 21 GB	能跑，但沉重
FLUX.1 dev FP8 热启动	约 67 秒	约 21 GB	能用，不算快
Klein-4B 冷启动	约 33 秒	16.7 GB	明显轻快
Klein-4B 热启动	约 33–34 秒	16.9 GB	很适合日常
Klein-4B 缓存重复跑	约 16–17 秒	16.9 GB	预览舒坦

dev FP8 是画质基线，但 Klein-4B 是能嵌进工作流里的日用模型。偶尔出一张图 dev FP8 还行，一旦每天批量做内容，4B 的速度和显存优势就太明显了。

Klein-9B kv-fp8 实测

模型组合：

flux-2-klein-9b-kv-fp8.safetensors
qwen_3_8b_fp8mixed.safetensors
flux2-vae.safetensors

1024×1024，20 步 euler，7900XTX 成功出图，不 OOM。

冷启动出图约 57–58 秒，峰值显存约 20.15 GB
热启动出图约 33–34 秒，峰值显存约 18.92 GB

24G 卡跑 9B kv-fp8 不是“理论可跑”，是真的能进工作流。当然得记住，batch size 保持 1，别同时挂几个大模型，别用错文本编码器，offload 策略合理，稳稳的。

4B 和 9B 谁更适合日常

9B 细节更密，复杂场景更稳，多参考图编辑更强，适合做最终输出。
4B 快、省显存，适合批量测试和快速预览，许可证也更友好。

别二选一，24G 卡的正确姿势是：

4B：快速预览、试 prompt、自动草图
9B：主力成图、多参考图编辑、最终画面

两者都留着，互补。

不同显卡怎么选

RTX 4070 / 12GB → 认准 Klein-4B FP8，先跑稳别多想。
RTX 4070 Ti SUPER / 16GB → 4B 主力，9B 可以浅试，但别当生产主力。
RTX 3090 / 24GB → 9B FP8 主力，4B 预览，别浪费那 24G 显存。
RX 7900 XTX / 24GB → 9B FP8/kv-fp8 主力，只要 ROCm 环境调通就没问题。
RTX 4090 / 24GB → 9B FP8 主力，4B 备用。
RTX 5090 / 32GB → 9B FP8 随便玩，更高分辨率随便试。

竞品需要比吗？

不打算长篇大论比来比去。很多测评把文字渲染放第一位，但对真实创作者，更重要的是：能稳跑、能快出、能接 ComfyUI、能参考图编辑、能批量测、能撑封面和分镜首帧。

需要画面里有精致中文标题的，后期软件比任何模型都靠谱。海报、封面主体用 Klein 生成，文字后期加，效率最高。SD3、Qwen-Image 当画面内文字的补充就好，别硬让生图模型扛所有。

踩坑记录

最大的坑不是下载，是工作流——Flux2-Klein 不能套用 FLUX.1 的 checkpoint 流程。

FLUX.1 dev 老路子：CheckpointLoaderSimple → CLIPTextEncode → KSampler …
Klein 需要拆分加载：UNETLoader、CLIPLoader、VAELoader，搭配 EmptyFlux2LatentImage、Flux2Scheduler、BasicGuider、SamplerCustomAdvanced 等。

我栽在两个地方：

用了 CLIPTextEncodeFlux 直接报 KeyError: 't5xxl'。Klein 文本编码器是 Qwen3，不是 T5XXL，这里必须用 CLIPTextEncode。
Flux2Scheduler 只需要 steps、width、height，别把 model 怼进去，否则会报 unexpected keyword argument 'model'。让它只生成 sigmas 就行。

谁适合玩

有 3090/4090/7900XTX，想做本地内容生产，经常搞封面、首帧、角色图，想用 ComfyUI 串自动化流程，不想天天依赖在线生图的，Klein 很适合。偶尔玩一张图的话，在线平台够用了。

最终建议

我的日常配置思路：

主力：Flux2-Klein-9B FP8 / kv-fp8
快反：Flux2-Klein-4B
基线对比：FLUX.1 dev FP8
文字：后期处理
视频首帧、批量草图：Klein-9B 出成品，4B 冲量

硬件简明推荐：

硬件	推荐
RTX 4070 / 12GB	Klein-4B
RTX 4070 Ti SUPER / 16GB	Klein-4B 主力，9B 实验
RTX 3090 / 24GB	Klein-9B FP8 主力
RX 7900 XTX / 24GB	Klein-9B FP8 / kv-fp8 主力
RTX 4090 / 24GB	Klein-9B FP8 主力
RTX 5090 / 32GB	Klein-9B FP8 主力

一句话：12G 玩 4B，24G 上 9B。4B 不单是低配替代，是快反神器；9B 不只能跑，是真能扛主力。

结语

测下来，Klein 不是跑分玩具，是能嵌进内容生产链路的模型。24G 卡上 9B 已稳，4B 也千万别扔——一个出活，一个探路，配合 ComfyUI 和后期工具，日常输出效率能提一大截。

这篇文章只讲到「能不能跑、怎么选、实际体感」，想看完整可落地的部署方案，观看收费版内容

支付 ¥9.99 购买本节后解锁剩余70%的内容

登录购买 OR 免登录购买

微信支付

Tags: ComfyUI FLUX 显卡本地部署

Flux2-Klein 本地部署实战

为什么要测 Flux2-Klein

Flux2-Klein 到底是啥

4B 和 9B 怎么选

我的测试环境

Klein-4B 实测

和 FLUX.1 dev FP8 对比

Klein-9B kv-fp8 实测

4B 和 9B 谁更适合日常

不同显卡怎么选

竞品需要比吗？

踩坑记录

谁适合玩

最终建议

结语

发表回复取消回复

Related News

You may have missed

Flux2-Klein 本地部署实战

为什么要测 Flux2-Klein

Flux2-Klein 到底是啥

4B 和 9B 怎么选

我的测试环境

Klein-4B 实测

和 FLUX.1 dev FP8 对比

Klein-9B kv-fp8 实测

4B 和 9B 谁更适合日常

不同显卡怎么选

竞品需要比吗？

踩坑记录

谁适合玩

最终建议

结语

发表回复 取消回复

Related News

You may have missed

发表回复取消回复