[!NOTE]
内容简介(免费与收费内容导读)本文针对 Black Forest Labs 最新推出的轻量生图模型 Flux2-Klein 4B / 9B 进行本地实战评测与完整部署方案拆解。为了方便阅读,本文分为免费与付费两部分:
- 🆓 免费版内容包含:
- 模型定位与选型:4B 与 9B 模型对比,以及针对 12G 到 24G+ 不同显卡的选型指南。
- 性能实测数据:RX 7900 XTX 24GB 实测冷启动/热启动出图速度与峰值显存占用,并与 FLUX.1 dev FP8 进行直观对比。
避坑前瞻:通俗说明为什么 Klein 不能直接套用旧版 FLUX.1 工作流,以及常见的报错逻辑。
💎 付费版(实战教程)包含:
- 准备工作:4B/9B 核心模型文件(UNET/VAE/文本编码器)的具体版本选择与存放路径。
- 环境搭建:ComfyUI 源码安装、虚拟环境配置及 PyTorch GPU 驱动识别验证。
- 工作流连线:13个核心节点(UNETLoader, Flux2Scheduler, EmptyFlux2LatentImage 等)的具体逻辑连线图解。
- 启动优化:针对 AMD (ROCm) 与 NVIDIA 显卡的优化启动参数,预防 OOM 报错。
- 生产 Prompt:精选人像写真、产品电商、室内设计等三类日常高频 Prompt 推荐。
- 排错指南:解决
KeyError: 't5xxl'、unexpected keyword argument 'model'等 6 大经典报错,以及 Apple Silicon Mac 部署附录。
Flux2-Klein 本地部署实战
本地生图一直卡在同一个死循环:云端模型画得漂亮,但改 prompt 就花钱、批量出图还得排队,隐私更别提;本地 FLUX.1 dev FP8 能打,可 24GB 卡跑起来显存紧张、速度拖后腿,想快速迭代、接 ComfyUI 工作流基本是奢望。
Black Forest Labs 新出的轻量模型到底能不能打破这个僵局?我用 RX 7900 XTX 24GB 实测了一遍,不整虚的直接把大家最关心的几个问题一次性说透:
- 4B 和 9B 怎么选?
- RTX 3090 / 7900 XTX 这类 24GB 卡到底稳不稳?
- 谁更适合当主力?
- 跟 FLUX.1 dev FP8 比,实际体感差多少?
- 部署踩了哪些坑?
结论先说:
- 12GB 显卡优先玩 4B。
- 24GB 显卡(3090/4090/7900XTX)可以直接把 9B FP8 / kv-fp8 当主力。
- 4B 别丢,留着做快速预览、批量测试和草图非常舒服。
为什么要测 Flux2-Klein
以前本地生图最大的毛病不是模型不行,是太重、太慢、太吃资源,嵌不进日常流程。FLUX.1 dev FP8 画质能看,但 24GB 卡上跑起来显存和速度都紧张。一天要做一堆封面、首帧、角色图、分镜的时候,它实在不够轻快。
我要的是一个能天天跑、反复改、批量出图、接进工作流的方案,不是偶尔出一张极限画质图。Klein 的价值就在这里:试 prompt 快、换 seed 快、出草图快、做候选快,配合 ComfyUI 自动化刚好。
所以这次不跑分,只看它能不能顶进真实生产。
Flux2-Klein 到底是啥

FLUX.2 [klein] 把文生图、图像编辑、单参考图/多参考图编辑、迭代修改这些能力揉进了一个轻量架构。对内容创作者来说,以前要拼好几个模型加一堆插件才能串起来的流程,现在一个模型就能扛大部分。
它不是文字渲染最强,也不是极限画质最顶,但速度、编辑和本地部署效率是真不错。
4B 和 9B 怎么选
| 版本 | 定位 | 适合谁 |
|---|---|---|
| Klein-4B | 轻量、高速、许可证友好 | 12G-16G 卡、商用开发、快速预览 |
| Klein-9B FP8/kv-fp8 | 画质更好、编辑更稳、综合体验强 | 24G 卡当主力生图用 |
简单说:4B 是快反模型,9B 是主力成图模型。
12G 卡(比如 4070)别硬刚 9B,先让 4B 稳跑。24G 卡别只玩 4B,9B FP8 或 kv-fp8 值得直接进工作流。
我的测试环境
没用云,全在本地 ComfyUI 上跑。
GPU:AMD RX 7900 XTX 24GB
系统:Ubuntu,ROCm 7.2.4,PyTorch 2.11.0+rocm7.2
ComfyUI:0.23.0
启动参数:python main.py --listen 0.0.0.0 --port 8188 --disable-async-offload
内存:32GB
测试分辨率:1024x1024,batch size 1,euler 采样器 20 步
这套参数贴近日常用法,不是官方那种 4 步极限蒸馏跑分,所以速度看起来没那么夸张,但反映实际体感。
Klein-4B 实测
在 7900XTX 上 4B 比预期还稳。
- 分辨率 1024×1024,20 步 euler
- 峰值显存约 16.7–16.9 GB
- 换 seed 出图约 33–34 秒
- 缓存重复跑可到 16–17 秒
显存够用,速度够快,特别适合封面候选、prompt 调试。跟 FLUX.1 dev FP8 一比,效率提升立竿见影。
和 FLUX.1 dev FP8 对比
同环境,同提示词(红色机器人、雨夜街道、霓虹反射),1024×1024:
| 方案 | 速度 | 峰值显存 | 感受 |
|---|---|---|---|
| FLUX.1 dev FP8 冷启动 | 约 95–98 秒 | 约 21 GB | 能跑,但沉重 |
| FLUX.1 dev FP8 热启动 | 约 67 秒 | 约 21 GB | 能用,不算快 |
| Klein-4B 冷启动 | 约 33 秒 | 16.7 GB | 明显轻快 |
| Klein-4B 热启动 | 约 33–34 秒 | 16.9 GB | 很适合日常 |
| Klein-4B 缓存重复跑 | 约 16–17 秒 | 16.9 GB | 预览舒坦 |
dev FP8 是画质基线,但 Klein-4B 是能嵌进工作流里的日用模型。偶尔出一张图 dev FP8 还行,一旦每天批量做内容,4B 的速度和显存优势就太明显了。
Klein-9B kv-fp8 实测
模型组合:
flux-2-klein-9b-kv-fp8.safetensors
qwen_3_8b_fp8mixed.safetensors
flux2-vae.safetensors
1024×1024,20 步 euler,7900XTX 成功出图,不 OOM。
- 冷启动出图约 57–58 秒,峰值显存约 20.15 GB
- 热启动出图约 33–34 秒,峰值显存约 18.92 GB
24G 卡跑 9B kv-fp8 不是“理论可跑”,是真的能进工作流。当然得记住,batch size 保持 1,别同时挂几个大模型,别用错文本编码器,offload 策略合理,稳稳的。
4B 和 9B 谁更适合日常
9B 细节更密,复杂场景更稳,多参考图编辑更强,适合做最终输出。
4B 快、省显存,适合批量测试和快速预览,许可证也更友好。
别二选一,24G 卡的正确姿势是:
- 4B:快速预览、试 prompt、自动草图
- 9B:主力成图、多参考图编辑、最终画面
两者都留着,互补。
不同显卡怎么选
- RTX 4070 / 12GB → 认准 Klein-4B FP8,先跑稳别多想。
- RTX 4070 Ti SUPER / 16GB → 4B 主力,9B 可以浅试,但别当生产主力。
- RTX 3090 / 24GB → 9B FP8 主力,4B 预览,别浪费那 24G 显存。
- RX 7900 XTX / 24GB → 9B FP8/kv-fp8 主力,只要 ROCm 环境调通就没问题。
- RTX 4090 / 24GB → 9B FP8 主力,4B 备用。
- RTX 5090 / 32GB → 9B FP8 随便玩,更高分辨率随便试。
竞品需要比吗?

不打算长篇大论比来比去。很多测评把文字渲染放第一位,但对真实创作者,更重要的是:能稳跑、能快出、能接 ComfyUI、能参考图编辑、能批量测、能撑封面和分镜首帧。
需要画面里有精致中文标题的,后期软件比任何模型都靠谱。海报、封面主体用 Klein 生成,文字后期加,效率最高。SD3、Qwen-Image 当画面内文字的补充就好,别硬让生图模型扛所有。
踩坑记录
最大的坑不是下载,是工作流——Flux2-Klein 不能套用 FLUX.1 的 checkpoint 流程。
FLUX.1 dev 老路子:CheckpointLoaderSimple → CLIPTextEncode → KSampler …
Klein 需要拆分加载:UNETLoader、CLIPLoader、VAELoader,搭配 EmptyFlux2LatentImage、Flux2Scheduler、BasicGuider、SamplerCustomAdvanced 等。
我栽在两个地方:
- 用了
CLIPTextEncodeFlux直接报KeyError: 't5xxl'。Klein 文本编码器是 Qwen3,不是 T5XXL,这里必须用CLIPTextEncode。 Flux2Scheduler只需要 steps、width、height,别把 model 怼进去,否则会报unexpected keyword argument 'model'。让它只生成 sigmas 就行。
谁适合玩
有 3090/4090/7900XTX,想做本地内容生产,经常搞封面、首帧、角色图,想用 ComfyUI 串自动化流程,不想天天依赖在线生图的,Klein 很适合。偶尔玩一张图的话,在线平台够用了。
最终建议
我的日常配置思路:
- 主力:Flux2-Klein-9B FP8 / kv-fp8
- 快反:Flux2-Klein-4B
- 基线对比:FLUX.1 dev FP8
- 文字:后期处理
- 视频首帧、批量草图:Klein-9B 出成品,4B 冲量
硬件简明推荐:
| 硬件 | 推荐 |
|---|---|
| RTX 4070 / 12GB | Klein-4B |
| RTX 4070 Ti SUPER / 16GB | Klein-4B 主力,9B 实验 |
| RTX 3090 / 24GB | Klein-9B FP8 主力 |
| RX 7900 XTX / 24GB | Klein-9B FP8 / kv-fp8 主力 |
| RTX 4090 / 24GB | Klein-9B FP8 主力 |
| RTX 5090 / 32GB | Klein-9B FP8 主力 |
一句话:12G 玩 4B,24G 上 9B。4B 不单是低配替代,是快反神器;9B 不只能跑,是真能扛主力。
结语
测下来,Klein 不是跑分玩具,是能嵌进内容生产链路的模型。24G 卡上 9B 已稳,4B 也千万别扔——一个出活,一个探路,配合 ComfyUI 和后期工具,日常输出效率能提一大截。
这篇文章只讲到「能不能跑、怎么选、实际体感」,想看完整可落地的部署方案,观看收费版内容