StepFun · HF · 阶跃星辰

Step-3.7-Flash-GGUF

Step-3.7-Flash-GGUF

二〇二六年六月六日 · 英文原文

StepFun-ai 发布了 Step-3.7-Flash 的 GGUF 量化版本,这是一个 198B 参数的稀疏 MoE 视觉语言模型,每 token 激活约 11B 参数,支持 256K 上下文窗口和原生图像理解。提供 Q4_K_S、IQ4_XS、Q3_K_L 等量化文件,配合独立 mmproj 投影器用于多模态推理。在 Mac Studio、DGX Spark、Ryzen AI Max+ 395 等 128 GB 统一内存设备上,Q4 量化版本可在全上下文下运行,预填充吞吐量达 420 t/s。模型和量化文件均基于 Apache-2.0 许可证发布。

[ModelPage]: https://static.stepfun.com/blog/step-3.7-flash/

1. 引言

stepfun-ai/Step-3.7-Flash 的 GGUF 量化版本。

Step-3.7-Flash 是 StepFun-ai 推出的一个 198B 参数的稀疏 Mixture-of-Experts 视觉语言模型,每个 token 激活约 11B 参数,吞吐量可达 400 t/s。它由一个 196B 参数的语言主干和一个 1.8B 参数的视觉编码器组成,支持原生图像理解,拥有 256K 上下文窗口,并提供三种可选的推理级别(低/中/高),以平衡速度、成本和深度。该模型专为 agent 工作负载(工具调用、多步推理、代码和数学)而构建,并原生支持多语言。

一个独立的 mmproj 投影器随语言量化文件一起提供,用于多模态推理。借助 128 GB 统一内存(Mac Studio、DGX Spark、Ryzen AI Max+ 395 等),您可以私有化部署 Step-3.7-Flash:Q4 及以下量化版本可在全 256K 上下文下以高精度运行。

2. 文件

文件 量化 大小 备注
Step-3.7-flash-BF16.gguf BF16 394 GB 全精度参考。
Step-3.7-flash-Q8_0.gguf Q8_0 209 GB 近乎无损。使用 imatrix。
Step-3.7-flash-Q4_K_S.gguf Q4_K_S 112 GB 经 imatrix 校准。质量/大小均衡。
Step-3.7-flash-IQ4_XS.gguf IQ4_XS 105 GB 经 imatrix 校准。比 Q4_K_S 略小,质量相当。
Step-3.7-flash-Q3_K_L.gguf Q3_K_L 103 GB 经 imatrix 校准。激进的大小缩减。
Step-3.7-flash-Q3_K_M.gguf Q3_K_M 94 GB 经 imatrix 校准。当需要适配单个 64-96 GB 设备时使用;在低位宽下预期会有适度的质量损失。
mmproj-Step-3.7-flash-f16.gguf F16 4 GB 视觉投影器。与上述任一语言量化文件配合使用,以支持图像输入。

3. 快速开始

构建 llama.cpp 并运行:

# 1. 克隆并构建
git clone https://github.com/stepfun-ai/llama.cpp.git
cd llama.cpp
git checkout -b step3.7 origin/step3.7
cmake -B build -DLLAMA_BUILD_TOOLS=ON -DLLAMA_BUILD_SERVER=ON
cmake --build build --config Release -j$(nproc)

# 2. 测试性能(基准测试)
./build/bin/llama-batched-bench \
  -m Step-3.7-flash-Q4_K_S.gguf \
  -c 32768 -b 2048 -ub 2048 \
  -npp 0,2048,8192,16384,32768 -ntg 128 -npl 1

# 3. 纯文本推理
./build/bin/llama-cli \
  -m Step-3.7-flash-Q4_K_S.gguf \
  -c 32768 -ngl 99 -fa on \
  -p "Write a Python function to compute the n-th Fibonacci number."

# 4. 视觉推理(图像 + 文本)
./build/bin/llama-mtmd-cli \
  -m Step-3.7-flash-Q4_K_S.gguf \
  --mmproj mmproj-Step-3.7-flash-f16.gguf \
  -c 32768 -ngl 99 -fa on \
  --image path/to/image.jpg \
  -p "Describe this image."

# 5. OpenAI 兼容服务器(文本 + 视觉)
./build/bin/llama-server \
  -m Step-3.7-flash-Q4_K_S.gguf \
  --mmproj mmproj-Step-3.7-flash-f16.gguf \
  -c 32768 -ngl 99 -fa on \
  --host 0.0.0.0 --port 8080

完整的 CLI / 服务器选项,请参阅 llama.cpp README

4. 性能

Apple Mac Studio (M4 max, 128 GB 统一内存)

Step-3.7-flash-Q4_K_S

./llama-batched-bench -m Step-3.7-flash-Q4_K_S.gguf -c 262150 -b 2048 -ub 1024 -npp 0,2048,8192,16384,32768,65536,131072,262144 -ntg 128 -npl 1
PP TG PL N_KV T_PP s S_PP t/s T_TG s S_TG t/s T s S t/s
0 128 1 128 0.000 0.00 2.500 51.20 2.500 51.20
2048 128 1 2176 4.873 420.28 2.639 48.51 7.512 289.68
8192 128 1 8320 20.292 403.70 2.757 46.43 23.049 360.97
16384 128 1 16512 42.854 382.32 2.924 43.77 45.779 360.69
32768 128 1 32896 95.168 344.32 3.223 39.72 98.391 334.34
65536 128 1 65664 233.885 280.21 3.909 32.74 237.794 276.14
131072 128 1 131200 635.499 206.25 5.759 22.23 641.258 204.60
262144 128 1 262272 2362.488 110.96 13.188 9.71 2375.677 110.40

Step-3.7-flash-IQ4_XS

./llama-batched-bench -m Step-3.7-flash-IQ4_XS.gguf -c 262150 -b 2048 -ub 1024 -npp 0,2048,8192,16384,32768,65536,131072,262144 -ntg 128 -npl 1
PP TG PL N_KV T_PP s S_PP t/s T_TG s S_TG t/s T s S t/s
0 128 1 128 0.000 0.00 2.582 49.58 2.582 49.58
2048 128 1 2176 4.835 423.56 2.679 47.78 7.514 289.60
8192 128 1 8320 19.954 410.55 2.803 45.66 22.757 365.60
16384 128 1 16512 42.142 388.78 2.957 43.29 45.098 366.13
32768 128 1 32896 93.489 350.50 3.288 38.93 96.777 339.91
65536 128 1 65664 227.088 288.59 3.945 32.44 231.033 284.22
131072 128 1 131200 635.047 206.40 5.791 22.10 640.838 204.73
262144 128 1 262272 2170.271 120.79 13.070 9.79 2183.342 120.12

Step-3.7-flash-Q3_K_L

./llama-batched-bench -m Step-3.7-flash-Q3_K_L.gguf -c 262272 -b 2048 -ub 1024 -npp 0,2048,8192,16384,32768,65536,131072,262144 -ntg 128 -npl 1
PP TG B N_KV T_PP s S_PP t/s T_TG s S_TG t/s T s S t/s
0 128 1 128 0.000 0.00 3.590 35.66 3.590 35.66
2048 128 1 2176 5.263 389.15 3.702 34.57 8.965 242.72
8192 128 1 8320 21.789 375.97 3.817 33.53 25.606 324.92
16384 128 1 16512 45.819 357.58 3.977 32.18 49.796 331.59
32768 128 1 32896 100.827 324.99 4.308 29.71 105.135 312.89
65536 128 1 65664 242.172 270.62 4.977 25.72 247.149 265.69
131072 128 1 131200 659.645 198.70 6.764 18.92 666.409 196.88
262144 128 1 262272 2200.370 119.14 14.008 9.14 2214.378 118.44

NVIDIA DGX Spark (GB10, 128 GB 统一内存)

Step-3.7-flash-Q4_K_S

./llama-batched-bench -m Step-3.7-flash-Q4_K_S.gguf -c 131300 -b 2048 -ub 1024 -npp 0,2048,8192,16384,32768,65536,131072 -ntg 128 -npl 1
PP TG B N_KV T_PP s S_PP t/s T_TG s S_TG t/s T s S t/s
0 128 1 128 0.000 0.00 5.157 24.82 5.157 24.82
2048 128 1 2176 8.021 255.33 4.907 26.08 12.929 168.31
8192 128 1 8320 10.866 753.89 5.169 24.76 16.035 518.86
16384 128 1 16512 29.389 557.49 6.215 20.60 35.603 463.78
32768 128 1 32896 52.501 624.14 6.931 18.47 59.432 553.50
65536 128 1 65664 112.321 583.47 7.769 16.48 120.090 546.79
131072 128 1 131200 281.479 465.66 9.834 13.02 291.313 450.37

Step-3.7-flash-IQ4_XS

./llama-batched-bench -m Step-3.7-flash-IQ4_XS.gguf -c 262272 -b 2048 -ub 1024 -npp 0,2048,8192,16384,32768,65536,131072,262144 -ntg 128 -npl 1
PP TG PL N_KV T_PP s S_PP t/s T_TG s S_TG t/s T s S t/s
0 128 1 128 0.000 0.00 5.368 23.85 5.368 23.85
2048 128 1 2176 4.250 481.87 5.311 24.10 9.561 227.58
8192 128 1 8320 12.531 653.73 5.817 22.01 18.348 453.46
16384 128 1 16512 24.474 669.44 5.915 21.64 30.389 543.35
32768 128 1 32896 51.976 630.44 6.531 19.60 58.508 562.25
65536 128 1 65664 116.305 563.48 7.934 16.13 124.239 528.53
131072 128 1 131200 298.746 438.74 10.263 12.47 309.009 424.58
262144 128 1 262272 924.872 283.44 14.862 8.61 939.734 279.09

Step-3.7-flash-Q3_K_L

./llama-batched-bench -m Step-3.7-flash-Q3_K_L.gguf -c 262272 -b 2048 -ub 1024 -npp 0,2048,8192,16384,32768,65536,131072,262144 -ntg 128 -npl 1
PP TG PL N_KV T_PP s S_PP t/s T_TG s S_TG t/s T s S t/s
0 128 1 128 0.000 0.00 5.947 21.52 5.947 21.52
2048 128 1 2176 4.145 494.08 5.623 22.76 9.768 222.77
8192 128 1 8320 14.889 550.20 5.799 22.07 20.688 402.17
16384 128 1 16512 29.374 557.78 6.140 20.85 35.513 464.95
32768 128 1 32896 54.957 596.25 6.744 18.98 61.702 533.15
65536 128 1 65664 129.827 504.79 8.347 15.33 138.174 475.23
131072 128 1 131200 315.402 415.57 10.780 11.87 326.182 402.23
262144 128 1 262272 910.215 288.00 15.568 8.22 925.783 283.30

AMD Ryzen AI Max+ 395 (Strix Halo, 128 GB 统一内存)

Step-3.7-flash-Q4_K_S

llama-batched-bench.exe -m Step-3.7-flash-Q4_K_S.gguf -c 65664 -b 2048 -ub 1024 -npp 0,2048,8192,16384,32768,65536 -ntg 128 -npl 1
PP TG B N_KV T_PP s S_PP t/s T_TG s S_TG t/s T s S t/s
0 128 1 128 0.000 0.00 4.878 26.24 4.878 26.24
2048 128 1 2176 9.367 218.63 5.134 24.93 14.501 150.06
8192 128 1 8320 43.540 188.15 5.508 23.24 49.048 169.63
16384 128 1 16512 111.814 146.53 5.947 21.53 117.761 140.22
32768 128 1 32896 357.819 91.58 6.779 18.88 364.598 90.23
65536 128 1 65664 1342.501 48.82 8.495 15.07 1350.996 48.60

Step-3.7-flash-IQ4_XS

./llama-batched-bench -m Step-3.7-flash-IQ4_XS.gguf -c 65664 -b 2048 -ub 1024 -npp 0,2048,8192,16384,32768,65536 -ntg 128 -npl 1
PP TG B N_KV T_PP s S_PP t/s T_TG s S_TG t/s T s S t/s
0 128 1 128 0.000 0.00 5.931 21.58 5.931 21.58
2048 128 1 2176 8.143 251.50 6.194 20.67 14.337 151.78
8192 128 1 8320 39.899 205.32 6.521 19.63 46.420 179.23
16384 128 1 16512 105.098 155.89 6.891 18.57 111.989 147.44
32768 128 1 32896 338.645 96.76 7.793 16.42 346.439 94.95
65536 128 1 65664 1310.820 50.00 9.489 13.49 1320.309 49.73

Step-3.7-flash-Q3_K_L

./llama-batched-bench -m Step-3.7-flash-Q3_K_L.gguf -c 262272 -b 2048 -ub 1024 -ctk q8_0 -ctv q8_0 -npp 0,2048,8192,16384,32768,65536,131072,262144 -ntg 128 -npl 1
PP TG B N_KV T_PP s S_PP t/s T_TG s S_TG t/s T s S t/s
0 128 1 128 0.000 0.00 5.015 25.53 5.015 25.53
2048 128 1 2176 10.246 199.88 5.073 25.23 15.319 142.04
8192 128 1 8320 37.229 220.05 5.341 23.96 42.570 195.44
16384 128 1 16512 79.234 206.78 5.489 23.32 84.723 194.89
32768 128 1 32896 179.697 182.35 5.810 22.03 185.507 177.33
65536 128 1 65664 436.593 150.11 6.577 19.46 443.169 148.17
131072 128 1 131200 1262.377 103.83 9.124 14.03 1271.501 103.19
262144 128 1 262272 3487.921 75.16 11.391 11.24 3499.312 74.95

5. 致谢

本版本基于以下作者和社区的工作:

6. 许可证

本仓库中的 GGUF 量化文件是 stepfun-ai/Step-3.7-Flash 的衍生作品,并根据相同的 Apache 2.0 许可证发布。

组件 许可证
基础模型权重 (stepfun-ai/Step-3.7-Flash) Apache-2.0
校准数据集 (eaddario/imatrix-calibration) MIT
校准数据集 (NousResearch/hermes-function-calling-v1) Apache-2.0
量化工具链 (llama.cpp) MIT

所有校准数据集保留其原始许可证,并严格仅用于量化校准目的。

译自 StepFun · HF · 阶跃星辰 · 录于 二〇二六年六月六日