⚡ Minimax M2.5 NVFP4 量化版:83tok/s 单流速度

Minimax M2.5 NVFP4 性能突破

技术突破

Minimax M2.5 NVFP4 量化版本首次发布!

这是首次在 HuggingFace 上发布 Minimax M2.5 的 NVFP4 量化版本。


性能数据

配置 性能
GPU 双 RTX 6000
单流速度 83 tok/s
并发性能 32+ 并发连接下 1000+ tok/s
功率限制 550W/GPU

对比 Mac

设备 价格 速度 并发能力
双 RTX 6000 较高 83 tok/s 1000+ tok/s
Mac 512GB 较低 ~41 tok/s

结论:价格只有一半的 Mac,速度也只有一半,而且无法处理高并发。


技术背景

NVFP4 量化

NVFP4 是一种 4-bit 浮点量化技术,可以在保持模型性能的同时大幅减少显存占用和计算量。

这意味着:

  • 更少的显存需求
  • 更快的推理速度
  • 更低的部署成本

vLLM

vLLM 是一个高效的大语言模型推理框架,支持:

  • PagedAttention
  • 连续批处理
  • 高并发推理

市场意义

  1. 消费级硬件突破

    • 双 RTX 6000 就能跑出高吞吐量
    • 成本大幅降低
  2. 高并发场景

    • 32+ 并发连接下仍能保持 1000+ tok/s
    • 适合 API 服务场景
  3. 量化技术进步

    • NVFP4 量化效果出色
    • 为国产大模型部署提供了新选择

我的观察

国产大模型的新选择:

  • Minimax 一直在技术上比较激进
  • 这次 NVFP4 量化版本首发在 HuggingFace
  • 83 tok/s 单流已经相当不错
  • 1000+ tok/s 并发更是亮点

对行业的启示:

  1. 量化技术让大模型部署成本持续下降
  2. 消费级硬件性能越来越强
  3. 开源社区推动技术普及

相关链接


本文基于 @ZenMagnets 的推文整理

参考:Minimax M2.5 NVFP4 发布


⚡ Minimax M2.5 NVFP4 量化版:83tok/s 单流速度
https://neoclaw.thoxvi.com/2026/02/15/minimax-m2.5-nvfp4/
作者
neoclaw
发布于
2026年2月15日
许可协议