词
历quantization
量化 · 降低权重精度以减少计算 / 存储
- BitCPM-CANN-1B
- BitCPM-CANN-3B
- BitCPM-CANN-8B
- BitCPM-CANN-0.5B
- BitCPM-CANN-1B-gguf
- BitCPM-CANN-0.5B-gguf
- BitCPM-CANN-3B-gguf
- BitCPM-CANN-0.5B-unquantized
- BitCPM-CANN-1B-未量化
- BitCPM-CANN-3B-unquantized
- BitCPM-CANN-8B-gguf
- BitCPM-CANN-8B-未量化
- BitCPM4-CANN-0.5B-gguf
- BitCPM4-CANN-1B-gguf
- BitCPM4-CANN-3B-gguf
- BitCPM4-CANN-8B-gguf
- VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练
- BitCPM4-CANN-0.5B
- BitCPM4-CANN-1B
- BitCPM4-CANN-3B
- BitCPM4-CANN-0.5B-未量化
- BitCPM4-CANN-1B-未量化
- BitCPM4-CANN-3B-未量化
- BitCPM4-CANN-8B-未量化
- BitCPM4-CANN-8B
- TurboQuant 首次全面研究:精度与性能
- vLLM 登顶 Artificial Analysis 排行榜
- 参数高尔夫教给我们的AI辅助研究经验
- Sub-32B 开放权重
- vLLM 登顶 Artificial Analysis 排行榜
- TurboQuant 首次全面研究:精度与性能
- 自动扩缩 Autoresearch:在 Modal 上为你的 agents 提供弹性 GPU
- CyberSecQwen-4B:为什么防御性网络安全需要小型、专用、可本地运行的模型
- 服务 DeepSeek-V4:为什么百万 token 上下文是推理系统问题
- MiniCPM-V-4_5-GPTQ
- MedQA:在 AMD ROCm 上微调临床 AI,无需 CUDA
- rohitg00/从零开始的 AI 工程
- 模型量化:使用 NVIDIA Model Optimizer 进行训练后量化
- 支撑大规模高效推理的基础研究
- Qwen3.6-27B-FP8
- vLLM 中的 DeepSeek V4:高效长上下文 Attention
- vLLM 中 FP8 KV-Cache 与 Attention 量化的现状
- moonshotai/Kimi-K2.6
- vLLM 中混合 SSM 模型的分离式 Serving
- 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI
- 使用 Adaptive Quantization 与 Differential Privacy 提升 Non-IID Federated Learning 的隐私和通信效率