词
历Transformer
基于 attention 的神经网络架构 · 2017 由 Google 提出
- BitCPM-CANN-1B
- BitCPM-CANN-3B
- BitCPM-CANN-8B
- BitCPM-CANN-0.5B
- BitCPM-CANN-1B-gguf
- BitCPM-CANN-0.5B-gguf
- BitCPM-CANN-3B-gguf
- BitCPM-CANN-0.5B-unquantized
- BitCPM-CANN-1B-未量化
- BitCPM-CANN-3B-unquantized
- BitCPM-CANN-8B-gguf
- BitCPM-CANN-8B-未量化
- BitCPM4-CANN-0.5B-gguf
- BitCPM4-CANN-1B-gguf
- BitCPM4-CANN-3B-gguf
- BitCPM4-CANN-8B-gguf
- transformers v5.9.0
- OlmoEarth v1.1:更高效的模型系列
- OlmoEarth v1.1:更高效的模型系列 | Ai2
- 推出 Ettin Reranker 系列
- Import AI 457:AI 震网;诅咒的 Muon 优化器;与正向对齐
- 使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频
- PaddleOCR 3.5:使用 Transformers 后端运行 OCR 与文档解析任务
- VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练
- BitCPM4-CANN-0.5B
- BitCPM4-CANN-1B
- BitCPM4-CANN-3B
- BitCPM4-CANN-0.5B-未量化
- BitCPM4-CANN-1B-未量化
- BitCPM4-CANN-3B-未量化
- BitCPM4-CANN-8B-未量化
- BitCPM4-CANN-8B
- LLM架构最新进展:KV共享、mHC与压缩注意力
- vllm v0.21.0
- Granite Embedding Multilingual R2:Apache 2.0 开源多语言嵌入,32K 上下文 — 最佳 Sub-100M 检索质量
- Qwen3-TTS:低成本、高性能文本转语音
- 解锁连续批处理中的异步性
- vLLM 登顶 Artificial Analysis 排行榜
- 资助60个项目推进AI对齐研究
- 参数高尔夫教给我们的AI辅助研究经验
- vllm v0.19.1
- transformers v5.5.4
- transformers v5.6.2
- transformers v5.8.0
- transformers v5.7.0
- Import AI 455:AI系统即将开始自我构建
- AWS 上基础模型训练与推理的构建模块
- vLLM 登顶 Artificial Analysis 排行榜
- MiniCPM-V-4.6-gguf
- 均值模式尖叫:面向千层扩散Transformer的均值-方差分裂残差
- MiniCPM-V-4.6-Thinking-gguf
- MiniCPM-V-4.6-Thinking
- MiniCPM-V-4.6-AWQ
- MiniCPM-V-4.6-BNB
- MiniCPM-V-4.6-GPTQ
- MiniCPM-V-4.6-Thinking-AWQ
- MiniCPM-V-4.6-Thinking-GPTQ
- MiniCPM-V-4.6-Thinking-BNB
- MACE-Dance:用于音乐驱动舞蹈视频生成的运动-外观级联专家
- OncoAgent:用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架
- CyberSecQwen-4B:为什么防御性网络安全需要小型、专用、可本地运行的模型
- MiniCPM-V-4_5-GPTQ
- MedQA:在 AMD ROCm 上微调临床 AI,无需 CUDA
- rohitg00/从零开始的 AI 工程
- 自然语言 Autoencoders
- AlphaEvolve:我们的 Gemini 驱动 coding agent 如何在各领域扩大影响
- SciCore-Mol
- SONIC:42M Transformer实现人形机器人全身控制并开源
- 参数高效的多视角熟练度估计:从判别式分类到生成式反馈
- 唤醒统一多模态理解与生成中的空间智能
- RLDX-1 技术报告
- 随机 KV 路由:实现自适应深度维度缓存共享
- Talker-T2AV:基于自回归扩散建模的联合说话音视频生成
- 让 ViT 说话:生成式语言-图像预训练
- Qwen3.6-27B-FP8
- 现代 LLM 中 Attention 变体的可视化指南
- Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_50
- Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_100
- Qwen3.6-27B
- Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W32K-L0_50
- Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W128K-L0_100
- Qwen/SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100
- SAE-Res-Qwen3.5-2B-Base-W32K-L0_50
- SAE-Res-Qwen3-1.7B-Base-W32K-L0_50
- SAE-Res-Qwen3-1.7B-Base-W32K-L0_100
- SAE-Res-Qwen3.5-2B-Base-W32K-L0_100
- Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_50
- Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100
- SAE-Res-Qwen3-8B-Base-W64K-L0_50
- SAE-Res-Qwen3-8B-Base-W64K-L0_100
- Qwen/SAE-Res-Qwen3-30B-A3B-Base-W32K-L0_50
- moonshotai/Kimi-K2.6
- NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能
- 基于视频先验与异步去噪的统一 4D 世界动作建模
- deepseek-ai/DeepSeek-V4-Pro
- vLLM 中混合 SSM 模型的分离式 Serving
- deepseek-ai/DeepSeek-V4-Flash
- 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI
- NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用
- Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni
- 我理解 LLM 架构的工作流
- 如何在 Chrome Extension 中使用 Transformers.js
- 面向 AI agents 的有效 context engineering
- 🔬 Training Transformers to solve 95% failure rate of Cancer Trials — Ron Alfa & Daniel Bear, Noetik