实録译稿 社区 24h

术语频次

封存归档

Transformer

▅▄█▇ · 484 次 · 收录于 104 篇

基于 attention 的神经网络架构 · 2017 由 Google 提出

  1. BitCPM-CANN-1B 工程 · OpenBMB · 05-24
  2. BitCPM-CANN-3B 工程 · OpenBMB · 05-24
  3. BitCPM-CANN-8B 研究 · OpenBMB · 05-24
  4. BitCPM-CANN-0.5B 工程 · OpenBMB · 05-24
  5. BitCPM-CANN-1B-gguf 研究 · OpenBMB · 05-24
  6. BitCPM-CANN-0.5B-gguf 研究 · OpenBMB · 05-24
  7. BitCPM-CANN-3B-gguf 研究 · OpenBMB · 05-24
  8. BitCPM-CANN-0.5B-unquantized 工程 · OpenBMB · 05-24
  9. BitCPM-CANN-1B-未量化 工程 · OpenBMB · 05-24
  10. BitCPM-CANN-3B-unquantized 工程 · OpenBMB · 05-24
  11. BitCPM-CANN-8B-gguf 研究 · OpenBMB · 05-24
  12. BitCPM-CANN-8B-未量化 工程 · OpenBMB · 05-24
  13. BitCPM4-CANN-0.5B-gguf 研究 · OpenBMB · 05-22
  14. BitCPM4-CANN-1B-gguf 研究 · OpenBMB · 05-22
  15. BitCPM4-CANN-3B-gguf 研究 · OpenBMB · 05-22
  16. BitCPM4-CANN-8B-gguf 研究 · OpenBMB · 05-22
  17. transformers v5.9.0 工程 · GitHub Release · 05-20
  18. OlmoEarth v1.1:更高效的模型系列 产品 · HF Blog · 05-20
  19. OlmoEarth v1.1:更高效的模型系列 | Ai2 产品 · Allen AI · 05-20
  20. 推出 Ettin Reranker 系列 产品 · HF Blog · 05-19
  21. Import AI 457:AI 震网;诅咒的 Muon 优化器;与正向对齐 研究 · Import AI · 05-19
  22. 使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频 工程 · HF Blog · 05-19
  23. PaddleOCR 3.5:使用 Transformers 后端运行 OCR 与文档解析任务 工程 · HF Blog · 05-19
  24. VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练 工程 · vLLM · 05-18
  25. BitCPM4-CANN-0.5B 工程 · OpenBMB · 05-18
  26. BitCPM4-CANN-1B 工程 · OpenBMB · 05-18
  27. BitCPM4-CANN-3B 工程 · OpenBMB · 05-18
  28. BitCPM4-CANN-0.5B-未量化 产品 · OpenBMB · 05-18
  29. BitCPM4-CANN-1B-未量化 产品 · OpenBMB · 05-18
  30. BitCPM4-CANN-3B-未量化 工程 · OpenBMB · 05-18
  31. BitCPM4-CANN-8B-未量化 工程 · OpenBMB · 05-18
  32. BitCPM4-CANN-8B 研究 · OpenBMB · 05-18
  33. LLM架构最新进展:KV共享、mHC与压缩注意力 研究 · Sebastian Raschka · 05-17
  34. vllm v0.21.0 工程 · GitHub Release · 05-15
  35. Granite Embedding Multilingual R2:Apache 2.0 开源多语言嵌入,32K 上下文 — 最佳 Sub-100M 检索质量 产品 · HF Blog · 05-15
  36. Qwen3-TTS:低成本、高性能文本转语音 工程 · Baseten · 05-15
  37. 解锁连续批处理中的异步性 工程 · HF Blog · 05-15
  38. vLLM 登顶 Artificial Analysis 排行榜 工程 · vLLM · 05-15
  39. 资助60个项目推进AI对齐研究 研究 · UK AISI · 05-14
  40. 参数高尔夫教给我们的AI辅助研究经验 产品 · OpenAI · 05-13
  41. vllm v0.19.1 工程 · GitHub Release · 05-12
  42. transformers v5.5.4 工程 · GitHub Release · 05-12
  43. transformers v5.6.2 工程 · GitHub Release · 05-12
  44. transformers v5.8.0 工程 · GitHub Release · 05-12
  45. transformers v5.7.0 工程 · GitHub Release · 05-12
  46. Import AI 455:AI系统即将开始自我构建 研究 · Import AI · 05-12
  47. AWS 上基础模型训练与推理的构建模块 工程 · HF Blog · 05-12
  48. vLLM 登顶 Artificial Analysis 排行榜 工程 · vLLM · 05-12
  49. MiniCPM-V-4.6-gguf 工程 · OpenBMB · 05-12
  50. 均值模式尖叫:面向千层扩散Transformer的均值-方差分裂残差 研究 · HF Papers · 05-12
  51. MiniCPM-V-4.6-Thinking-gguf 产品 · OpenBMB · 05-11
  52. MiniCPM-V-4.6-Thinking 产品 · OpenBMB · 05-11
  53. MiniCPM-V-4.6-AWQ 产品 · OpenBMB · 05-11
  54. MiniCPM-V-4.6-BNB 产品 · OpenBMB · 05-11
  55. MiniCPM-V-4.6-GPTQ 产品 · OpenBMB · 05-11
  56. MiniCPM-V-4.6-Thinking-AWQ 产品 · OpenBMB · 05-11
  57. MiniCPM-V-4.6-Thinking-GPTQ 产品 · OpenBMB · 05-11
  58. MiniCPM-V-4.6-Thinking-BNB 产品 · OpenBMB · 05-11
  59. MACE-Dance:用于音乐驱动舞蹈视频生成的运动-外观级联专家 研究 · HF Papers · 05-11
  60. OncoAgent:用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架 研究 · HF Blog · 05-10
  61. CyberSecQwen-4B:为什么防御性网络安全需要小型、专用、可本地运行的模型 产品 · HF Blog · 05-09
  62. MiniCPM-V-4_5-GPTQ 产品 · OpenBMB · 05-08
  63. MedQA:在 AMD ROCm 上微调临床 AI,无需 CUDA 工程 · HF Blog · 05-08
  64. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  65. 自然语言 Autoencoders 研究 · Anthropic Research · 05-08
  66. AlphaEvolve:我们的 Gemini 驱动 coding agent 如何在各领域扩大影响 研究 · DeepMind · 05-08
  67. SciCore-Mol 研究 · OpenBMB · 05-07
  68. SONIC:42M Transformer实现人形机器人全身控制并开源 产品 · X · 05-07
  69. 参数高效的多视角熟练度估计:从判别式分类到生成式反馈 研究 · HF Papers · 05-07
  70. 唤醒统一多模态理解与生成中的空间智能 研究 · HF Papers · 05-07
  71. RLDX-1 技术报告 研究 · HF Papers · 05-07
  72. 随机 KV 路由:实现自适应深度维度缓存共享 Apple ML · 05-06
  73. Talker-T2AV:基于自回归扩散建模的联合说话音视频生成 HF Papers · 05-04
  74. 让 ViT 说话:生成式语言-图像预训练 HF Papers · 05-04
  75. Qwen3.6-27B-FP8 产品 · Qwen · 05-03
  76. 现代 LLM 中 Attention 变体的可视化指南 Sebastian Raschka · 05-03
  77. Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_50 产品 · Qwen · 05-03
  78. Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_100 研究 · Qwen · 05-03
  79. Qwen3.6-27B 产品 · Qwen · 05-03
  80. Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W32K-L0_50 产品 · Qwen · 05-03
  81. Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W128K-L0_100 研究 · Qwen · 05-03
  82. Qwen/SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100 研究 · Qwen · 05-03
  83. SAE-Res-Qwen3.5-2B-Base-W32K-L0_50 工程 · Qwen · 05-03
  84. SAE-Res-Qwen3-1.7B-Base-W32K-L0_50 产品 · Qwen · 05-03
  85. SAE-Res-Qwen3-1.7B-Base-W32K-L0_100 产品 · Qwen · 05-03
  86. SAE-Res-Qwen3.5-2B-Base-W32K-L0_100 研究 · Qwen · 05-03
  87. Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_50 研究 · Qwen · 05-03
  88. Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100 研究 · Qwen · 05-03
  89. SAE-Res-Qwen3-8B-Base-W64K-L0_50 研究 · Qwen · 05-03
  90. SAE-Res-Qwen3-8B-Base-W64K-L0_100 工程 · Qwen · 05-03
  91. Qwen/SAE-Res-Qwen3-30B-A3B-Base-W32K-L0_50 研究 · Qwen · 05-03
  92. moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
  93. NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
  94. 基于视频先验与异步去噪的统一 4D 世界动作建模 HF Papers · 05-03
  95. deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
  96. vLLM 中混合 SSM 模型的分离式 Serving vLLM · 05-03
  97. deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
  98. 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03
  99. NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用 AWS ML · 05-03
  100. Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni 产品 · Together AI · 05-03
  101. 我理解 LLM 架构的工作流 Sebastian Raschka · 05-03
  102. 如何在 Chrome Extension 中使用 Transformers.js HF Blog · 05-03
  103. 面向 AI agents 的有效 context engineering Anthropic Engineering · 05-01
  104. 🔬 Training Transformers to solve 95% failure rate of Cancer Trials — Ron Alfa & Daniel Bear, Noetik Latent Space · 04-30