録实録译稿议社区 24h

词术语频次

历封存归档

Transformer

▅▄█▇ · 484 次 · 收录于 104 篇

基于 attention 的神经网络架构 · 2017 由 Google 提出

BitCPM-CANN-1B 工程 · OpenBMB · 05-24
BitCPM-CANN-3B 工程 · OpenBMB · 05-24
BitCPM-CANN-8B 研究 · OpenBMB · 05-24
BitCPM-CANN-0.5B 工程 · OpenBMB · 05-24
BitCPM-CANN-1B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-0.5B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-3B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-0.5B-unquantized 工程 · OpenBMB · 05-24
BitCPM-CANN-1B-未量化工程 · OpenBMB · 05-24
BitCPM-CANN-3B-unquantized 工程 · OpenBMB · 05-24
BitCPM-CANN-8B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-8B-未量化工程 · OpenBMB · 05-24
BitCPM4-CANN-0.5B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-1B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-3B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-8B-gguf 研究 · OpenBMB · 05-22
transformers v5.9.0 工程 · GitHub Release · 05-20
OlmoEarth v1.1：更高效的模型系列产品 · HF Blog · 05-20
OlmoEarth v1.1：更高效的模型系列 | Ai2 产品 · Allen AI · 05-20
推出 Ettin Reranker 系列产品 · HF Blog · 05-19
Import AI 457：AI 震网；诅咒的 Muon 优化器；与正向对齐研究 · Import AI · 05-19
使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频工程 · HF Blog · 05-19
PaddleOCR 3.5：使用 Transformers 后端运行 OCR 与文档解析任务工程 · HF Blog · 05-19
VeRL-Omni 发布：扩散与全模态模型的简易、快速、稳定 RL 训练工程 · vLLM · 05-18
BitCPM4-CANN-0.5B 工程 · OpenBMB · 05-18
BitCPM4-CANN-1B 工程 · OpenBMB · 05-18
BitCPM4-CANN-3B 工程 · OpenBMB · 05-18
BitCPM4-CANN-0.5B-未量化产品 · OpenBMB · 05-18
BitCPM4-CANN-1B-未量化产品 · OpenBMB · 05-18
BitCPM4-CANN-3B-未量化工程 · OpenBMB · 05-18
BitCPM4-CANN-8B-未量化工程 · OpenBMB · 05-18
BitCPM4-CANN-8B 研究 · OpenBMB · 05-18
LLM架构最新进展：KV共享、mHC与压缩注意力研究 · Sebastian Raschka · 05-17
vllm v0.21.0 工程 · GitHub Release · 05-15
Granite Embedding Multilingual R2：Apache 2.0 开源多语言嵌入，32K 上下文 — 最佳 Sub-100M 检索质量产品 · HF Blog · 05-15
Qwen3-TTS：低成本、高性能文本转语音工程 · Baseten · 05-15
解锁连续批处理中的异步性工程 · HF Blog · 05-15
vLLM 登顶 Artificial Analysis 排行榜工程 · vLLM · 05-15
资助60个项目推进AI对齐研究研究 · UK AISI · 05-14
参数高尔夫教给我们的AI辅助研究经验产品 · OpenAI · 05-13
vllm v0.19.1 工程 · GitHub Release · 05-12
transformers v5.5.4 工程 · GitHub Release · 05-12
transformers v5.6.2 工程 · GitHub Release · 05-12
transformers v5.8.0 工程 · GitHub Release · 05-12
transformers v5.7.0 工程 · GitHub Release · 05-12
Import AI 455：AI系统即将开始自我构建研究 · Import AI · 05-12
AWS 上基础模型训练与推理的构建模块工程 · HF Blog · 05-12
vLLM 登顶 Artificial Analysis 排行榜工程 · vLLM · 05-12
MiniCPM-V-4.6-gguf 工程 · OpenBMB · 05-12
均值模式尖叫：面向千层扩散Transformer的均值-方差分裂残差研究 · HF Papers · 05-12
MiniCPM-V-4.6-Thinking-gguf 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-AWQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-BNB 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-GPTQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-AWQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-GPTQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-BNB 产品 · OpenBMB · 05-11
MACE-Dance：用于音乐驱动舞蹈视频生成的运动-外观级联专家研究 · HF Papers · 05-11
OncoAgent：用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架研究 · HF Blog · 05-10
CyberSecQwen-4B：为什么防御性网络安全需要小型、专用、可本地运行的模型产品 · HF Blog · 05-09
MiniCPM-V-4_5-GPTQ 产品 · OpenBMB · 05-08
MedQA：在 AMD ROCm 上微调临床 AI，无需 CUDA 工程 · HF Blog · 05-08
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
自然语言 Autoencoders 研究 · Anthropic Research · 05-08
AlphaEvolve：我们的 Gemini 驱动 coding agent 如何在各领域扩大影响研究 · DeepMind · 05-08
SciCore-Mol 研究 · OpenBMB · 05-07
SONIC：42M Transformer实现人形机器人全身控制并开源产品 · X · 05-07
参数高效的多视角熟练度估计：从判别式分类到生成式反馈研究 · HF Papers · 05-07
唤醒统一多模态理解与生成中的空间智能研究 · HF Papers · 05-07
RLDX-1 技术报告研究 · HF Papers · 05-07
随机 KV 路由：实现自适应深度维度缓存共享 Apple ML · 05-06
Talker-T2AV：基于自回归扩散建模的联合说话音视频生成 HF Papers · 05-04
让 ViT 说话：生成式语言-图像预训练 HF Papers · 05-04
Qwen3.6-27B-FP8 产品 · Qwen · 05-03
现代 LLM 中 Attention 变体的可视化指南 Sebastian Raschka · 05-03
Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_50 产品 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_100 研究 · Qwen · 05-03
Qwen3.6-27B 产品 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W32K-L0_50 产品 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W128K-L0_100 研究 · Qwen · 05-03
Qwen/SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100 研究 · Qwen · 05-03
SAE-Res-Qwen3.5-2B-Base-W32K-L0_50 工程 · Qwen · 05-03
SAE-Res-Qwen3-1.7B-Base-W32K-L0_50 产品 · Qwen · 05-03
SAE-Res-Qwen3-1.7B-Base-W32K-L0_100 产品 · Qwen · 05-03
SAE-Res-Qwen3.5-2B-Base-W32K-L0_100 研究 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_50 研究 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100 研究 · Qwen · 05-03
SAE-Res-Qwen3-8B-Base-W64K-L0_50 研究 · Qwen · 05-03
SAE-Res-Qwen3-8B-Base-W64K-L0_100 工程 · Qwen · 05-03
Qwen/SAE-Res-Qwen3-30B-A3B-Base-W32K-L0_50 研究 · Qwen · 05-03
moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
基于视频先验与异步去噪的统一 4D 世界动作建模 HF Papers · 05-03
deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
vLLM 中混合 SSM 模型的分离式 Serving vLLM · 05-03
deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03
NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用 AWS ML · 05-03
Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni 产品 · Together AI · 05-03
我理解 LLM 架构的工作流 Sebastian Raschka · 05-03
如何在 Chrome Extension 中使用 Transformers.js HF Blog · 05-03
面向 AI agents 的有效 context engineering Anthropic Engineering · 05-01
🔬 Training Transformers to solve 95% failure rate of Cancer Trials — Ron Alfa & Daniel Bear, Noetik Latent Space · 04-30