録实録译稿议社区 24h

词术语频次

历封存归档

VLM

▅█▂▅ · 44 次 · 收录于 23 篇

Vision-Language Model · 视觉语言多模态模型

Nemotron-Labs 扩散语言模型实现光速级文本生成产品 · HF Blog · 05-23
VSAS-Bench：视觉流式助手模型的实时评估研究 · Apple ML · 05-23
transformers v5.9.0 工程 · GitHub Release · 05-20
ERNIE-Image-Aes 研究 · Baidu · 05-20
VeRL-Omni 发布：扩散与全模态模型的简易、快速、稳定 RL 训练工程 · vLLM · 05-18
Imbad0202/学术研究技能工程 · GitHub · 05-18
transformers v5.8.0 工程 · GitHub Release · 05-12
OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct 产品 · Artificial Analysis · 05-12
world modeling被称为robotics新预训练范式研究 · X · 05-09
用一个 Python 字典将多模态推理性能提升 >10% 工程 · Modal · 05-09
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
SimpleStream以最近4帧作为视频流理解强baseline 研究 · X · 05-07
总结robotics三点教训：硬件可靠性、benchmark混乱与VLA错位研究 · X · 05-07
D-OPSD：用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏研究 · HF Papers · 05-07
PhysForge：为交互式虚拟世界生成基于物理的 3D 资产研究 · HF Papers · 05-07
MolmoAct 2：面向现实世界机器人工作的开放基础 | Ai2 Allen AI · 05-06
MolmoAct2：面向现实世界部署的动作推理模型 HF Papers · 05-05
Prox-E：基于基元抽象的细粒度 3D 形状编辑 HF Papers · 05-05
AnalogRetriever：学习用于模拟电路检索的跨模态表征 HF Papers · 05-04
NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用 AWS ML · 05-03
DSO：用于偏见缓解的直接引导优化 Apple ML · 05-03
PhyCo：学习用于生成式运动的可控物理先验 HF Papers · 05-01