实録译稿 社区 24h

术语频次

封存归档

VLM

▅█▂▅ · 44 次 · 收录于 23 篇

Vision-Language Model · 视觉语言多模态模型

  1. Nemotron-Labs 扩散语言模型实现光速级文本生成 产品 · HF Blog · 05-23
  2. VSAS-Bench:视觉流式助手模型的实时评估 研究 · Apple ML · 05-23
  3. transformers v5.9.0 工程 · GitHub Release · 05-20
  4. ERNIE-Image-Aes 研究 · Baidu · 05-20
  5. VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练 工程 · vLLM · 05-18
  6. Imbad0202/学术研究技能 工程 · GitHub · 05-18
  7. transformers v5.8.0 工程 · GitHub Release · 05-12
  8. OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct 产品 · Artificial Analysis · 05-12
  9. world modeling被称为robotics新预训练范式 研究 · X · 05-09
  10. 用一个 Python 字典将多模态推理性能提升 >10% 工程 · Modal · 05-09
  11. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  12. SimpleStream以最近4帧作为视频流理解强baseline 研究 · X · 05-07
  13. 总结robotics三点教训:硬件可靠性、benchmark混乱与VLA错位 研究 · X · 05-07
  14. D-OPSD:用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏 研究 · HF Papers · 05-07
  15. PhysForge:为交互式虚拟世界生成基于物理的 3D 资产 研究 · HF Papers · 05-07
  16. MolmoAct 2:面向现实世界机器人工作的开放基础 | Ai2 Allen AI · 05-06
  17. MolmoAct2:面向现实世界部署的动作推理模型 HF Papers · 05-05
  18. Prox-E:基于基元抽象的细粒度 3D 形状编辑 HF Papers · 05-05
  19. AnalogRetriever:学习用于模拟电路检索的跨模态表征 HF Papers · 05-04
  20. NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
  21. NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用 AWS ML · 05-03
  22. DSO:用于偏见缓解的直接引导优化 Apple ML · 05-03
  23. PhyCo:学习用于生成式运动的可控物理先验 HF Papers · 05-01