词
历VLM
Vision-Language Model · 视觉语言多模态模型
- Nemotron-Labs 扩散语言模型实现光速级文本生成
- VSAS-Bench:视觉流式助手模型的实时评估
- transformers v5.9.0
- ERNIE-Image-Aes
- VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练
- Imbad0202/学术研究技能
- transformers v5.8.0
- OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct
- world modeling被称为robotics新预训练范式
- 用一个 Python 字典将多模态推理性能提升 >10%
- rohitg00/从零开始的 AI 工程
- SimpleStream以最近4帧作为视频流理解强baseline
- 总结robotics三点教训:硬件可靠性、benchmark混乱与VLA错位
- D-OPSD:用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏
- PhysForge:为交互式虚拟世界生成基于物理的 3D 资产
- MolmoAct 2:面向现实世界机器人工作的开放基础 | Ai2
- MolmoAct2:面向现实世界部署的动作推理模型
- Prox-E:基于基元抽象的细粒度 3D 形状编辑
- AnalogRetriever:学习用于模拟电路检索的跨模态表征
- NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能
- NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用
- DSO:用于偏见缓解的直接引导优化
- PhyCo:学习用于生成式运动的可控物理先验