实録译稿 社区 24h

术语频次

封存归档

multimodal

█▇█▃ · 408 次 · 收录于 88 篇

多模态 · 同时处理文本 / 图像 / 音频 / 视频

  1. 感知还是偏见:MLLMs能否超越对人格的第一印象? 研究 · HF Papers · 05-22
  2. Video2GUI:合成大规模交互轨迹用于通用GUI Agent预训练 研究 · HF Papers · 05-21
  3. Cohere 收购 Reliant AI 以扩展主权企业 AI 产品 · Cohere · 05-21
  4. 宣布与Indra Group和Multiverse Computing签署战略合作备忘录 产品 · Cohere · 05-21
  5. 强化新加坡AI未来:新国家伙伴关系 产品 · DeepMind · 05-20
  6. 代码即代理工具 研究 · HF Papers · 05-20
  7. Gemini 3.5:具备行动能力的前沿智能 产品 · DeepMind · 05-20
  8. 推出 Gemini Omni 产品 · DeepMind · 05-20
  9. 可扩展语音代理设计:Amazon Nova Sonic 的多代理、工具与会话分割 工程 · AWS ML · 05-20
  10. 用 Amazon Nova 2 提示词做内容审核 工程 · AWS ML · 05-19
  11. MMSkills:面向通用视觉智能体的多模态技能 研究 · HF Papers · 05-18
  12. PhysBrain 1.0 技术报告 研究 · HF Papers · 05-18
  13. VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练 工程 · vLLM · 05-18
  14. CiteVQA:面向可信文档智能的证据归因基准测试 研究 · HF Papers · 05-18
  15. 综述评估 agent 的基准:Terminal-Bench、Tau-Bench 等十余项及校准方法 研究 · X · 05-16
  16. vllm v0.21.0 工程 · GitHub Release · 05-15
  17. AI将如何助长未来犯罪? 研究 · UK AISI · 05-15
  18. Intern-S2-Preview 研究 · InternLM · 05-15
  19. Intern-S2-Preview-FP8 研究 · InternLM · 05-15
  20. 穿越未知:构建社会对前沿AI的韧性 研究 · UK AISI · 05-15
  21. 管理日益强大的开放权重AI系统的风险 研究 · UK AISI · 05-15
  22. 有效训练长上下文视觉语言模型,泛化能力超越128K上下文 研究 · HF Papers · 05-15
  23. MulTaBench:基于文本与图像的多模态表格学习基准测试 研究 · HF Papers · 05-14
  24. AI在欺诈与网络犯罪中滥用的评估框架 研究 · UK AISI · 05-14
  25. 使用 Amazon Nova Sonic 和 WebRTC 构建实时语音流应用 工程 · AWS ML · 05-14
  26. AIMIP 发布:AI 天气与气候模型比对项目 | Ai2 评测 · Allen AI · 05-14
  27. SenseNova-U1:基于NEO-unify架构统一多模态理解与生成 研究 · HF Papers · 05-13
  28. transformers v5.8.0 工程 · GitHub Release · 05-12
  29. Sub-32B 开放权重 产品 · Artificial Analysis · 05-12
  30. OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct 产品 · Artificial Analysis · 05-12
  31. BalCapRL:基于RL的MLLM图像描述平衡框架 研究 · Apple ML · 05-12
  32. MiniCPM-V-4.6-gguf 工程 · OpenBMB · 05-12
  33. 用 Amazon Nova 多模态嵌入实现制造智能 工程 · AWS ML · 05-12
  34. MiniCPM-V-4.6-Thinking-gguf 产品 · OpenBMB · 05-11
  35. MiniCPM-V-4.6-Thinking 产品 · OpenBMB · 05-11
  36. MiniCPM-V-4.6-AWQ 产品 · OpenBMB · 05-11
  37. MiniCPM-V-4.6-BNB 产品 · OpenBMB · 05-11
  38. MiniCPM-V-4.6-GPTQ 产品 · OpenBMB · 05-11
  39. MiniCPM-V-4.6-Thinking-AWQ 产品 · OpenBMB · 05-11
  40. MiniCPM-V-4.6-Thinking-GPTQ 产品 · OpenBMB · 05-11
  41. MiniCPM-V-4.6-Thinking-BNB 产品 · OpenBMB · 05-11
  42. xAI将Colossus 1租给Anthropic做inference 工程 · X Trending · 05-10
  43. world modeling被称为robotics新预训练范式 研究 · X · 05-09
  44. 用一个 Python 字典将多模态推理性能提升 >10% 工程 · Modal · 05-09
  45. 如何通过 Gemini API 使用 Deep Research 工程 · Phil Schmid · 05-09
  46. 当“正确”并非确定性时验证 agentic 行为 研究 · GitHub AI/ML · 05-09
  47. MiniCPM-V-4_5-GPTQ 产品 · OpenBMB · 05-08
  48. Arthur-Ficial/apfel 工程 · GitHub · 05-08
  49. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  50. Gemini API 更新 Interactions steps 与 File Search 多模态检索 产品 · X · 05-08
  51. Gemini Deep Research 更新,支持MCP和多模态输入 产品 · X · 05-07
  52. Gemini API File Search 支持 PDF 与图像多模态 RAG 产品 · X · 05-07
  53. 唤醒统一多模态理解与生成中的空间智能 研究 · HF Papers · 05-07
  54. D-OPSD:用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏 研究 · HF Papers · 05-07
  55. OpenSearch-VL:面向前沿多模态搜索 agent 的开放方案 研究 · HF Papers · 05-07
  56. 从物体的位置到用途:多模态 LLM 空间–功能智能 benchmark 研究 · Apple ML · 05-07
  57. 生成、过滤、控制、回放:LLM 强化学习 rollout 策略全面综述 研究 · HF Papers · 05-07
  58. ESARBench:用于 Agentic UAV 具身搜索与救援的 Benchmark 研究 · HF Papers · 05-06
  59. X2SAM:图像和视频中的任意分割 研究 · HF Papers · 05-06
  60. SplAttN:用 Gaussian Soft Splatting 和 Attention 连接 2D 与 3D 以实现点云补全 HF Papers · 05-06
  61. 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
  62. BlenderRAG:通过检索增强代码合成实现高保真 3D 对象生成 HF Papers · 05-06
  63. 如何用 NVIDIA 构建车载 AI agent:从云端到汽车 NVIDIA Developer · 05-06
  64. 持久视觉记忆:为 LVLMs 的深度生成维持感知 HF Papers · 05-05
  65. OceanPile:面向基础模型的大规模多模态海洋语料库 HF Papers · 05-05
  66. 视觉-语言模型中抑制幻觉的在线自校准 HF Papers · 05-04
  67. 让 ViT 说话:生成式语言-图像预训练 HF Papers · 05-04
  68. UniVidX:基于 Diffusion Priors 的通用视频生成统一多模态框架 HF Papers · 05-04
  69. [公司] Mistral AI 与 NVIDIA 合作加速开放前沿模型,作为 NVIDIA Nemotron Coalition 创始成员贡献大规模模型开发和多模态能力 Mistral · 05-04
  70. Qwen3.6-27B-FP8 产品 · Qwen · 05-03
  71. Qwen3.6-27B 产品 · Qwen · 05-03
  72. Claude Opus 4.7 介绍 Anthropic · 05-03
  73. vLLM 中的 DeepSeek V4:高效长上下文 Attention vLLM · 05-03
  74. moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
  75. NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
  76. FASH-iCNN:通过多模态 CNN 探测让编辑时尚身份可检视 HF Papers · 05-03
  77. vLLM 中混合 SSM 模型的分离式 Serving vLLM · 05-03
  78. 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03
  79. NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用 AWS ML · 05-03
  80. 用 Amazon Nova 2 Sonic 将文本 agent 迁移为语音助手 AWS ML · 05-03
  81. Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni 产品 · Together AI · 05-03
  82. NVIDIA Nemotron 3 Nano Omni 以单一高效开放模型支持多模态 agent 推理 NVIDIA Developer · 05-03
  83. LLM 0.32a0 是一次重大的向后兼容重构 Simon Willison · 05-03
  84. Nemotron 3 Nano Omni:高效开放的多模态智能 HF Papers · 05-02
  85. 高效计算机使用 agent 的步骤级优化 HF Papers · 05-02
  86. InteractWeb-Bench:Multimodal Agent 能否在交互式网站生成中摆脱盲目执行 HF Papers · 05-01
  87. RADIO-ViPE:面向动态环境中开放词汇语义 SLAM 的在线紧耦合多模态融合 HF Papers · 05-01
  88. GLM-5V-Turbo:迈向多模态 agent 的原生基础模型 HF Papers · 04-30