録实録译稿议社区 24h

词术语频次

历封存归档

multimodal

█▇█▃ · 408 次 · 收录于 88 篇

多模态 · 同时处理文本 / 图像 / 音频 / 视频

感知还是偏见：MLLMs能否超越对人格的第一印象？研究 · HF Papers · 05-22
Video2GUI：合成大规模交互轨迹用于通用GUI Agent预训练研究 · HF Papers · 05-21
Cohere 收购 Reliant AI 以扩展主权企业 AI 产品 · Cohere · 05-21
宣布与Indra Group和Multiverse Computing签署战略合作备忘录产品 · Cohere · 05-21
强化新加坡AI未来：新国家伙伴关系产品 · DeepMind · 05-20
代码即代理工具研究 · HF Papers · 05-20
Gemini 3.5：具备行动能力的前沿智能产品 · DeepMind · 05-20
推出 Gemini Omni 产品 · DeepMind · 05-20
可扩展语音代理设计：Amazon Nova Sonic 的多代理、工具与会话分割工程 · AWS ML · 05-20
用 Amazon Nova 2 提示词做内容审核工程 · AWS ML · 05-19
MMSkills：面向通用视觉智能体的多模态技能研究 · HF Papers · 05-18
PhysBrain 1.0 技术报告研究 · HF Papers · 05-18
VeRL-Omni 发布：扩散与全模态模型的简易、快速、稳定 RL 训练工程 · vLLM · 05-18
CiteVQA：面向可信文档智能的证据归因基准测试研究 · HF Papers · 05-18
综述评估 agent 的基准：Terminal-Bench、Tau-Bench 等十余项及校准方法研究 · X · 05-16
vllm v0.21.0 工程 · GitHub Release · 05-15
AI将如何助长未来犯罪？研究 · UK AISI · 05-15
Intern-S2-Preview 研究 · InternLM · 05-15
Intern-S2-Preview-FP8 研究 · InternLM · 05-15
穿越未知：构建社会对前沿AI的韧性研究 · UK AISI · 05-15
管理日益强大的开放权重AI系统的风险研究 · UK AISI · 05-15
有效训练长上下文视觉语言模型，泛化能力超越128K上下文研究 · HF Papers · 05-15
MulTaBench：基于文本与图像的多模态表格学习基准测试研究 · HF Papers · 05-14
AI在欺诈与网络犯罪中滥用的评估框架研究 · UK AISI · 05-14
使用 Amazon Nova Sonic 和 WebRTC 构建实时语音流应用工程 · AWS ML · 05-14
AIMIP 发布：AI 天气与气候模型比对项目 | Ai2 评测 · Allen AI · 05-14
SenseNova-U1：基于NEO-unify架构统一多模态理解与生成研究 · HF Papers · 05-13
transformers v5.8.0 工程 · GitHub Release · 05-12
Sub-32B 开放权重产品 · Artificial Analysis · 05-12
OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct 产品 · Artificial Analysis · 05-12
BalCapRL：基于RL的MLLM图像描述平衡框架研究 · Apple ML · 05-12
MiniCPM-V-4.6-gguf 工程 · OpenBMB · 05-12
用 Amazon Nova 多模态嵌入实现制造智能工程 · AWS ML · 05-12
MiniCPM-V-4.6-Thinking-gguf 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-AWQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-BNB 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-GPTQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-AWQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-GPTQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-BNB 产品 · OpenBMB · 05-11
xAI将Colossus 1租给Anthropic做inference 工程 · X Trending · 05-10
world modeling被称为robotics新预训练范式研究 · X · 05-09
用一个 Python 字典将多模态推理性能提升 >10% 工程 · Modal · 05-09
如何通过 Gemini API 使用 Deep Research 工程 · Phil Schmid · 05-09
当“正确”并非确定性时验证 agentic 行为研究 · GitHub AI/ML · 05-09
MiniCPM-V-4_5-GPTQ 产品 · OpenBMB · 05-08
Arthur-Ficial/apfel 工程 · GitHub · 05-08
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
Gemini API 更新 Interactions steps 与 File Search 多模态检索产品 · X · 05-08
Gemini Deep Research 更新，支持MCP和多模态输入产品 · X · 05-07
Gemini API File Search 支持 PDF 与图像多模态 RAG 产品 · X · 05-07
唤醒统一多模态理解与生成中的空间智能研究 · HF Papers · 05-07
D-OPSD：用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏研究 · HF Papers · 05-07
OpenSearch-VL：面向前沿多模态搜索 agent 的开放方案研究 · HF Papers · 05-07
从物体的位置到用途：多模态 LLM 空间–功能智能 benchmark 研究 · Apple ML · 05-07
生成、过滤、控制、回放：LLM 强化学习 rollout 策略全面综述研究 · HF Papers · 05-07
ESARBench：用于 Agentic UAV 具身搜索与救援的 Benchmark 研究 · HF Papers · 05-06
X2SAM：图像和视频中的任意分割研究 · HF Papers · 05-06
SplAttN：用 Gaussian Soft Splatting 和 Attention 连接 2D 与 3D 以实现点云补全 HF Papers · 05-06
超越 SFT-to-RL：通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
BlenderRAG：通过检索增强代码合成实现高保真 3D 对象生成 HF Papers · 05-06
如何用 NVIDIA 构建车载 AI agent：从云端到汽车 NVIDIA Developer · 05-06
持久视觉记忆：为 LVLMs 的深度生成维持感知 HF Papers · 05-05
OceanPile：面向基础模型的大规模多模态海洋语料库 HF Papers · 05-05
视觉-语言模型中抑制幻觉的在线自校准 HF Papers · 05-04
让 ViT 说话：生成式语言-图像预训练 HF Papers · 05-04
UniVidX：基于 Diffusion Priors 的通用视频生成统一多模态框架 HF Papers · 05-04
[公司] Mistral AI 与 NVIDIA 合作加速开放前沿模型，作为 NVIDIA Nemotron Coalition 创始成员贡献大规模模型开发和多模态能力 Mistral · 05-04
Qwen3.6-27B-FP8 产品 · Qwen · 05-03
Qwen3.6-27B 产品 · Qwen · 05-03
Claude Opus 4.7 介绍 Anthropic · 05-03
vLLM 中的 DeepSeek V4：高效长上下文 Attention vLLM · 05-03
moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
FASH-iCNN：通过多模态 CNN 探测让编辑时尚身份可检视 HF Papers · 05-03
vLLM 中混合 SSM 模型的分离式 Serving vLLM · 05-03
用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03
NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用 AWS ML · 05-03
用 Amazon Nova 2 Sonic 将文本 agent 迁移为语音助手 AWS ML · 05-03
Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni 产品 · Together AI · 05-03
NVIDIA Nemotron 3 Nano Omni 以单一高效开放模型支持多模态 agent 推理 NVIDIA Developer · 05-03
LLM 0.32a0 是一次重大的向后兼容重构 Simon Willison · 05-03
Nemotron 3 Nano Omni：高效开放的多模态智能 HF Papers · 05-02
高效计算机使用 agent 的步骤级优化 HF Papers · 05-02
InteractWeb-Bench：Multimodal Agent 能否在交互式网站生成中摆脱盲目执行 HF Papers · 05-01
RADIO-ViPE：面向动态环境中开放词汇语义 SLAM 的在线紧耦合多模态融合 HF Papers · 05-01
GLM-5V-Turbo：迈向多模态 agent 的原生基础模型 HF Papers · 04-30