词
历multimodal
多模态 · 同时处理文本 / 图像 / 音频 / 视频
- 感知还是偏见:MLLMs能否超越对人格的第一印象?
- Video2GUI:合成大规模交互轨迹用于通用GUI Agent预训练
- Cohere 收购 Reliant AI 以扩展主权企业 AI
- 宣布与Indra Group和Multiverse Computing签署战略合作备忘录
- 强化新加坡AI未来:新国家伙伴关系
- 代码即代理工具
- Gemini 3.5:具备行动能力的前沿智能
- 推出 Gemini Omni
- 可扩展语音代理设计:Amazon Nova Sonic 的多代理、工具与会话分割
- 用 Amazon Nova 2 提示词做内容审核
- MMSkills:面向通用视觉智能体的多模态技能
- PhysBrain 1.0 技术报告
- VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练
- CiteVQA:面向可信文档智能的证据归因基准测试
- 综述评估 agent 的基准:Terminal-Bench、Tau-Bench 等十余项及校准方法
- vllm v0.21.0
- AI将如何助长未来犯罪?
- Intern-S2-Preview
- Intern-S2-Preview-FP8
- 穿越未知:构建社会对前沿AI的韧性
- 管理日益强大的开放权重AI系统的风险
- 有效训练长上下文视觉语言模型,泛化能力超越128K上下文
- MulTaBench:基于文本与图像的多模态表格学习基准测试
- AI在欺诈与网络犯罪中滥用的评估框架
- 使用 Amazon Nova Sonic 和 WebRTC 构建实时语音流应用
- AIMIP 发布:AI 天气与气候模型比对项目 | Ai2
- SenseNova-U1:基于NEO-unify架构统一多模态理解与生成
- transformers v5.8.0
- Sub-32B 开放权重
- OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct
- BalCapRL:基于RL的MLLM图像描述平衡框架
- MiniCPM-V-4.6-gguf
- 用 Amazon Nova 多模态嵌入实现制造智能
- MiniCPM-V-4.6-Thinking-gguf
- MiniCPM-V-4.6-Thinking
- MiniCPM-V-4.6-AWQ
- MiniCPM-V-4.6-BNB
- MiniCPM-V-4.6-GPTQ
- MiniCPM-V-4.6-Thinking-AWQ
- MiniCPM-V-4.6-Thinking-GPTQ
- MiniCPM-V-4.6-Thinking-BNB
- xAI将Colossus 1租给Anthropic做inference
- world modeling被称为robotics新预训练范式
- 用一个 Python 字典将多模态推理性能提升 >10%
- 如何通过 Gemini API 使用 Deep Research
- 当“正确”并非确定性时验证 agentic 行为
- MiniCPM-V-4_5-GPTQ
- Arthur-Ficial/apfel
- rohitg00/从零开始的 AI 工程
- Gemini API 更新 Interactions steps 与 File Search 多模态检索
- Gemini Deep Research 更新,支持MCP和多模态输入
- Gemini API File Search 支持 PDF 与图像多模态 RAG
- 唤醒统一多模态理解与生成中的空间智能
- D-OPSD:用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏
- OpenSearch-VL:面向前沿多模态搜索 agent 的开放方案
- 从物体的位置到用途:多模态 LLM 空间–功能智能 benchmark
- 生成、过滤、控制、回放:LLM 强化学习 rollout 策略全面综述
- ESARBench:用于 Agentic UAV 具身搜索与救援的 Benchmark
- X2SAM:图像和视频中的任意分割
- SplAttN:用 Gaussian Soft Splatting 和 Attention 连接 2D 与 3D 以实现点云补全
- 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐
- BlenderRAG:通过检索增强代码合成实现高保真 3D 对象生成
- 如何用 NVIDIA 构建车载 AI agent:从云端到汽车
- 持久视觉记忆:为 LVLMs 的深度生成维持感知
- OceanPile:面向基础模型的大规模多模态海洋语料库
- 视觉-语言模型中抑制幻觉的在线自校准
- 让 ViT 说话:生成式语言-图像预训练
- UniVidX:基于 Diffusion Priors 的通用视频生成统一多模态框架
- [公司] Mistral AI 与 NVIDIA 合作加速开放前沿模型,作为 NVIDIA Nemotron Coalition 创始成员贡献大规模模型开发和多模态能力
- Qwen3.6-27B-FP8
- Qwen3.6-27B
- Claude Opus 4.7 介绍
- vLLM 中的 DeepSeek V4:高效长上下文 Attention
- moonshotai/Kimi-K2.6
- NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能
- FASH-iCNN:通过多模态 CNN 探测让编辑时尚身份可检视
- vLLM 中混合 SSM 模型的分离式 Serving
- 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI
- NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用
- 用 Amazon Nova 2 Sonic 将文本 agent 迁移为语音助手
- Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni
- NVIDIA Nemotron 3 Nano Omni 以单一高效开放模型支持多模态 agent 推理
- LLM 0.32a0 是一次重大的向后兼容重构
- Nemotron 3 Nano Omni:高效开放的多模态智能
- 高效计算机使用 agent 的步骤级优化
- InteractWeb-Bench:Multimodal Agent 能否在交互式网站生成中摆脱盲目执行
- RADIO-ViPE:面向动态环境中开放词汇语义 SLAM 的在线紧耦合多模态融合
- GLM-5V-Turbo:迈向多模态 agent 的原生基础模型