二〇二六年五月四日
收録 24 篇
研究 24
- Talker-T2AV:基于自回归扩散建模的联合说话音视频生成
- 从树到流再回到树:统一 Decision Trees 与 Diffusion Models
- 视觉-语言模型中抑制幻觉的在线自校准
- Web2BigTable:用于互联网规模信息搜索与抽取的双层多 agent LLM 系统
- 基于 1D Semantic Tokenizer 的端到端自回归图像生成
- Themis:训练鲁棒的多语言代码奖励模型,用于灵活的多标准评分
- 让 ViT 说话:生成式语言-图像预训练
- AnalogRetriever:学习用于模拟电路检索的跨模态表征
- LASE:用于印度语跨文字身份保持的语言对抗式说话人编码
- Map2World:以分割图为条件的文本到 3D 世界生成
- 面向分布式黑盒共识优化的行动与协作学习
- 边部署边学习:面向通用机器人策略的机群规模强化学习
- 从技能文本到技能结构:面向 agent 技能的调度-结构-逻辑表示
- UniVidX:基于 Diffusion Priors 的通用视频生成统一多模态框架
- [工程] 两类用户,一个 CLI:人和 agent 为 agent 设计迫使我们构建更好的工具,从内部工具开始
- Vibe 中的远程 agent,由 Mistral Medium 3.5 驱动
- [产品] 推出 Forge:让企业基于专有知识构建前沿级 AI 模型的系统
- [研究] 谈谈 Voxtral Voxtral TTS:一个快速、可即时适配、为 voice agents 生成逼真语音的前沿开放权重文本转语音模型
- [研究] Leanstral:可信 vibe-coding 的开源基础,首个面向 Lean 4 的开源 code agent
- [公司] Mistral AI 与 NVIDIA 合作加速开放前沿模型,作为 NVIDIA Nemotron Coalition 创始成员贡献大规模模型开发和多模态能力
- [Product] 面向支撑业务运转工作的 Workflows 现已进入 public preview
- [Product] 串联起来:在 Studio 中使用内置和自定义 MCP 构建,将企业数据连接到你的 AI 应用,用可复用连接器、直接工具调用和 human-in-the-loop 审批控制
- [Research] 介绍 Mistral Small 4
- 引用 Anthropic