Hugging Face · Daily Papers

InteractWeb-Bench：Multimodal Agent 能否在交互式网站生成中摆脱盲目执行

InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

Qiyao Wang, Haoran Hu, Longze Chen, Hongbo Wang, Hamid Alinejad-Rokny, Yuan Lin, Min Yang

来自 IP Intelligence

二〇二六年五月一日 · arXiv:2604.27419 · PDF · Code

摘要

随着 multimodal large language models（MLLMs）和 coding agents 的发展，网站开发已从手工编程转向基于 agent 的项目级代码合成。现有 benchmark 依赖理想化假设，尤其假设输入结构良好、信息丰富，并采用静态执行设置。相比之下，真实世界的开发受到一个关键瓶颈限制：非专家用户给出的模糊、低质量指令与模型理解之间存在 semantic misalignment（语义错位），导致一种我们称为 blind execution（盲目执行）的失败模式。

为弥合这一差距，我们提出 InteractWeb-Bench，这是首个面向非专家低代码用户条件下网站生成的 multimodal interactive benchmark。InteractWeb-Bench 引入了四类 user agents 和由 persona 驱动的指令扰动，以系统模拟多样化的用户行为，包括模糊、冗余和矛盾；这些设计基于 requirements engineering（需求工程）缺陷分类法。我们开发了一个面向 agents 的交互式执行环境，其统一 action space 包含 Clarify、Implement、Verify 和 Submit，从而支持迭代式意图澄清、代码合成，以及基于视觉反馈的验证。

大量实验和分析表明，前沿的基于 MLLM 的 agents 仍然陷于 blind execution，暴露出其在意图识别和自适应交互方面的局限。