一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

InteractWeb-Bench:Multimodal Agent 能否在交互式网站生成中摆脱盲目执行

InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

Qiyao Wang, Haoran Hu, Longze Chen, Hongbo Wang, Hamid Alinejad-Rokny, Yuan Lin, Min Yang
来自 IP Intelligence
二〇二六年五月一日 · arXiv:2604.27419 · PDF · Code

随着 multimodal large language models(MLLMs)和 coding agents 的发展,网站开发已从手工编程转向基于 agent 的项目级代码合成。现有 benchmark 依赖理想化假设,尤其假设输入结构良好、信息丰富,并采用静态执行设置。相比之下,真实世界的开发受到一个关键瓶颈限制:非专家用户给出的模糊、低质量指令与模型理解之间存在 semantic misalignment(语义错位),导致一种我们称为 blind execution(盲目执行)的失败模式。

为弥合这一差距,我们提出 InteractWeb-Bench,这是首个面向非专家低代码用户条件下网站生成的 multimodal interactive benchmark。InteractWeb-Bench 引入了四类 user agents 和由 persona 驱动的指令扰动,以系统模拟多样化的用户行为,包括模糊、冗余和矛盾;这些设计基于 requirements engineering(需求工程)缺陷分类法。我们开发了一个面向 agents 的交互式执行环境,其统一 action space 包含 Clarify、Implement、Verify 和 Submit,从而支持迭代式意图澄清、代码合成,以及基于视觉反馈的验证。

大量实验和分析表明,前沿的基于 MLLM 的 agents 仍然陷于 blind execution,暴露出其在意图识别和自适应交互方面的局限。

译自 Hugging Face · Daily Papers · arXiv:2604.27419 · 录于 二〇二六年五月一日