Crafter：面向多样化输入的可编辑科学图表生成的多智能体框架

Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

Haozhe Zhao, Shuzheng Si, Zhenhailong Wang, Zheng Wang, Liang Chen, Xiaotong Li, Zhixiang Liang, Maosong Sun 等 9 位

二〇二六年六月二日 · arXiv:2605.30611 · PDF · Code

摘要

科学图表是传达复杂研究思想最有效的手段之一，但制作达到出版质量的插图仍是论文准备过程中最耗时的环节之一。现有自动化系统各自仅针对单一图表类型，且仅支持纯文本输入，未能覆盖研究者实际使用的多样化类型与条件；其栅格输出也无法进行局部修改。由于科学图表是由离散语义组件构成的结构化组合，生成器在此类布局上产生的局部错误需要的并非更强的骨干网络，而是一种约束机制。我们通过两个互补系统实现了这一约束：Crafter——一个用于图表生成的多智能体约束框架，无需架构更改即可泛化至多种图表类型与输入条件；以及CraftEditor——它应用相同模式将栅格输出转换为可编辑的SVG。此外，我们引入了CraftBench，一个涵盖三种图表类型与四种输入条件的基准测试，并配有手工质量标注。实验表明，在PaperBanana-Bench和CraftBench上，Crafter显著优于独立生成器及智能体基线，消融实验证实了每个组件的独立贡献；CraftEditor能忠实地将输出转换为可编辑的SVG，超越所有基线。我们的代码与基准测试已开源至 https://github.com/HaozheZhao/Crafter。

译自 Hugging Face · Daily Papers · arXiv:2605.30611 · 录于二〇二六年六月二日