Crafter:面向多样化输入的可编辑科学图表生成的多智能体框架
Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs
摘要
科学图表是传达复杂研究思想最有效的手段之一,但制作达到出版质量的插图仍是论文准备过程中最耗时的环节之一。现有自动化系统各自仅针对单一图表类型,且仅支持纯文本输入,未能覆盖研究者实际使用的多样化类型与条件;其栅格输出也无法进行局部修改。由于科学图表是由离散语义组件构成的结构化组合,生成器在此类布局上产生的局部错误需要的并非更强的骨干网络,而是一种约束机制。我们通过两个互补系统实现了这一约束:Crafter——一个用于图表生成的多智能体约束框架,无需架构更改即可泛化至多种图表类型与输入条件;以及CraftEditor——它应用相同模式将栅格输出转换为可编辑的SVG。此外,我们引入了CraftBench,一个涵盖三种图表类型与四种输入条件的基准测试,并配有手工质量标注。实验表明,在PaperBanana-Bench和CraftBench上,Crafter显著优于独立生成器及智能体基线,消融实验证实了每个组件的独立贡献;CraftEditor能忠实地将输出转换为可编辑的SVG,超越所有基线。我们的代码与基准测试已开源至 https://github.com/HaozheZhao/Crafter。
译自 Hugging Face · Daily Papers · arXiv:2605.30611 · 录于 二〇二六年六月二日