Web2BigTable:用于互联网规模信息搜索与抽取的双层多 agent LLM 系统
Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction
Agentic web search 日益面临两类不同需求:针对单一目标的深度推理,以及跨大量实体和异构来源的结构化聚合。当前系统在这两个方面都表现不足。广度导向的任务要求输出与 schema 对齐,具备广覆盖和跨实体一致性;深度导向的任务则需要在漫长且分支复杂的搜索轨迹上进行连贯推理。
我们提出 Web2BigTable,这是一个用于 web-to-table search 的 multi-agent framework,可同时支持这两类模式。Web2BigTable 采用双层架构:上层 orchestrator 将任务分解为子问题,下层 worker agents 并行求解这些子问题。通过闭环的 run--verify--reflect 过程,该 framework 借助持久化、可读的 external memory,随时间共同改进分解与执行,并对每个 single-agent 进行自演化更新。执行过程中,workers 通过共享 workspace 协作,使部分发现结果可见,从而减少重复探索、调和相互冲突的证据,并适应新出现的覆盖缺口。
Web2BigTable 在 WideSearch 上达到新的 SOTA:Avg@4 Success Rate 为 38.50(第二名 5.10 的 7.5 倍),Row F1 为 63.53(比第二名高 25.03),Item F1 为 80.12(比第二名高 14.42)。它也能泛化到 XBench-DeepSearch 上的深度导向搜索,达到 73.0 accuracy。代码可在 https://github.com/web2bigtable/web2bigtable 获取。