Hugging Face · Daily Papers

OceanPile：面向基础模型的大规模多模态海洋语料库

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

Yida Xue, Ningyu Zhang, Tingwei Wu, Zhe Ma, Daxiong Ji, Zhao Wang, Guozhou Zheng, Huajun Chen

来自 Zhejiang University

二〇二六年五月五日 · arXiv:2605.00877 · PDF · Code

摘要

广阔而尚未充分探索的海洋在调节全球气候和支撑海洋生物多样性方面发挥着关键作用，但由于根本性的数据瓶颈，artificial intelligence 迄今在这一领域产生的影响仍然有限。具体而言，海洋数据高度分散于不同来源，并天然呈现多模态、高噪声和弱标注特征，缺乏统一的 schema 和语义对齐。尽管 Multimodal Large Language Models（MLLMs）在通用领域取得了显著成功，但由于缺少面向海洋环境的大规模、良好对齐的多模态数据集，其在海洋科学中的应用仍受到严重限制。

为弥合这一差距，我们提出 OceanPile，这是一个为 ocean foundation models 设计的大规模多模态语料库。它包含三个关键组成部分：OceanCorpus，一个统一的数据集合，整合了来自多种权威来源的 sonar data、水下图像、海洋科学可视化内容和科学文本；OceanInstruction，一个高质量 instruction 数据集，通过一种由分层 Ocean Concept Knowledge Graph 引导的新 pipeline 合成；以及 OceanBenchmark，一个人工整理的 evaluation benchmark，用于严格评估。

我们建立了一个多阶段质量控制流程，以确保跨模态的科学有效性与对齐。实验验证表明，使用我们的数据训练的模型性能显著提升。所有数据集均已公开发布，以推动 marine artificial intelligence 领域发展，并赋能面向特定领域的 MLLMs。