SciCore-Omics
SciCore-Omics
SciCore-Omics 是一个三模态基础模型,由 OpenBMB 团队开发,统一了组织学图像、空间转录组学和生物语言,用于空间生物学和病理学推理。该模型基于 MiniCPM-V 架构,新增了由 NicheFormer、Gene Q-Former 和 Gene Projector 组成的转录组分支,支持图像、基因表达谱、文本或联合输入。在基因表达预测任务上,相对最强外部基线提升 23.6–80.9%;在组织病理学零样本分类中,平均准确率比 GPT-5 高出 6.16 个百分点。模型权重和代码已发布于 Hugging Face 和 GitHub,采用 Apache-2.0 许可证。
SciCore-Omics
SciCore-Omics 是一个三模态基础模型,统一了组织学图像、空间转录组学和生物语言,用于空间生物学和病理学推理。
此 Hugging Face 仓库托管了 SciCore-Omics 的模型权重。
GitHub 代码: https://github.com/OpenBMB/Scicore-Omics
许可证: Apache-2.0
模型描述
SciCore-Omics 旨在联合推理组织形态和分子状态。
该模型扩展了一个 MiniCPM-V 风格的多模态语言模型,并增加了一个专门的转录组分支。基因表达谱通过 NicheFormer 编码,由 Gene Q-Former 压缩,并通过 Gene Projector 投影到语言模型的 token 空间中。
这种设计使 SciCore-Omics 能够接受:
组织学图像;
空间转录组谱;
自然语言提示;
或联合的图像-基因-文本输入。
然后,模型生成具有生物学基础的自然语言响应。
模型架构
SciCore-Omics 遵循以下通用结构: 组织学图像 -> 视觉编码器 -> 图像 tokens 基因表达谱 -> 基因 tokenizer -> NicheFormer -> Gene Q-Former -> Gene Projector -> 基因 tokens
文本提示
-> 文本 tokenizer
-> 文本 tokens
图像 tokens + 基因 tokens + 文本 tokens
-> 自回归语言模型
-> 生物学自然语言响应
主要组件:
| 组件 | 描述 |
|---|---|
| 视觉编码器 | 将组织学图像编码为视觉嵌入 |
| NicheFormer | 将转录组谱编码为基因嵌入 |
| Gene Q-Former | 将基因嵌入压缩为固定长度的查询 tokens |
| Gene Projector | 将基因 tokens 投影到 LLM 隐藏空间 |
| LLM 主干 | 生成生物学自然语言响应 |
预期用途
SciCore-Omics 旨在用于空间生物学、病理学 AI 和生物医学多模态学习的研究用途。
潜在用例包括:
基于组织学的生物描述生成;
基于转录组的生物解释;
联合图像-基因推理;
空间域识别;
基因表达相关推理;
组织和病理学问答;
从组织学图像进行探索性的病例级分子解释。
非预期用途
SciCore-Omics 不应被用作独立的临床诊断系统。
该模型不适用于:
直接临床诊断;
自动化治疗决策;
医疗分诊;
替代病理学家、分子生物学家或临床医生;
未经专家审查的监管或保险决策。
模型生成的任何生物医学或临床结论都应由合格的领域专家审查,并用适当的实验或临床证据进行验证。
使用方法
此 Hugging Face 仓库仅托管模型权重。
如需完整的推理代码,请克隆 GitHub 仓库:
git clone https://github.com/OpenBMB/Scicore-Omics.git
cd Scicore-Omics
创建环境: conda env create -f environment.yml conda activate OMICS
你可以从 Hugging Face 加载模型权重:
huggingface-cli download openbmb/SciCore-Omics
--local-dir ./weights/SciCore-Omics
然后使用示例脚本运行本地推理:
python eval/example.py
--model_path ./weights/SciCore-Omics
--image_path examples/assets/example.png
--gene_path examples/assets/example.h5ad
--prompt "请描述该样本的组织形态和分子状态。"
你也可以直接使用 Hugging Face 模型 ID:
python eval/example.py
--model_path openbmb/SciCore-Omics
--image_path examples/assets/example.png
--gene_path examples/assets/example.h5ad
--prompt "请描述该样本的组织形态和分子状态。"
最小加载示例
import torch
from transformers import AutoModel, AutoTokenizer, AutoProcessor
model_path = "openbmb/SciCore-Omics"
processor = AutoProcessor.from_pretrained(
model_path,
trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained(
model_path,
trust_remote_code=True
)
model = AutoModel.from_pretrained(
model_path,
trust_remote_code=True,
torch_dtype=torch.bfloat16,
device_map="auto"
)
model.eval()
关于图像和基因输入,请参考 GitHub 仓库中的推理代码: https://github.com/OpenBMB/Scicore-Omics/tree/main/eval
输入格式
SciCore-Omics 支持三种类型的输入:
| 输入 | 格式 | 描述 |
|---|---|---|
| 图像 | .png, .jpg, .jpeg |
组织学图像或组织 patch |
| 基因表达 | .h5ad |
空间转录组谱 |
| 文本 | 自然语言 | 用户指令或生物学问题 |
一个典型的 .h5ad 文件应包含:
adata.X # 基因表达矩阵
adata.var_names # 基因名称
adata.obs # 可选的 spot 或细胞元数据
adata.obsm # 可选的空间坐标
基因名称应与 SciCore-Omics 使用的基因 tokenizer 资源兼容。
示例提示
图像 + 基因推理
分析此组织学图像及其空间转录组谱。
仅基因推理
描述此转录组谱所代表的生物状态。
仅图像推理
描述此组织学图像中的组织形态。
生物学解释
在该组织区域观察到的形态可能与哪些分子程序相关?
性能总结
SciCore-Omics 在多个空间生物学和病理学相关任务上进行了评估。
| 任务 | 输入 | 结果摘要 |
|---|---|---|
| 基因表达预测 | 组织学图像 | 相对于最强外部基线有 23.6–80.9% 的相对提升 |
| 空间域识别 | 图像 / 基因 / 联合输入 | 多模态输入改进了空间域预测 |
| 组织病理学分类 | 仅图像,零样本 | 在四个 benchmark 上,平均准确率比 GPT-5 高出 +6.16 个百分点 |
| 乳腺癌病例级推理 | 仅 H&E 图像 | 对 10 个乳腺癌病例的专家评估 |
| 基于转录组的生成 | 基因输入 | 通过分阶段训练改进了 BLEU、ROUGE 和 BERTScore |
详细的 benchmark 脚本和完整结果表将逐步在 GitHub 仓库中发布。
局限性
SciCore-Omics 有几个重要的局限性:
它可能生成不准确、不完整或未经支持的生物学解释。
它对图像质量、组织预处理和 crop 选择敏感。
它对
.h5ad格式、基因词汇表和基因 tokenizer 兼容性敏感。它可能无法很好地泛化到训练数据中未充分代表的组织、疾病、平台或人群。
它尚未经过前瞻性验证用于临床。
它不应被用作独立的临床决策工具。
伦理与负责任使用
发布 SciCore-Omics 是为了支持空间生物学和生物医学 AI 的研究。
用户应确保:
所有输入数据的使用都符合适用的数据治理规则;
敏感或私密的生物医学数据得到安全处理;
模型输出在用于任何生物医学解释之前,需由合格专家审查;
未经适当验证和监管批准,不得将该模型部署为临床诊断或治疗推荐系统。
引用
如果你觉得 SciCore-Omics 有用,请考虑引用我们的工作: @misc{xiao2026scicoreomics, title = {SciCore-Omics: a tri-modal foundation model unifying histology, spatial transcriptomics and language for spatial biology}, author = {Xiao, Xinyu and Li, Yunfei and Zeng, Zheni and others}, year = {2026}, note = {Manuscript in preparation} }
正式引用将在论文公开后更新。
联系方式
如有问题、建议或错误报告,请在 GitHub 仓库中提交 issue: https://github.com/OpenBMB/Scicore-Omics/issues
或联系: Xinyu Xiao: xinyuxiao1@outlook.com
许可证
SciCore-Omics 根据 Apache-2.0 许可证发布。