Hugging Face · 官方博客

PaddleOCR 3.5:使用 Transformers 后端运行 OCR 与文档解析任务

PaddleOCR 3.5: Running OCR and Document Parsing Tasks with a Transformers Backend

二〇二六年五月十八日 · 英文原文

PaddleOCR 3.5 由 PaddlePaddle 团队(AlexTransformer、ChengCui、Jun Zhang、Manhui Lin)发布,将 OCR 与文档解析模型(PP-OCRv5、PaddleOCR-VL 1.5)融入 Hugging Face 生态。该版本引入 Transformers 作为可选推理后端,开发者可通过 `engine="transformers"` 参数切换,并利用 `engine_config` 配置 dtype、设备分配及 attention 实现。此举旨在降低 RAG、Document AI 及 agent 应用的数据摄取集成摩擦,提供更自然的从文档到下游工作流的路径。Hugging Face 工程师 Anton Vlasjuk、Raushan Turganbay 及 Yoni Gozlan 参与了 PR 审查与集成支持。

](https://huggingface.co/AlexTransformer)

图片2:cuicheng 的头像

图片3:Jun Zhang 的头像

图片4:Manhui Lin 的头像

PaddleOCR 3.5 将 OCR 和文档解析任务更紧密地融入 Hugging Face 生态。通过此版本,支持的 PaddleOCR 模型可以通过设置以下参数,使用 Hugging Face Transformers 作为推理后端来运行:

engine="transformers"

PaddleOCR 继续提供 PP-OCRv5 等 OCR 模型系列和 PaddleOCR-VL 1.5 等文档解析模型系列,而 Transformers 成为运行这些模型的支持后端之一。

在 Hugging Face Spaces 上体验在线演示:https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

有哪些变化?

PaddleOCR 3.5 引入了更灵活的推理引擎接口。开发者可以通过 engine 参数选择后端,并通过 engine_config 传递后端特定的选项。

在实践中,这意味着:

理解技术栈的简单方式:

层级 含义 示例
应用层 使用 OCR 和文档解析输出的应用 RAG、agent、Document AI...
模型层 OCR 和文档解析能力 PP-OCRv5、PaddleOCR-VL 1.5...
推理后端层 用于运行支持模型的运行时 Paddle 静态图、Paddle 动态图、Transformers

本次发布主要涉及推理后端层:PaddleOCR 继续提供 OCR 和文档解析能力,而 Transformers 为支持的 PaddleOCR 模型提供了另一个后端选项,使其能自然融入以 Hugging Face 为中心的环境。更大的 Document AI 工作流仍由开发者和应用构建者掌控。

为何重要

对于 RAG、Document AI 和文档 agent 应用而言,困难的部分往往在 LLM 之前就开始了。

开发者首先需要将 PDF、扫描文档、截图、表格、图表、公式和复杂的页面布局转化为可靠的结构化数据。如果这个数据摄取环节薄弱,下游的 LLM 工作流可能会遗漏关键信息、检索到错误的上下文,或产生不可靠的答案。

PaddleOCR 通过提供 PP-OCRv5 等 OCR 模型系列和 PaddleOCR-VL-1.5 等文档解析模型系列,帮助解决这一文档摄取挑战。

借助 PaddleOCR 3.5,这些能力现在更容易与以 Transformers 为中心的技术栈连接。支持的 PaddleOCR 模型可以使用 Transformers 后端运行,而 PaddleOCR 继续在后台管理 OCR 或文档解析 pipeline。

对开发者而言,这意味着更少的集成摩擦,以及从文档到下游 RAG、agent、搜索、分析或自动化工作流的更自然路径。

快速开始

安装 PaddleOCR 3.5、PaddleX、Transformers,以及与你硬件兼容的 PyTorch 构建版本。

例如,在 CUDA 12.6 环境中:

python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"

对于 CPU、ROCm 或其他环境,请安装与目标硬件匹配的 PyTorch 构建版本。

从命令行运行:

paddleocr ocr \
  -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \
  --device gpu:0 \
  --engine transformers

或使用 Python API:

from paddleocr import PaddleOCR

pipeline = PaddleOCR(
    device="gpu:0",
    engine="transformers",
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine_config={
        "dtype": "float32",
    },
)

results = pipeline.predict(
    "https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png"
)

for result in results:
    print(result)

Hugging Face Space 使用 float32 以实现广泛兼容。对于你自己的硬件,你可以通过 engine_config 调整后端特定选项:

engine_config = {
    "dtype": "bfloat16",
    "device_type": "gpu",
    "device_id": 0,
    "attn_implementation": "sdpa",
}

最佳配置取决于你的模型、硬件和部署环境。

何时应使用 Transformers 后端?

当你希望 PaddleOCR 的 OCR 和文档解析能力更自然地融入以 Hugging Face 为中心的技术栈时,请使用 Transformers 后端。

如果你正在构建 RAG、Document AI、搜索、分析或 agent 应用,并且已经依赖 PyTorch / Transformers 基础设施进行模型加载、实验、部署或模型产物管理,这一点尤其有用。

Transformers 后端在以下情况下是很好的选择:

当最大化 OCR 或文档解析吞吐量是首要目标时,PaddleOCR 默认的 paddle_static 后端通常是推荐选择。

本次发布并非要用一个后端替代另一个。而是为开发者提供更多灵活性:使用 PaddleOCR 获得 OCR 和文档解析能力,并选择最适合你技术栈的推理后端。

立即尝试

在 Hugging Face Spaces 上体验 PaddleOCR 3.5 Transformers 演示:

https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

在 Hub 上探索 PaddleOCR 模型:

https://huggingface.co/PaddlePaddle/models

PaddleOCR 3.5 将 OCR 和文档解析能力更紧密地融入以 Transformers 为中心的工作流,同时赋予开发者围绕这些能力构建更大规模 Document AI 应用的自由。

资源

致谢

我们衷心感谢支持 PaddleOCR 3.5 Transformers 集成的 Hugging Face 工程师。

特别感谢 Anton Vlasjuk 的全程参与,包括审查和合并所有相关的 pull request。

我们也感谢 Raushan TurganbayYoni Gozlan 宝贵的 PR 审查和反馈。

他们的指导帮助提升了集成质量、文档和 Hugging Face 社区的开发者体验。

译自 Hugging Face · 官方博客 · 录于 二〇二六年五月十八日