PaddleOCR 3.5：使用 Transformers 后端运行 OCR 与文档解析任务

PaddleOCR 3.5: Running OCR and Document Parsing Tasks with a Transformers Backend

二〇二六年五月十八日 · 英文原文

摘要

PaddleOCR 3.5 由 PaddlePaddle 团队（AlexTransformer、ChengCui、Jun Zhang、Manhui Lin）发布，将 OCR 与文档解析模型（PP-OCRv5、PaddleOCR-VL 1.5）融入 Hugging Face 生态。该版本引入 Transformers 作为可选推理后端，开发者可通过 `engine="transformers"` 参数切换，并利用 `engine_config` 配置 dtype、设备分配及 attention 实现。此举旨在降低 RAG、Document AI 及 agent 应用的数据摄取集成摩擦，提供更自然的从文档到下游工作流的路径。Hugging Face 工程师 Anton Vlasjuk、Raushan Turganbay 及 Yoni Gozlan 参与了 PR 审查与集成支持。

](https://huggingface.co/AlexTransformer)

PaddleOCR 3.5 将 OCR 和文档解析任务更紧密地融入 Hugging Face 生态。通过此版本，支持的 PaddleOCR 模型可以通过设置以下参数，使用 Hugging Face Transformers 作为推理后端来运行：

engine="transformers"

PaddleOCR 继续提供 PP-OCRv5 等 OCR 模型系列和 PaddleOCR-VL 1.5 等文档解析模型系列，而 Transformers 成为运行这些模型的支持后端之一。

在 Hugging Face Spaces 上体验在线演示：https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

有哪些变化？

PaddleOCR 3.5 引入了更灵活的推理引擎接口。开发者可以通过 engine 参数选择后端，并通过 engine_config 传递后端特定的选项。

在实践中，这意味着：

这些任务背后的 pipeline 由 PaddleOCR 管理，因此开发者无需手动调用每个内部组件。
Transformers 成为运行支持的 PaddleOCR 模型的一个推理后端选项。
开发者可以通过 engine_config 配置后端相关选项，例如 dtype、设备分配和 attention 实现。

理解技术栈的简单方式：

层级	含义	示例
应用层	使用 OCR 和文档解析输出的应用	RAG、agent、Document AI...
模型层	OCR 和文档解析能力	PP-OCRv5、PaddleOCR-VL 1.5...
推理后端层	用于运行支持模型的运行时	Paddle 静态图、Paddle 动态图、Transformers

本次发布主要涉及推理后端层：PaddleOCR 继续提供 OCR 和文档解析能力，而 Transformers 为支持的 PaddleOCR 模型提供了另一个后端选项，使其能自然融入以 Hugging Face 为中心的环境。更大的 Document AI 工作流仍由开发者和应用构建者掌控。

为何重要

对于 RAG、Document AI 和文档 agent 应用而言，困难的部分往往在 LLM 之前就开始了。

开发者首先需要将 PDF、扫描文档、截图、表格、图表、公式和复杂的页面布局转化为可靠的结构化数据。如果这个数据摄取环节薄弱，下游的 LLM 工作流可能会遗漏关键信息、检索到错误的上下文，或产生不可靠的答案。

PaddleOCR 通过提供 PP-OCRv5 等 OCR 模型系列和 PaddleOCR-VL-1.5 等文档解析模型系列，帮助解决这一文档摄取挑战。

借助 PaddleOCR 3.5，这些能力现在更容易与以 Transformers 为中心的技术栈连接。支持的 PaddleOCR 模型可以使用 Transformers 后端运行，而 PaddleOCR 继续在后台管理 OCR 或文档解析 pipeline。

对开发者而言，这意味着更少的集成摩擦，以及从文档到下游 RAG、agent、搜索、分析或自动化工作流的更自然路径。

快速开始

安装 PaddleOCR 3.5、PaddleX、Transformers，以及与你硬件兼容的 PyTorch 构建版本。

例如，在 CUDA 12.6 环境中：

python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"

对于 CPU、ROCm 或其他环境，请安装与目标硬件匹配的 PyTorch 构建版本。

从命令行运行：

paddleocr ocr \
  -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \
  --device gpu:0 \
  --engine transformers

或使用 Python API：

from paddleocr import PaddleOCR

pipeline = PaddleOCR(
    device="gpu:0",
    engine="transformers",
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine_config={
        "dtype": "float32",
    },
)

results = pipeline.predict(
    "https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png"
)

for result in results:
    print(result)

Hugging Face Space 使用 float32 以实现广泛兼容。对于你自己的硬件，你可以通过 engine_config 调整后端特定选项：

engine_config = {
    "dtype": "bfloat16",
    "device_type": "gpu",
    "device_id": 0,
    "attn_implementation": "sdpa",
}

最佳配置取决于你的模型、硬件和部署环境。

何时应使用 Transformers 后端？

当你希望 PaddleOCR 的 OCR 和文档解析能力更自然地融入以 Hugging Face 为中心的技术栈时，请使用 Transformers 后端。

如果你正在构建 RAG、Document AI、搜索、分析或 agent 应用，并且已经依赖 PyTorch / Transformers 基础设施进行模型加载、实验、部署或模型产物管理，这一点尤其有用。

Transformers 后端在以下情况下是很好的选择：

对于已经使用 Transformers 的团队，提供更熟悉的开发体验；
为支持的 PaddleOCR 模型提供 Hub 兼容的模型发现和分发；
更容易与现有的 PyTorch / Transformers 服务集成。

当最大化 OCR 或文档解析吞吐量是首要目标时，PaddleOCR 默认的 paddle_static 后端通常是推荐选择。

本次发布并非要用一个后端替代另一个。而是为开发者提供更多灵活性：使用 PaddleOCR 获得 OCR 和文档解析能力，并选择最适合你技术栈的推理后端。

立即尝试

在 Hugging Face Spaces 上体验 PaddleOCR 3.5 Transformers 演示：

https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

在 Hub 上探索 PaddleOCR 模型：

https://huggingface.co/PaddlePaddle/models

PaddleOCR 3.5 将 OCR 和文档解析能力更紧密地融入以 Transformers 为中心的工作流，同时赋予开发者围绕这些能力构建更大规模 Document AI 应用的自由。

资源

PaddleOCR 文档：https://www.paddleocr.ai/
PaddleOCR 在 GitHub 上：https://github.com/PaddlePaddle/PaddleOCR
PaddlePaddle 在 Hugging Face 上的组织：https://huggingface.co/PaddlePaddle
PaddleOCR 3.5 Transformers 在 Spaces 上的演示：https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

致谢

我们衷心感谢支持 PaddleOCR 3.5 Transformers 集成的 Hugging Face 工程师。

特别感谢 Anton Vlasjuk 的全程参与，包括审查和合并所有相关的 pull request。

我们也感谢 Raushan Turganbay 和 Yoni Gozlan 宝贵的 PR 审查和反馈。

他们的指导帮助提升了集成质量、文档和 Hugging Face 社区的开发者体验。

译自 Hugging Face · 官方博客 · 录于二〇二六年五月十八日