DeepSeek OCR 以 AI 将文档转换为结构化数据

体验 DeepSeek OCR 的强大能力——这是一款开源 AI 模型，可将复杂的文档、PDF 和图像转换为整洁的 Markdown。立即试用下方官方演示，并关注我们即将上线的增强型 API 服务。

Loading Demo...

DeepSeek OCR 由前沿 AI 技术驱动

Hugging Face

PyTorch

vLLM

DeepSeek LLM

SAM ViT-B

CLIP-L

DeepSeek OCR 性能指标

为速度与准确而生

DeepSeek OCR 专为生产级文档处理打造，结合自适应分辨率模式、高性能 vLLM 推理以及高效的 Token 使用。不论是简单收据还是复杂论文，都能轻松应对。

分辨率模式

覆盖 Tiny（512px）至 Gundam（动态）

2500+

每秒 Tokens

在 A100-40G 上实现高性能推理

400

最大视觉 Tokens

支持高分辨率文档

DeepSeek OCR 功能亮点

满足端到端需求

深入了解 DeepSeek OCR 如何从精准识别到结构化转换，提供全链路的文档智能能力。

将任何文档转换为干净、结构化的 Markdown，同时保留标题、表格、列表和语义布局。DeepSeek OCR 理解文档结构，而不仅是文本，非常适合内容迁移、文档工作流和知识库建设。生成的 Markdown 可直接用于版本管理、静态站点生成器或内容管理系统。

DeepSeek OCR document to Markdown output preview

为什么选择 DeepSeek OCR？

强大的核心优势

DeepSeek OCR 拥有区别于传统 OCR 与商业方案的独特优势。

开源自由

DeepSeek OCR 完全开源且免费，可在自有基础设施部署，无需担心授权费用、API 限额或供应商锁定。模型已在 GitHub 与 Hugging Face 发布，支持自定义与商业使用。

上下文智能

不同于传统基于模式匹配的 OCR，DeepSeek OCR 通过视觉语言模型理解文档语境，可利用上下文纠错、理解结构并输出保留语义的格式。

生产级性能

针对真实业务场景设计，DeepSeek OCR 支持高吞吐批处理、流式输出与高效内存利用。搭配 vLLM 优化可在现代 GPU 上每分钟处理上百页文档，也能以更轻量模式在云端节省成本。

灵活分辨率模式

从面向简单文本的轻量 Tiny 模式到面向复杂学术论文的 Gundam 自适应多裁剪，DeepSeek OCR 可在准确性与效率间自由切换。

广泛文档支持

兼容 PDF、扫描图片、照片、截图乃至手写笔记。DeepSeek OCR 能准确处理多语言内容、数学公式、表格、图表等复杂布局。

易于集成

无论是 Python API、命令行工具还是 REST API，DeepSeek OCR 都提供多种集成方式。可使用 Transformers 库快速开发脚本，借助 vLLM 上线生产，或使用即将推出的云端 API，省去基础设施负担。

DeepSeek OCR 典型场景

覆盖多种业务需求

从学术研究到企业自动化，DeepSeek OCR 以稳定的准确率与效率，处理各种文档挑战。

学术论文

从论文与研究文档中提取完整正文、数学公式、引用和图注。DeepSeek OCR 能识别 LaTeX 数学符号、化学式与复杂方程，非常适合文献综述、知识管理与数字图书馆构建。在保留学术排版结构的同时处理学位论文、期刊文章与会议论文。

商务文档

结构化识别发票、合同、报告与商业邮件，精准理解表格、标题和层级布局。DeepSeek OCR 可自动录入数据、构建可检索档案，并加速业务流程自动化。适用于应付账款处理、合同管理与合规文档归档。

扫描影像

将陈旧扫描件、手写笔记与低质量图像转换为干净可编辑文本。DeepSeek OCR 的视觉语言模型可处理噪点、倾斜扫描与质量差异，生成可检索的数据集，助力档案数字化、历史文献保护与遗留数据迁移。

图表与图形

抽取图表、柱状图、折线图、示意图与信息图中的数据用于分析与报表。DeepSeek OCR 理解文本以外的视觉表达，捕捉标签、图例、坐标轴与趋势信息，将可视化商务智能转化为结构化数据，便于后续处理与分析工作流。

DeepSeek OCR 技术架构

由顶尖 AI 提供动力

DeepSeek OCR 结合先进的视觉处理与强大的语言模型，实现精准高效的文档理解。技术栈专为生产环境优化，在准确率、速度与资源效率之间取得平衡。

DeepSeek OCR performance benchmark chart

视觉编码器

DeepSeek OCR 采用精巧的视觉编码器，同时捕捉文档的整体布局与细粒度文本细节。该双重理解能力可在混合内容、字体多样与排版复杂的文档中保持高精度。编码器架构专为文档处理设计，而非通用图像理解。

多尺度特征提取

DeepSeek LLM

DeepSeek OCR 的核心是一套具备上下文理解能力的语言模型。不同于传统模式匹配式 OCR，该 LLM 能利用语境纠错，理解文档语义，并生成 Markdown 等结构化输出，实现 Grounding、引用抽取与格式感知的文本生成。

支持 Grounding、引用与多模态推理

vLLM 高性能推理

DeepSeek OCR 借助 vLLM（Very Large Language Model）推理技术提供生产级性能。依托连续批处理、内存优化与 GPU 调度，可实现流式输出与高吞吐批量处理。在 A100 等高性能硬件上，轻松以亚秒级延迟处理数千页文档。

~2500 tokens/s @ A100-40G

动态分辨率

Gundam 模式体现了 DeepSeek OCR 的智能自适应分辨率机制。它不会对所有文档使用固定分辨率，而是依据复杂度动态分配视觉 Tokens。多裁剪策略确保在公式、表格等高密度内容中保持准确，同时兼顾简单页面的效率，实现跨文档类型的最优表现。

Gundam 模式多裁剪策略

常见问题

还有疑问？

这里汇总了关于 DeepSeek OCR 的高频问题，从支持的格式到部署方式一应俱全。

DeepSeek OCR 以 AI 将文档转换为结构化数据

DeepSeek OCR 由前沿 AI 技术驱动

DeepSeek OCR 性能指标

为速度与准确而生

DeepSeek OCR 功能亮点

满足端到端需求

文档转 Markdown

PDF 批量处理

多分辨率支持

定位与引用

为什么选择 DeepSeek OCR？

强大的核心优势

开源自由

上下文智能

生产级性能

灵活分辨率模式

广泛文档支持

易于集成

DeepSeek OCR 典型场景

覆盖多种业务需求

DeepSeek OCR 技术架构

由顶尖 AI 提供动力

常见问题

什么是 DeepSeek OCR？

目前提供哪些能力？

支持哪些文件格式？

识别准确率与其他方案相比如何？

能处理手写文本和多语言吗？

有哪些分辨率模式？

会提供 API 吗？

自托管需要什么硬件？

收费模式如何？

可以为开源版本做贡献吗？