DeepSeek 团队发布了一个新模型：DeepSeek-OCR它是一个高性能 OCR（光学字符识别）模型，但用的是大模型思路来理解图像和文本的关系，不只是“识别文字”，而是在“读懂文档”

DeepSeek 团队发布了一个新模型：DeepSeek-OCR

它是一个高性能 OCR（光学字符识别）模型，但用的是大模型思路来理解图像和文本的关系，不只是“识别文字”，而是在“读懂文档”。

DeepSeek-OCR 是一个从 LLM（大型语言模型）视角出发重新设计的 OCR 系统。

它通过视觉编码器（vision encoder）压缩图像上下文，让模型在“理解”图像内容时更高效。

可以说，它把视觉输入当成语言模型的延伸，而不是单纯的图像任务。

模型目前已经开源，并在 Hugging Face 上提供可下载版本，同时也被上游框架 vLLM 正式支持。

这意味着你可以直接用它在大规模并行环境下跑推理任务。

https://github.com/deepseek-ai/DeepSeek-OCR

GitHub

GitHub - deepseek-ai/DeepSeek-OCR: Contexts Optical Compression

Contexts Optical Compression. Contribute to deepseek-ai/DeepSeek-OCR development by creating an account on GitHub.