DeepSeek 团队发布了一个新模型:DeepSeek-OCR

它是一个高性能 OCR(光学字符识别)模型,但用的是大模型思路来理解图像和文本的关系,不只是“识别文字”,而是在“读懂文档”。

DeepSeek-OCR 是一个从 LLM(大型语言模型)视角出发重新设计的 OCR 系统。

它通过视觉编码器(vision encoder)压缩图像上下文,让模型在“理解”图像内容时更高效。

可以说,它把视觉输入当成语言模型的延伸,而不是单纯的图像任务。

模型目前已经开源,并在 Hugging Face 上提供可下载版本,同时也被上游框架 vLLM 正式支持。

这意味着你可以直接用它在大规模并行环境下跑推理任务。

https://github.com/deepseek-ai/DeepSeek-OCR GitHub - deepseek-ai/DeepSeek-OCR: Contexts Optical Compression
 
 
Back to Top