标记为: Vision-Language Model
Content related to Vision-Language Model
DeepSeek-OCR:面向光学字符识别的先进视觉语言模型
October 21, 2025
探索 DeepSeek-OCR,这是 DeepSeek AI 推出的尖端开源项目,专为强大的光学字符识别(OCR)和视觉文本压缩而设计。该项目提供了一个功能强大的 AI 模型,它从以大型语言模型(LLM)为中心的视角,深入探讨了视觉编码器的作用,在将文档转换为 Markdown、解析图表以及生成通用图像描述方面展现了卓越的能力。了解其从 Tiny 到 Gundam 的多种分辨率模式,并学习如何使用 vLLM 或 Transformers 实现高性能推理。DeepSeek-OCR 旨在突破视觉文本理解的界限,让开发者和研究人员都能轻松应用先进的 OCR 技术。