开新坑🐱作为调研模块的第一篇文章,记录一下最近又火起来的大模型OCR技术。

OCR,即Optical Character Recognition,光学字符识别。这个概念从简单来看,就是我们生活中常用到的:“提取图中文字”。

传统OCR

未完待续……

大模型OCR

未完待续……

模型汇总

四个都是国内模型!喜欢!

PaddleOCR-VL

https://huggingface.co/PaddlePaddle/PaddleOCR-VL
PaddleOCR-VL在页面级文档解析(OminiDocBench v1.5、v1.0)与元素级识别均达到 SOTA 表现。

DeepSeek-OCR

https://huggingface.co/deepseek-ai/DeepSeek-OCR

MinerU

https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B

GOT-OCR

https://huggingface.co/stepfun-ai/GOT-OCR2_0

本次调研截止时间:2025年11月13日~

参考链接

  1. PaddleOCR 文档