开新坑🐱作为调研模块的第一篇文章,记录一下最近又火起来的大模型OCR技术。
OCR,即Optical Character Recognition,光学字符识别。这个概念从简单来看,就是我们生活中常用到的:“提取图中文字”。
传统OCR
未完待续……
大模型OCR
未完待续……
模型汇总
四个都是国内模型!喜欢!
PaddleOCR-VL
https://huggingface.co/PaddlePaddle/PaddleOCR-VL
PaddleOCR-VL在页面级文档解析(OminiDocBench v1.5、v1.0)与元素级识别均达到 SOTA 表现。
DeepSeek-OCR
https://huggingface.co/deepseek-ai/DeepSeek-OCR
MinerU
https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B
GOT-OCR
https://huggingface.co/stepfun-ai/GOT-OCR2_0
本次调研截止时间:2025年11月13日~
