智谱开源 GLM-OCR 模型：仅 0.9B 参数，多项基准取得 SOTA 表现

2月3日讯 智谱今日宣布正式发布并开源 GLM-OCR。据介绍，该模型仅 0.9B 参数规模，支持 vLLM、SGLang 和 Ollama 部署，在公式识别、表格识别、信息抽取的多项主流基准中均取得 SOTA 表现。

官方详细介绍如下：

今天，我们正式发布并开源 GLM-OCR，以“小尺寸、高精度”实现文档解析能力新标杆。作为一款轻量的专业级 OCR 模型，其核心亮点如下：

得益于自研 CogViT 视觉编码器与深度场景优化，GLM-OCR 实现了“小尺寸，高精度”。

GLM-OCR 参数量仅 0.9B，但在权威文档解析榜单 OmniDocBench V1.5 中以 94.6 分取得 SOTA 性能。在文本、公式、表格识别及信息抽取四大细分领域的表现优于多款 OCR 专项模型，性能接近 Gemini-3-Pro。

除了公开榜单，我们还针对真实业务中的六大核心场景进行了内部测评。结果显示，GLM-OCR 在代码文档、真实场景表格、手写体、多语言、印章识别、票据提取等维度均取得显著优势。

声明：魔果智讯倡导尊重与保护知识产权。如发现本站文章存在版权等问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至moguoai@yeah.net！我们将及时沟通与处理。

{{userData.name}}已认证