智谱开源 GLM-OCR 模型:仅 0.9B 参数,多项基准取得 SOTA 表现

2月3日讯 智谱今日宣布正式发布并开源 GLM-OCR。据介绍,该模型仅 0.9B 参数规模,支持 vLLM、SGLang 和 Ollama 部署,在公式识别、表格识别、信息抽取的多项主流基准中均取得 SOTA 表现。

官方详细介绍如下:

今天,我们正式发布并开源 GLM-OCR,以“小尺寸、高精度”实现文档解析能力新标杆。作为一款轻量的专业级 OCR 模型,其核心亮点如下:

  • 性能 SOTA:以 94.6 分登顶 OmniDocBench V1.5,并在公式识别、表格识别、信息抽取的多项主流基准中均取得 SOTA 表现;
  • 场景优化:专攻真实业务痛点,在手写体、复杂表格、代码文档及印章等高难场景中表现稳健;
  • 推理高效:仅 0.9B 参数规模,支持 vLLM、SGLang 和 Ollama 部署,显著降低推理延迟与算力开销,适合高并发与边缘部署;
  • 开源易用:同步开源完整 SDK 与推理工具链,环境依赖简单,支持一行命令快速调用,轻松接入现有业务系统。

性能 SOTA、精准干活儿

得益于自研 CogViT 视觉编码器与深度场景优化,GLM-OCR 实现了“小尺寸,高精度”。

GLM-OCR 参数量仅 0.9B,但在权威文档解析榜单 OmniDocBench V1.5 中以 94.6 分取得 SOTA 性能。在文本、公式、表格识别及信息抽取四大细分领域的表现优于多款 OCR 专项模型,性能接近 Gemini-3-Pro。

智谱开源 GLM-OCR 模型:仅 0.9B 参数,多项基准取得 SOTA 表现

除了公开榜单,我们还针对真实业务中的六大核心场景进行了内部测评。结果显示,GLM-OCR 在代码文档、真实场景表格、手写体、多语言、印章识别、票据提取等维度均取得显著优势。

智谱开源 GLM-OCR 模型:仅 0.9B 参数,多项基准取得 SOTA 表现
声明:魔果智讯倡导尊重与保护知识产权。如发现本站文章存在版权等问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至moguoai@yeah.net!我们将及时沟通与处理。
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索