智谱开源发布GLM-OCR轻量化文档识别模型以0.9B参数实现多场景SOTA性能

2 月 3, 2026 #GLM-OCR, #智谱

ITCOW牛新网 2月3日消息，智谱公司今日宣布开源推出GLM-OCR轻量化文档识别模型。该模型参数量仅为0.9B，在多项主流基准测试中均取得最优表现，特别在公式识别、表格解析及信息抽取等专业场景展现出色性能。

GLM-OCR采用“小尺寸、高精度”设计理念，在权威文档解析基准OmniDocBench V1.5中获得94.6分的顶尖成绩。模型专为真实业务场景优化，对手写体、复杂表格、代码文档及印章等高难度内容具备稳健识别能力。其轻量化架构支持vLLM、SGLang和Ollama等多种部署方案，显著降低推理延迟与算力开销，适合高并发与边缘计算环境。

据ITCOW牛新网了解，该模型采用创新的两阶段技术框架，先通过版面分析模块解析文档结构，再实施并行识别处理。其集成的自研CogViT视觉编码器曾在数十亿级图文对数据上进行预训练，赋予模型强大的文字与版面语义理解能力。在实际测试中，GLM-OCR处理PDF文档的吞吐量达1.86页/秒，图片处理速度为0.67张/秒，性能显著优于同类产品。

目前，GLM-OCR已同步开源完整SDK与推理工具链，支持一行命令快速调用。API服务定价为0.2元/百万Tokens，成本约为传统OCR方案的十分之一。智谱表示，未来将持续迭代模型能力，拓展多语言支持和视频OCR等新功能，进一步拓宽视觉智能的应用边界。

人工智能头条关注

智谱开源发布GLM-OCR轻量化文档识别模型以0.9B参数实现多场景SOTA性能

相关文章

Claude推出“使用电脑”功能：AI可接管Mac鼠标键盘，支持手机远程调度

OpenAI推出ChatGPT“Library”云存储功能，付费用户可跨对话调用文件

通义千问上线“一句话打车”能力：支持途经点、预约及个性化需求

更多资讯

问界M6预售首日订单破6万，余承东称“有颜值更有实力”

小米集团2025年财报：汽车业务营收首破千亿，全年交付超41万辆

三星S22“降频门”终审落槌：首尔高等法院强制调解生效，1882名用户获赔

美团APP被曝私自删除用户相册照片官方客服回应称系第三方插件冲突