ITCOW牛新网 2月3日消息,智谱公司今日宣布开源推出GLM-OCR轻量化文档识别模型。该模型参数量仅为0.9B,在多项主流基准测试中均取得最优表现,特别在公式识别、表格解析及信息抽取等专业场景展现出色性能。

智谱开源发布GLM-OCR轻量化文档识别模型

GLM-OCR采用“小尺寸、高精度”设计理念,在权威文档解析基准OmniDocBench V1.5中获得94.6分的顶尖成绩。模型专为真实业务场景优化,对手写体、复杂表格、代码文档及印章等高难度内容具备稳健识别能力。其轻量化架构支持vLLM、SGLang和Ollama等多种部署方案,显著降低推理延迟与算力开销,适合高并发与边缘计算环境。

智谱开源发布GLM-OCR轻量化文档识别模型
智谱开源发布GLM-OCR轻量化文档识别模型

据ITCOW牛新网了解,该模型采用创新的两阶段技术框架,先通过版面分析模块解析文档结构,再实施并行识别处理。其集成的自研CogViT视觉编码器曾在数十亿级图文对数据上进行预训练,赋予模型强大的文字与版面语义理解能力。在实际测试中,GLM-OCR处理PDF文档的吞吐量达1.86页/秒,图片处理速度为0.67张/秒,性能显著优于同类产品。

智谱开源发布GLM-OCR轻量化文档识别模型
智谱开源发布GLM-OCR轻量化文档识别模型

目前,GLM-OCR已同步开源完整SDK与推理工具链,支持一行命令快速调用。API服务定价为0.2元/百万Tokens,成本约为传统OCR方案的十分之一。智谱表示,未来将持续迭代模型能力,拓展多语言支持和视频OCR等新功能,进一步拓宽视觉智能的应用边界。

智谱开源发布GLM-OCR轻量化文档识别模型