ITCOW牛新网 11月25日消息,腾讯混元今日宣布开源其最新OCR模型HunyuanOCR。该模型参数量仅为1B,基于混元原生多模态架构打造,在多项OCR应用评测中取得SOTA(最先进水平)成绩。模型采用端到端设计,单次推理即可输出最优结果,显著提升了处理效率。


据ITCOW牛新网了解,HunyuanOCR在三大核心能力上表现突出:在复杂文档解析基准OmniDocBench中获得94.1分,超越谷歌Gemini3-pro等主流模型;在涵盖文档、艺术字、街景等9大场景的文字检测与识别任务中大幅领先同类模型;在OCRBench评测中以860分的成绩成为3B参数以下模型中的最优者。同时,该模型还支持14种小语种翻译,并荣获ICDAR2025文档翻译比赛冠军。

该模型采用原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型的三段式架构,通过规模化应用数据训练结合在线强化学习,展现出稳定的推理能力。其应用场景覆盖多语种文档解析、票据字段抽取、视频字幕识别等功能,可对卡证信息进行JSON格式标准化输出,并支持德语、日语等14种语言与中英文的互译。


分析认为,这款轻量化模型的开源将降低OCR技术的应用门槛,推动相关技术在文档处理、多媒体内容分析等场景的普及。目前模型代码已在GitHub和Hugging Face平台开放,开发者可直接体验其文档解析、多语言翻译等核心功能。


