腾讯混元开源1B参数OCR模型，多项核心能力达到业界领先水平

11 月 25, 2025 #HunyuanOCR, #混元大模型

ITCOW牛新网 11月25日消息，腾讯混元今日宣布开源其最新OCR模型HunyuanOCR。该模型参数量仅为1B，基于混元原生多模态架构打造，在多项OCR应用评测中取得SOTA（最先进水平）成绩。模型采用端到端设计，单次推理即可输出最优结果，显著提升了处理效率。

据ITCOW牛新网了解，HunyuanOCR在三大核心能力上表现突出：在复杂文档解析基准OmniDocBench中获得94.1分，超越谷歌Gemini3-pro等主流模型；在涵盖文档、艺术字、街景等9大场景的文字检测与识别任务中大幅领先同类模型；在OCRBench评测中以860分的成绩成为3B参数以下模型中的最优者。同时，该模型还支持14种小语种翻译，并荣获ICDAR2025文档翻译比赛冠军。

该模型采用原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型的三段式架构，通过规模化应用数据训练结合在线强化学习，展现出稳定的推理能力。其应用场景覆盖多语种文档解析、票据字段抽取、视频字幕识别等功能，可对卡证信息进行JSON格式标准化输出，并支持德语、日语等14种语言与中英文的互译。

分析认为，这款轻量化模型的开源将降低OCR技术的应用门槛，推动相关技术在文档处理、多媒体内容分析等场景的普及。目前模型代码已在GitHub和Hugging Face平台开放，开发者可直接体验其文档解析、多语言翻译等核心功能。

人工智能

腾讯混元开源1B参数OCR模型，多项核心能力达到业界领先水平

相关文章

Figma携手Codex实现设计与代码双向同步推出全新MCP服务器

中国开源AI模型全球Token使用量登顶国际需求激增终结美国主导地位

谷歌发布Nano Banana 2图像模型：修复中文乱码，支持4K输出与角色一致性

更多资讯

网络餐饮新规6月1日实施 “幽灵外卖”将被强制标识

石头科技2025年营收增长55.85% 净利润因战略投入下降31.19%

影石Insta360在美专利战大获全胜 ITC终裁认定GoPro六项指控全部不成立

豆包手机助手严正声明：网传“漏洞”系黑公关炒作，已升级防护并保留追责权