ITCOW牛新网 4月9日消息,微软必应团队于当地时间 4 月 7 日推出全新开源文本嵌入模型系列 Harrier,该系列模型在多语言 MTEB-v2 基准测试中斩获榜首,成功超越谷歌 GeminiEmbedding2,为 AI 智能体与检索系统提供更强语义支撑。

微软开源 Harrier 系列嵌入 AI 模型

Harrier 系列聚焦 AI 系统从交互问答向任务执行升级的核心需求,通过优化嵌入质量有效提升检索准确率、降低延迟与成本,并减少模型幻觉问题,全面强化信息处理可靠性。该系列包含 Harrier-OSS-v1-27B、Harrier-OSS-v1-0.6B、Harrier-OSS-v1-270M 三款型号,统一支持超 100 种语言与 32k 上下文窗口,可输出固定尺寸嵌入向量适配各类系统集成。

微软开源 Harrier 系列嵌入 AI 模型
微软开源 Harrier 系列嵌入 AI 模型

据 ITCOW 牛新网了解,微软在模型训练中搭建规模化数据 pipeline,借助 GPT-5 生成超 20 亿弱监督样本用于预训练、超 1000 万高质量样本用于微调,并通过知识蒸馏技术打造轻量版本,满足不同算力设备部署需求。

该系列模型采用完全开源模式,开发者可无许可限制使用,快速提升 AI 应用的检索与理解能力。依托 Harrier 技术,微软正在研发全新检索服务,未来将率先落地必应搜索,进一步优化用户搜索与交互体验。