ITCOW牛新网 1月8日消息,阿里云在今日举办的智能硬件展上推出多模态交互开发套件。这一新工具集成了通义系列大模型,包括千问、万相和百聆,并预装了十多款覆盖生活休闲、工作效率等场景的Agent和MCP工具,能够支持听、看、思考以及与物理世界交互的功能,适用于AI眼镜、学习机、陪伴玩具和智能机器人等多种硬件设备。

阿里云发布多模态交互开发套件

据ITCOW牛新网了解,该套件旨在为硬件企业和解决方案商提供一个低门槛、快速响应且场景丰富的开发平台。在芯片兼容性方面,它适配了超过30款主流的ARM、RISC-V和MIPS架构终端芯片。阿里云计划通过玄铁RISC-V实现软硬全链路的协同优化,提升通义大模型在RISC-V架构上的部署效率和推理性能。

在模型优化层面,阿里云针对多模态交互场景推出了专用模型,全面支持全双工语音、视频和图文交互,端到端语音交互时延可低至1秒,视频交互时延低至1.5秒。套件还接入了阿里云百炼平台生态,允许用户添加其他开发者的MCP和Agent模板,并通过A2A协议兼容第三方Agent,从而扩展应用能力。

夸克AI眼镜

现场展示中,阿里云重点介绍了智能穿戴设备、陪伴机器人和具身智能等领域的解决方案。例如,在AI眼镜应用中,基于千问VL和百聆CosyVoice模型,实现了感知层、规划层、执行层和长期记忆的完整交互链路,支持同声传译、拍照翻译和多模态备忘录等功能。