ITCOW牛新网 12月23日消息,华为数据存储与中科弘云今日联合发布AI推理加速解决方案,通过存储与算力协同优化实现长序列推理性能突破。该方案以华为OceanStor A系列存储为底座,整合中科弘云HyperCN云服务平台,支持英伟达、昇腾、寒武纪等多元算力架构,在智能问答场景下首 Token 响应时延降低57.5%,39K长序列推理并发能力提升86%。

华为联合中科弘云推出全场景AI推理方案
图源:华为数据存储微信公众号

方案核心采用华为UCM推理记忆数据管理技术,将KV Cache持久化存储至OceanStor系统,结合Prefix Cache与GSA稀疏加速算法,显著减少重复计算开销。据ITCOW牛新网了解,系统通过Kubernetes实现存储与算力资源秒级调度,支持MindSpore、vLLM等主流框架无缝对接,具备分钟级模型部署及故障自动恢复能力。

目前该方案已在能源电力、智能制造等关键领域试点应用。实测数据显示,其全流程AI工具链可覆盖从数据标注到智能体开发的完整生命周期,有效解决传统AI推理在长文本、多轮对话场景中的效率瓶颈。