正在阅读:性能提升10倍,首Token时延降低72%丨新华三X20000存储KV Cache方案助力AI推理效率提升

性能提升10倍,首Token时延降低72%丨新华三X20000存储KV Cache方案助力AI推理效率提升

2026-03-04 13:55:09来源:新华三 关键词:新华三存储阅读量:3928

导读:X20000存储通过EPC私有客户端,将每个6MB文件自动切分为1MB粒度进行分布式并发处理。这种细粒度切分机制,将单次KV访问转化为多通道并发读写,数据均匀分布至多个存储节点与引擎,使访问天然具备并行性,从而有效降低单路径阻塞概率。
  据IDC预测,2026年中国智能算力规模将达2024年的两倍,其中推理算力增速将远超过训练,到2027年中国智能算力中推理占比将提高到72.6%。随着大模型推理进入规模化落地阶段,KV Cache 通过“以存换算”的思路,节省了GPU算力、提高了推理效率,成为AI推理应用落地的主流方案。
 
  但随着8K、16K、32K乃至更大上下文长度逐渐普及,KV Cache的规模呈线性增长;在多并发场景下,KV数据读写压力更是呈指数级放大。比如,在Llama-405B上运行一个具有64K上下文的单个用户需要15.75GB KV缓存,当扩展到32个用户时,容量需求将飙升至504GB。如何高效承载KV Cache,已经成为AI推理基础设施架构中的核心议题。
 
  此外,随着AI推理走入我们的日常生活,衡量应用体验和系统效率的关键指标——TTFT(Time To First Token,首次输出Token时延)被越来越多用户关注。TTFT不仅直接影响推理应用的用户交互体验,更决定单位时间内可承载的有效请求数。
 
  实现架构级优化
 
  目前,将KV Cache从GPU显存中卸载已经成为行业共识。相比本地SSD,外置分布式存储具备更强的横向扩展能力,能够将KV访问转化为并行模型,且提供全局数据共享,支持大规模PD分离部署。这意味着在模型规模持续扩大、上下文不断拉长、并发请求持续增长的情况下,存储系统仍然能够保持可控的TTFT与稳定的吞吐能力。
 
  基于这一趋势,H3C UniStor X20000 AI原生存储围绕KV Cache场景进行了系统级协同调优,使“外置存储承载KV Cache”从概念方案真正演进为生产级可用架构。
 
  X20000存储通过EPC私有客户端,将每个6MB文件自动切分为1MB粒度进行分布式并发处理。这种细粒度切分机制,将单次KV访问转化为多通道并发读写,数据均匀分布至多个存储节点与引擎,使访问天然具备并行性,从而有效降低单路径阻塞概率。
 
  同时,针对KV文件分布扁平、目录与文件数量接近1:1的特点,X20000对目录与文件分布进行均衡优化,使数据在存储引擎间实现更均匀分布,进一步降低访问时延波动。这种优化逻辑的核心在于:不是单纯提升单盘性能,而是将KV Cache读写行为重构为“分布式并发访问模型”。这是一种架构级优化,而非参数级优化。
 
  测试数据:KV Cache卸载至X20000后TTFT最高降低72%
 
  围绕KV Cache卸载场景,实测数据显示,当KV Cache命中率达到90%时,将KV数据卸载至X20000分布式存储,TTFT得到大幅度优化。
 
  ◆ 测试环境:
 
  ■ GPU:  A100 * 4
 
  ■ 推理引擎:vLLM 0.9.2
 
  ■ 模型:Qwen2.5-14B
 
  ◆ UCM:性能最大提升6倍
 
  ■ 在90% KV Cache命中条件下,将KV Cache卸载至X20000存储,相比纯GPU计算模式,TTFT平均优化超过4倍,最大接近6倍。
 
  ■ 在相同条件下,X20000的TTFT仅为本地SSD的28%~44%,最高下降72%。
 
  ■ 系统可扩展能力提升4倍,在TTFT不超过2秒的约束下,采用X20000存储承载KV Cache后,模型的上下文长度可由8K扩展至32K,实现4倍提升,并发能力可由4路提升至16路,同样实现4倍扩展。
 
  ◆ LMCache:性能最大提升10倍
 
  ■ 在90% KV Cache命中条件下,将KV Cache卸载至X20000存储,相比纯GPU计算模式,TTFT最大优化10倍。
 
  ■ 系统可扩展能力提升4倍,在TTFT不超过2秒的约束下,采用X20000存储承载KV Cache后,模型的上下文长度可实现8倍扩展,并发能力同样实现8倍提升。在16K上下文场景中,不同并发条件下普遍达到10倍以上性能提升。
 
  ◆ 并发与上下文持续拉升,时延曲线依然平滑
 
  同时,随着并发数量或上下文长度持续增加,X20000的TTFT增长曲线保持相对平缓,而GPU纯算模式与本地NVMe SSD方案则呈现明显陡峭上升趋势。也就是说,当系统进入真实生产负载阶段——多用户并发、多轮长对话、持续高压访问——X20000所承载的KV Cache访问路径更具稳定性与可预测性。
 
  X20000为AI应用构建可扩展的数据底座
 
  在大模型推理进入规模化生产阶段后,KV Cache已成为影响系统承载能力与用户体验的关键因素。作为AI原生存储,X20000通过重构KV Cache访问路径,实现最大10倍性能提升,TTFT最大降低72%,并发能力提升4到8倍,帮助客户实现更高推理效率、更大模型承载、更高并发能力,为AI应用构建可扩展的数据底座。
我要评论
文明上网,理性发言。(您还可以输入200个字符)

所有评论仅代表网友意见,与本站立场无关。

  • 数据海啸下的智慧灯塔:存储风波中的挑战与企业应对

    一场由人工智能驱动、席卷全球存储产业链的“超级周期”,正将智慧城市等数据密集型行业推向变革的前沿。在此背景下,领军企业依据自身基因,展开了一场精彩纷呈的战略博弈,其推出的多元技术路径不仅是对当前挑战的直接回应,更在重塑产业未来的竞争格局。
    存储大模型
    2026-01-19 11:49:31
  • 南京市6G产业联盟正式启动,携手新华三共建“6G之城”

    南京市作为全国信息通信产业高地,始终致力于打造以科技为核心、以场景为驱动、以生态为支撑的6G之城。
    南京6G产业联盟新华三
    2026-01-06 17:24:46
  • 新华三发布高校管理决策AI一体机,以AI赋能教育数字化转型

    活动中,新华三集团副总裁、教育科研事业部总经理邓伟在致辞中表示,当前教育行业正全面推进全场景、全流程、全要素的数字化转型。
    新华三AI
    2025-05-26 09:57:58
  • 江波龙2024年营收175亿大增72%,净利润翻倍

    江波龙发布2024年年报,全年营收174.64亿元,同比增长72.48%;净利润4.99亿元,同比大增160.24%。公司高端存储产品占比提升带动毛利率显著改善,企业级存储和Lexar品牌业务成为增长新引擎。2025年将重点布局AI服务器存储、UFS高端产品及海外市场拓展。
    2024年业绩报告存储
    2025-04-01 10:35:36
  • 公司重要动态速览|新华三、科大讯飞、宇视科技......

    近日,紫光股份旗下新华三集团重磅推出多通道以太光方案,采用多通道技术与标准化协议设计,构建统一开放的网络架构;近日,南阳科大讯飞信息科技有限公司成立,法定代表人为孙亮,注册资本2000万元;3月18日,海亮教育科技服务集团同宇视科技正式签署战略合作框架协议......
    新华三科大讯飞宇视科技
    2025-03-21 08:43:20
  • 多元开放 持续进化 新华三重磅发布多款智算新品

    面向AGI时代,新华三将全面构建可持续进化和可持续发展的算力底座,依托“内生智能 成就智慧”理念,不断探索AI技术与算力产品的深度融合,推进软硬件平台协同进化,打造多元、开放、高效、绿色的算力基础设施,携手广大用户与合作伙伴共启新境,臻于智境。
    新华三AI数据存储平台
    2024-10-26 10:29:36
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了