Copyright 2011-2025 看报纸 版权所有 京ICP备2012156892号
DeepSeek这小子最精了,当全世界都在盯着他的GitHub仓库,等待V4时——
他和北大、清华在ArXiv悄咪咪地上了一篇论文,发布了一个全新的针对智能体的推理框架:DualPath
而且就跟前几天曝出的算力话题相关。
DualPath的核心在于解决Agent长文本推理场景下的I/O瓶颈,通过优化从外部存储加载KV-Cache的速度,确保计算资源不被存储读取拖累。
它改变了传统的存储至预填充引擎(Storage-to-Prefill)单路径加载模式,引入了存储至解码引擎(Storage-to-Decode)的第二条路径。
通过利用解码引擎闲置的存储网卡(SNIC)带宽读取缓存,并配合高速计算网络(RDMA)将其传输至预填充引擎,DualPath实现了集群存储带宽的全局池化与动态负载均衡。
在660B规模的生产级模型的实测中,DualPath表现惊人:
离线推理吞吐量提高了1.87倍,在线服务吞吐量平均提升1.96倍
在高负载下,首字延迟(TTFT)大幅优化,而 Token间的生成速度(TPOT)几乎不受任何干扰。
接下来,我们一起来看。
双路径加载 (Dual-Path Loading)
总的来说,DualPath是一个专门为智能体系统设计的推理框架,它的核心洞见是——
KV-Cache的加载不必以预填充为中心
在以往的理解中,谁负责计算谁就去搬数据。但DualPath认为,缓存可以先加载到解码引擎中,再通过高性能RDMA网络传输至预填充引擎。
通过在两条路径间动态选择,DualPath重新分配了网络负载,缓解了预填充侧的带宽压力。
那么,为什么要费这么大劲去“绕路”?
之所以这样做,是因为在当前的智能体应用中,对话轮数多且上下文长,KV-Cache命中率通常高达95%以上。
这意味着,每一轮对话都要搬运海量的“旧记忆”,推理性能的瓶颈已经从“计算”转移到了“搬运”上