GPU Cache - 搜索 News

DOIT

英伟达自己做了一套KV Cache存储，把SSD市场引爆了

而在2026年的CES上，英伟达直接自己做了一套面向KV Cache的存储层。由于英伟达的KV Cache存储层明确采用了SSD，而当前SSD市场正受供应紧张和价格上涨的影响，本就紧俏的市场再次被推向高潮。

2 天

AI推理下半场决战！英伟达DPU刚发布，国产黑科技已抢跑超车？

事实上，在中国早已有一家厂商的方案率先问世，那就是华为基于DPU的智能盘框方案。早在2025年9月的《数据存储教授论坛》上，华为便率先发布了业界首创的“基于DPU智能盘框的AI推理加速方案”。

Pchome电脑之家

AMD疑似为Navi 31 GPU预留了3D V-Cache连接点

根据测试结果表明，AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点 AMD目前已经在其EPYC服务器处理器和部分消费级处理器产品线上采用了3D V-Cache技术。但根据来自海外工程师的最新测试结果发现，AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点，这 ...

腾讯网

vLLM 吞吐量优化实战：10个KV-Cache调优方法让tokens/sec翻倍

GPU 性能没问题，模型也训练得不错，但 token 吞吐量就是上不去？问题多半出在 KV-cache 上。本文整理了 10 个实际可用的优化方向，都是能直接上生产环境的那种。把 utilization 往上调，直到不再频繁出现 preemption；然后再调 max-num-seqs，让批次保持密集但别超出 ...

1 天

6颗芯片组成的AI计算机：老黄是怎么用1.7x晶体管做到5x性能提升的？

然后就是真正的、超节点域内的高速实现，用于scale-up的NVLink Switch交换芯片了。Vera Rubin NVL72系统内的NVLink交换设备内总共有4颗第六代NVLink ...

电子工程专辑

GPU: 衡量计算效能的正确姿势（3）

上期我们讲了现代计算机体系结构通过处理器（CPU/GPU）和内存的交互来执行计算程序，处理输入数据，并输出结果。实际上 ...

新浪网

推理加速存储AS3000G7发布：以存代算节省算力消耗

快科技7月31日消息，据媒体报道，2025（第二届）产融合作大会在北京召开。会上，浪潮存储重磅发布了推理加速存储产品AS3000G7，旨在解决大模型推理中因KV Cache重复计算导致的算力浪费和时延问题，为金融、科研等领域的模型规模化落地提供关键支撑。当前 ...

腾讯网

NVIDIA放大招！2028年Feynman GPU携X3D堆叠破AI推理

在AI算力赛道，NVIDIA早已凭借Hopper、Blackwell等架构GPU，在AI训练领域建立起难以撼动的优势。但随着语音对话、实时翻译等即时AI场景需求爆发，传统GPU在推理延迟上的短板逐渐凸显。近日，据行业消息披露，NVIDIA正瞄准这一痛点，计划于2028年推出新一代Feynman（费曼）架构GPU——这款产品将首次引入X3D堆叠设计，整合G ...

新浪网

上海AI Lab胡侠：KV Cache压缩之后，可让价格2万美金的GPU发挥出20万 ...

目前，不同大模型厂商发布的大语言模型在处理超长上下文方面已经有显著突破，最高的已能支持数百万 Token 的输入，例如 MiniMax-M1、Qwen2.5-1M 系列模型，均支持百万Token（1M）级别的超长上下文处理能力。但是这场有关提升大模型上下文长度的“军备赛”依然不 ...

3DM游戏网 on MSN

NVIDIA要用上X3D堆叠设计!下代GPU将引入LPU单元

虽然NVIDIA目前在AI训练领域无可匹敌，但面对日益增长的即时推理需求，其正筹划一项足以改变行业格局的“秘密武器”。据AGF透露，NVIDIA计划在2028年推出的Feynman(费曼)架构GPU中，整合来自Groq公司的LPU(语言处理单元)，以大幅提升AI推理性能。Feynman架构将接替Rubin架构，采用台积电最先进的A16(1.6nm)制程，为了突破半导体物理限制，NVIDIA计划利用 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果