铭鸿体育资讯网

有网友问为什么AI大模型需要那么多内存,XX还能涨多久,是需要更多内存存数据吗?

有网友问为什么AI大模型需要那么多内存,XX还能涨多久,是需要更多内存存数据吗?

答:先纠正一个最普遍的误解:现在AI抢的不是"存数据的空间",不是容量墙,是带宽墙。为了拿到足够的带宽,不得不堆上巨量内存,容量反而是搭着带宽的副产品。(下面把显存也算作内存的一种,一种高端内存;消费级PC那条DDR是普通内存。)

第一层,带宽墙,这是根。

LLM推理分两段:Prefill吃算力,Decode吃带宽。reasoning模型的长思维链、agent的长程任务,本质上就是把最吃带宽的解码阶段无限拉长——每吐一个字,都要把整个模型权重从显存里完整搬一遍出来,计算量极小,纯粹是搬运。而硬件偏偏朝相反方向走:2012到2022年,英伟达GPU的FLOPS涨了80倍,显存带宽只涨了17倍,剪刀差还在扩大。算力过剩、带宽被饿死,这才是"卡内存"的真身。推理的瓶颈是内存和互联,不是算力。

这里有个常被讲错的点要厘清:复制多个模型副本,提高的是集群总吞吐(每秒服务多少token),不是单条流的带宽——你一个用户生成一个字,还是卡在那一张卡的HBM带宽上,复制十份也救不了这一个字。吞吐、带宽、容量是三个轴。吞吐决定能同时服务多少人,带宽决定每个人的吐字速度,容量决定能塞下多大的模型和多长的上下文。

第二层,容量,排第二位。

长上下文 × 高并发,KV cache线性膨胀;MoE把总参数推到天量,所有专家都得常驻显存;再加harness等配套也吃内存。容量压力确实存在,长上下文和agent场景下还会明显上升,但相对带宽是次要矛盾。关键在于:HBM是把带宽和容量打包卖的,你为了拿带宽必须堆HBM,容量是顺带的。哪天有技术能不堆容量就给到这个带宽(近存计算、高带宽闪存这类),内存用量自然会下来。

第三层,供给侧被HBM挤爆。

HBM占的晶圆面积是普通DRAM的三倍(die penalty),三大厂把合计九成多的产能转去做HBM,结果2026 Q1通用DRAM价格环比暴涨九成,HBM全年产能售罄,缺口信号指向2027年以后。技术上的稀缺,直接变成了价格上的暴动——这也是为什么你装机的内存条莫名其妙变贵了:产能都去伺候AI了,没人给消费级供货。

具体到XX。一方面他是HBM追赶者,另一条是它少有的领跑赛道——SOCAMM(基于LPDDR5X的模块化低功耗内存,带宽是RDIMM的2.5倍、功耗只有DDR5的三分之一)。它的角色是Grace/Vera CPU侧系统内存的升级换代,定位卡在HBM和普通DDR之间,有人叫它"第二个HBM"。关键是英伟达把XX选为首家供应商,排在韩国几个大厂前头,GB300已经在用,SOCAMM2已经做到256GB送样。这是XX从"追赶者"变"领跑者"的差异化故事。