别再用PFC了!一个节点炸 全网跟着瘫痪
万卡集群跑着跑着突然崩溃,运维半夜紧急抢修,是大规模组网的常见痛点。一番排查下来,元凶多半是PFC流控。
PFC虽是IEEE标准,却存在先天缺陷。接收端一旦发出暂停帧,整条队列会直接阻塞,引发 HoL 队头阻塞。更严重的是,阻塞会像多米诺骨牌般级联扩散,形成 PFC 风暴,短时间内导致全网瘫痪,形成雪崩效应,再强的算力也会彻底闲置。
信用流控则是完全不同的底层逻辑:发送端根据接收端信用额度发送数据,发送扣减、接收返还,逐跳精准管控。不触发全局暂停,不会引发风暴扩散,仅对繁忙节点局部限流,从算法根源杜绝 HoL 阻塞,并非简单优化,而是架构重构。
曙光自研RDMA引擎搭载信用流控机制,从根本上解决了万卡集群稳定性难题。以后再有人质疑国产网络可靠性,不妨先看看用的是什么流控方案。
PFC 信用流 曙光RDMA
