中国存储拿下实战双料世界第一,解决了多大问题?一线做模型训练的算法工程师深有体会。
我们搭建集群最大的浪费,就是高价采购的 GPU 全程在等数据。市面上不少存储只能在测试环境打出高分,这种成绩基本都是研究型榜单玩法:不让数据写入硬盘,全靠内存临时缓存,一旦开启持续写入、多任务并发,读写延迟立刻飙升。
生产型测评完全杜绝这种投机行为。参赛系统必须保持完整业务架构,数据必须落地持久保存,全年不间断承载高并发任务,比拼长期综合吞吐能力。夺冠的这套中科曙光ParaStor F9000分布式全闪存储,就是用线上现役数万卡集群参赛,没有做任何专项优化。
这套设备打通存储与 GPU 协同,内置缓存卸载引擎,把大量中间数据分摊到存储层,直接降低 60% 显存压力,单卡推理并发量提升数倍。同时训练断点恢复从几小时缩短到分钟级,千亿参数大模型迭代速度直接提速 50%。
无论是多模态大模型训练,还是自动驾驶海量路测数据流转,这套国产设备都能稳稳接住业务压力。难怪这件事被多家官媒集中报道。
