海光DCU跑MiniCPM5,首Token延迟居然更低了
刚看到一份测试数据,有点意思。面壁智能刚开源的端侧“小钢炮”MiniCPM5-1B,在海光DCU上的首Token延迟,竟然全面低于NVIDIA H20的原生基线。不是个别场景扳回一局,而是全面领先。
也就是说响应更快了。你问AI一个问题,海光平台比国际主流产品还先开口。在智能客服、实时翻译这些场景,体验上的差距是实打实的。
这个结果真让人浑身舒畅。以前总觉得国产芯片能用但未必好用,尤其是在推理延迟这种敏感指标上。这次智源FlagOS和海光的配合,让面壁的模型跑出了更好的效果。证明了只要软件栈优化到位,国产算力不仅能跑起来,还能跑得更溜。关键是Day0适配,模型发布当天就能用。
再看覆盖能力。从千亿参数的DeepSeekV4,到1B参数的MiniCPM5,海光DCU实现了从云数据中心到端侧设备的全场景覆盖。这说明海光的DCU架构足够灵活,加上FlagGems算子库彻底摆脱了CUDA依赖,国产芯片不再是替补,而是可以正面比拼效率的主力。
之前大家总担心国产算力能用但不好用。海光这次用数据证明,不仅好用,还能更快。
AI 国产算力
