刚刚，GLM-5.2模型在权威基准测试 GDPval-AA中斩获了 1524 E

刚刚，GLM-5.2模型在权威基准测试 GDPval-AA中斩获了 1524 Elo 的高分，拿下全球第三。

这个基准专门用于评估模型在应对长时程、多轮对话等现实世界中具有实际价值的知识工作表现。

给你总结五个核心亮点：

1. 跻身全球前三：GLM-5.2 在总榜中高居第三位，表现与 GPT-5.5（xhigh，1509分）并驾齐驱，仅次于 Claude Fable 5（1783分）和 Claude Opus 4.8（1615分）。

2. 领跑开源生态：在开源权重模型中，GLM-5.2 具有明显的领先优势。紧随其后的开源模型 MiniMax-M3 得分为 1408 分，与其存在不小的差距。

3. 超越诸多主流商业模型：它的表现击败了众多知名的专有商业模型，包括谷歌的 Gemini 3.5 Flash（1357分）、通义千问 Qwen 3.7 Max（1289分）以及 Muse Spark（1158分）。

4. 强大的 Agent（智能体）能力：面对极具挑战性的 Agent 任务，GLM-5.2 在总计 1,999 场测试中，平均每项任务能高效应对约 31 轮的交互。

5. 全面领先的综合实力
除了在 GDPval-AA 表现亮眼外，GLM-5.2 在“人工智能分析指数”（Artificial Analysis Intelligence Index）的其他维度上也全面领跑开源模型。

其中在 **Agentic Index（智能体指数）** 和 **AA-Briefcase（公文包基准测试）** 中均位列全球第三。

铭鸿体育资讯网

刚刚，GLM-5.2模型在权威基准测试 GDPval-AA中斩获了 1524 E

热门分类