铭鸿体育资讯网

前沿AI模型在企业IT战场上集体“翻车”!Claude Opus 4.7、GPT

前沿AI模型在企业IT战场上集体“翻车”!Claude Opus 4.7、GPT-5.5、Qwen3.7 Max齐刷刷跌破50%!

IBM与Artificial Analysis联合推出ITBench-AA,这是首个专注于企业级IT智能体的基准测试,首期聚焦Site Reliability Engineering(SRE)场景。测试基于Kubernetes真实事故响应,涉及日志、指标、追踪、依赖分析等多模态运维数据,要求智能体精准定位根因实体。结果显示:Claude Opus 4.7(47%)、GPT-5.5(46%)、Qwen3.7 Max(42%)等顶级前沿模型均未能达到50%及格线,暴露了当前AI Agent在复杂企业生产环境下的显著局限。