Andrej Karpathy:用AI的有两种人----------------

Andrej Karpathy:用AI的有两种人---------------------从我时间线里的内容来看，人们对 AI 能力的理解正在出现越来越大的裂缝。

我觉得第一个问题，是使用时间的新旧和使用层级。很多人大概是在去年某个时候试过 ChatGPT 的免费档，然后就让那次体验在很大程度上塑造了自己对 AI 的看法。这类人的反应，往往是拿模型的各种怪癖、幻觉之类的问题来嘲笑。是的，我也看过那些疯传的视频，比如 OpenAI 的 Advanced Voice 模式在回答“我该开车还是走路去洗车店”这种简单问题时都能翻车。但问题在于，这些免费、而且已经过时或被弃用的模型，并不能代表今年这一轮最先进代理式模型的真实能力，尤其是 OpenAI Codex 和 Claude Code。

但这就引出了第二个问题。即便有人每个月花 200 美元去用最先进的模型，很多能力的提升也是相当“尖峰化”的，主要集中在高度技术性的领域。像搜索、写作、提建议这种典型查询，并不是能力进步最明显、最剧烈的地方。部分原因在于强化学习的技术细节，以及它对“可验证奖励”的依赖。但另一部分原因也在于，公司在做能力爬坡优化时，并没有把这些用途放在足够高的优先级上，因为它们带来的商业价值没那么高。真正的金矿在别处，所以重心也就跟着去了。

这就带出了第二类人：他们同时满足两点，1）付费使用最前沿的代理式模型（OpenAI Codex / Claude Code），2）并且是在编程、数学、研究这类技术领域里专业使用它们。这个群体最容易陷入“AI 精神错乱”，因为今年这些领域里的进步，确实可以说是惊人的。当你把一个计算机终端交给这些模型时，你现在已经能看到它们把那些原本通常要花几天、几周才能完成的编程问题直接“融化”掉。正是这第二类人，会对这些能力本身、它们提升的斜率，以及各种网络安全相关后果，赋予更大的严重性。

TLDR：这两类人其实是在鸡同鸭讲。现实确实是这样的：一方面，OpenAI 免费而且我觉得有点像“被放养”了的Advanced Voice Mode，会在你 Instagram Reels 里那些最蠢的问题上翻车；但与此同时，OpenAI 最高档、付费的 Codex 模型，却可以连续工作 1 个小时，有条理地重构整套代码库，或者发现并利用计算机系统中的漏洞。这一部分是真的能用，而且进步非常大，原因有两个：1）这些领域有明确且可验证的奖励函数，所以特别适合用强化学习训练（比如单元测试通过还是没通过；相比之下，写作就很难明确评判）；2）它们在 B2B 场景里也更值钱，所以团队里最大的一部分人力都在集中优化这些方向。于是事情就发展成了现在这样。

How I AI

铭鸿体育资讯网

Andrej Karpathy:用AI的有两种人----------------

热门分类