Andrej Karpathy:用AI的有两种人---------------------从我时间线里的内容来看,人们对 AI 能力的理解正在出现越来越大的裂缝。
我觉得第一个问题,是使用时间的新旧和使用层级。很多人大概是在去年某个时候试过 ChatGPT 的免费档,然后就让那次体验在很大程度上塑造了自己对 AI 的看法。这类人的反应,往往是拿模型的各种怪癖、幻觉之类的问题来嘲笑。是的,我也看过那些疯传的视频,比如 OpenAI 的 Advanced Voice 模式在回答“我该开车还是走路去洗车店”这种简单问题时都能翻车。但问题在于,这些免费、而且已经过时或被弃用的模型,并不能代表今年这一轮最先进代理式模型的真实能力,尤其是 OpenAI Codex 和 Claude Code。
但这就引出了第二个问题。即便有人每个月花 200 美元去用最先进的模型,很多能力的提升也是相当“尖峰化”的,主要集中在高度技术性的领域。像搜索、写作、提建议这种典型查询,并不是能力进步最明显、最剧烈的地方。部分原因在于强化学习的技术细节,以及它对“可验证奖励”的依赖。但另一部分原因也在于,公司在做能力爬坡优化时,并没有把这些用途放在足够高的优先级上,因为它们带来的商业价值没那么高。真正的金矿在别处,所以重心也就跟着去了。
这就带出了第二类人:他们同时满足两点,1)付费使用最前沿的代理式模型(OpenAI Codex / Claude Code),2)并且是在编程、数学、研究这类技术领域里专业使用它们。这个群体最容易陷入“AI 精神错乱”,因为今年这些领域里的进步,确实可以说是惊人的。当你把一个计算机终端交给这些模型时,你现在已经能看到它们把那些原本通常要花几天、几周才能完成的编程问题直接“融化”掉。正是这第二类人,会对这些能力本身、它们提升的斜率,以及各种网络安全相关后果,赋予更大的严重性。
TLDR:这两类人其实是在鸡同鸭讲。现实确实是这样的:一方面,OpenAI 免费而且我觉得有点像“被放养”了的Advanced Voice Mode,会在你 Instagram Reels 里那些最蠢的问题上翻车;但与此同时,OpenAI 最高档、付费的 Codex 模型,却可以连续工作 1 个小时,有条理地重构整套代码库,或者发现并利用计算机系统中的漏洞。这一部分是真的能用,而且进步非常大,原因有两个:1)这些领域有明确且可验证的奖励函数,所以特别适合用强化学习训练(比如单元测试通过还是没通过;相比之下,写作就很难明确评判);2)它们在 B2B 场景里也更值钱,所以团队里最大的一部分人力都在集中优化这些方向。于是事情就发展成了现在这样。
How I AI
