karpathy/nanochat:100 美元能买到的最好的 ChatGPT。
从零开始,以 100 美元的成本自建 ChatGPT。它覆盖 LLM 的训练和推理,只要跟着学就可以了解构建大模型的所有步骤了。
总共是 8000 行代码,在 GitHub 上放出不到 12 个小时,star 量就已经超过 6.1k:
只需要启动一台云 GPU 机器,运行一个脚本,大约 4 小时后就可以在 ChatGPT 风格的 Web 界面里和你自己的 LLM 聊天。
已经实现以下全部功能:
使用全新的 Rust 实现训练分词器。
在 FineWeb 数据集上预训练 Transformer LLM,并在多个指标上评估 CORE 分数。
Mid-train 阶段训练 SmolTalk 的用户 - 助手对话、多选问答、工具使用等数据。
SFT 微调,并评估模型在世界知识类多选题(ARC-E/C、MMLU)、数学(GSM8K)、代码(HumanEval)上的表现。
可选:使用 GRPO 在 GSM8K 上进行 RL 强化训练。
高效推理引擎,支持 KV Cache、prefill/decode 推理、工具调用(轻量沙箱中的 Python 解释器),可通过 CLI 或 ChatGPT 风格 WebUI 交互。
自动生成 Markdown 评分报告卡,总结与游戏化展示整个训练过程。
github:
