Karpathy 开源了一个方法，2 天跑了 700 次实验

Karpathy 开源了一个方法，让 AI agent 自己做实验。

2 天跑了 700 次。自动发现了 20 个有效优化。

然后有人把它搬到了 Claude Skills 上——Skill 准确率从 56% 涨到 92%，全程自动。

这个方法叫 autoresearch。不是"自动搜资料"。今天用漫画讲清楚它到底在干什么。

一句话说清楚

autoresearch = 自动化实验循环。

不是搜索。不是调研。是让 AI agent 自己做实验。

改一点 → 测一轮 → 看指标 → 好就留，差就撤。然后再来。

从哪来的

Andrej Karpathy，OpenAI 联合创始人，今年 3 月开源了这个项目。

原版是给模型训练用的：

• agent 只能改一个文件：train.py • 每次训练跑固定 5 分钟 • 用 val_bpb（验证集 bits per byte）做指标 • 涨了就保留，跌了就回滚

就这么简单。没有魔法。

但效果不简单——自动发现了 20 个有效优化，没有任何人工干预。

Shopify CEO 拿同样的模式去优化 Liquid 模板引擎：93 次自动 commit，渲染快了 53%，内存省了 61%。

搬到 Claude Skills 上

有人把这套方法迁移了。

优化对象从 train.py 换成 SKILL.md。

不改模型代码，改的是技能提示词。

loop 一样：

𝟭 先测原版（baseline） 𝟮 每轮只改一处 𝟯 跑多次测试 𝟰 用 yes/no 评分 𝟱 涨了保留，没涨丢掉

Ole Lehmann 的落地页文案 Skill：56% → 92%。4 轮改动，全程自动。

核心是 eval

整个系统里最关键的不是 agent。

是你怎么定义"好"。

autoresearch 要求 binary eval——每项只有 yes 或 no：

✅ 标题有没有具体数字？ ✅ 有没有用 buzzword？ ✅ CTA 清不清楚？

3-6 条最佳。

"我感觉更好了" 不算。那是幻觉。

边界在哪

• eval 写歪了 → agent 会迎合 checklist，不是真质量 • 测试样本太少 → 过拟合，换个输入就崩 • 纯主观创意任务 → 没有稳定的 binary eval，别硬上

所以它到底改变了什么

不是 AI 变聪明了。

是调 prompt 这件事，从拍脑袋变成了做实验。

一次性 Prompt，只会越来越旧。可迭代资产，才会越用越强。

来源：飞书 · AI Spark 知识库｜原文（最新版）：https://lcnniolukk80.feishu.cn/wiki/O5rqw9LcwiuucDk0APwcrpj7nLe ｜归档：2026-06-04

普通人如何开始用 AI

新手避坑清单

新手学习路径

自媒体人 AI 入门路径：从选题到复盘的完整工作流

AI 基础概念

工具避坑与选型

工具测评

AI 工具教程

智能体入门

智能体应用案例

AI 编程案例

AI 编程工具

Claude Code 深度全解

底层原理精讲

可视化图解

零到精通：七步上手路径

企业级安全与治理

生态与工具链全景

实战工作流手册

自媒体教程专区

AI 图像与视觉创作

办公效率

个人工具箱与环境配置

知识管理

AI 编程趋势

Karpathy 开源了一个方法，2 天跑了 700 次实验

一句话说清楚

从哪来的

搬到 Claude Skills 上

核心是 eval

边界在哪

所以它到底改变了什么

自媒体人 AI 入门路径：从选题到复盘的完整工作流

Claude Code 深度全解

底层原理精讲

可视化图解

零到精通：七步上手路径

企业级安全与治理

生态与工具链全景

实战工作流手册

Karpathy 开源了一个方法，2 天跑了 700 次实验 ​

一句话说清楚 ​

从哪来的 ​

搬到 Claude Skills 上 ​

核心是 eval ​

边界在哪 ​

所以它到底改变了什么 ​

Karpathy 开源了一个方法，2 天跑了 700 次实验

一句话说清楚

从哪来的

搬到 Claude Skills 上

核心是 eval

边界在哪

所以它到底改变了什么