
AI 十年演进:从 RNN 到 LLM
十年前,Andrej Karpathy 的博客文章 The Unreasonable Effectiveness of Recurrent Neural Networks 提出了一个看似简单、却异常有力的想法:循环神经网络(RNN)可以通过 token 到 token 的方式生成序列,而且效果出乎意料地好。那篇文章发表于 2015 年 5 月 21 日(见 karpathy.github.io/2015/05/21/rnn-effectiveness/),展示了 RNN 如何生成从莎士比亚文本到 Linux 代码的各种序列;核心过程非常直接:根据前面的 token 预测下一个 token。那是深度学习早期一个让人豁然开朗的瞬间:序列建模的原始潜力,一下子摆在了所有人眼前。
到了 2025 年,整个格局已经完全变了样。Karpathy 最近在 Twitter 上的回顾——发表于 2025 年 2 月 24 日——给出了一个很动人的视角:“The big thing I didn’t realize is that an assistant was just a fine-tune away. That is the surprising thing I was really missing. I still find it surprising today, that you can just change the style so dramatically but retain the knowledge.” 这句话抓住了从 RNN 到今天大语言模型(LLM)的跃迁——这次跃迁由两项关键创新驱动:Transformer 架构,以及 fine-tuning 的力量。
Transformer 革命
2017 年 Attention Is All You Need 里的 Transformer,是一次真正的范式级变革。RNN 按步骤处理序列,长程依赖很吃力;Transformer 则依靠并行计算和 self-attention 机制,显著提高了计算效率和可扩展性,让 GPT、LLaMA 等 LLM 能够处理巨量数据,并以前所未有的速度生成连贯、上下文敏感的文本。Karpathy 当年展示的 RNN token 生成很简单;今天的系统已经演化成复杂、算力密集的机器。但那个核心想法——token 到 token 的预测——并没有消失。
Fine-Tuning:改变风格,不丢知识
真正惊人的地方,如 Karpathy 所说,是 fine-tuning。现代 LLM 先在万亿级 token 上训练出一个庞大的通用知识底座,然后只用相对小而有针对性的数据,就能被微调成特定风格:聊天助手、技术写作者,甚至诗性声音;与此同时,广泛知识仍然保留。这种弹性正是 LLM 如此多面、也如此出人意料的原因。十年前,如果只看 RNN,想象这种风格控制几乎是不可能的:它们受限于顺序结构,也没有足够好的扩展路径。
关于进步的回看
今天重读 Karpathy 2015 年那篇文章,像打开一只时间胶囊。他描述的 RNN 简洁、优雅,但被当时的技术条件牢牢限制。算力爆炸、Transformer 架构、fine-tuning 的工艺,一起开启了 AI 的新阶段:模型不只是生成文本,还能精确调整语气与风格。这说明我们走了多远,也提醒我们:这场革命最底层的火花,仍然来自那些朴素的序列建模想法。
那我们到底学到了什么?
基本上,没有什么根本东西变了。我们只是找到了更好的做法。RNN 的简单性是起点,LLM 的复杂性是目的地;但这段路更像演化,而不是断裂式革命。理解序列、预测 token、生成文本,这个核心仍然一样。真正变得面目全非的是规模、速度,以及风格控制能力。
简单说,我依然认为通往 AGI 或 ASI 的道路还很神秘,真正的基础性突破还没有到来。