从 RNN 到 LLM：十年的简单性与变形

AI 十年演进：从 RNN 到 LLM

十年前，Andrej Karpathy 的博客文章 The Unreasonable Effectiveness of Recurrent Neural Networks 提出了一个看似简单、却异常有力的想法：循环神经网络（RNN）可以通过 token 到 token 的方式生成序列，而且效果出乎意料地好。那篇文章发表于 2015 年 5 月 21 日（见 karpathy.github.io/2015/05/21/rnn-effectiveness/），展示了 RNN 如何生成从莎士比亚文本到 Linux 代码的各种序列；核心过程非常直接：根据前面的 token 预测下一个 token。那是深度学习早期一个让人豁然开朗的瞬间：序列建模的原始潜力，一下子摆在了所有人眼前。

到了 2025 年，整个格局已经完全变了样。Karpathy 最近在 Twitter 上的回顾——发表于 2025 年 2 月 24 日——给出了一个很动人的视角：“The big thing I didn’t realize is that an assistant was just a fine-tune away. That is the surprising thing I was really missing. I still find it surprising today, that you can just change the style so dramatically but retain the knowledge.” 这句话抓住了从 RNN 到今天大语言模型（LLM）的跃迁——这次跃迁由两项关键创新驱动：Transformer 架构，以及 fine-tuning 的力量。

Transformer 革命

2017 年 Attention Is All You Need 里的 Transformer，是一次真正的范式级变革。RNN 按步骤处理序列，长程依赖很吃力；Transformer 则依靠并行计算和 self-attention 机制，显著提高了计算效率和可扩展性，让 GPT、LLaMA 等 LLM 能够处理巨量数据，并以前所未有的速度生成连贯、上下文敏感的文本。Karpathy 当年展示的 RNN token 生成很简单；今天的系统已经演化成复杂、算力密集的机器。但那个核心想法——token 到 token 的预测——并没有消失。

Fine-Tuning：改变风格，不丢知识

真正惊人的地方，如 Karpathy 所说，是 fine-tuning。现代 LLM 先在万亿级 token 上训练出一个庞大的通用知识底座，然后只用相对小而有针对性的数据，就能被微调成特定风格：聊天助手、技术写作者，甚至诗性声音；与此同时，广泛知识仍然保留。这种弹性正是 LLM 如此多面、也如此出人意料的原因。十年前，如果只看 RNN，想象这种风格控制几乎是不可能的：它们受限于顺序结构，也没有足够好的扩展路径。

关于进步的回看

今天重读 Karpathy 2015 年那篇文章，像打开一只时间胶囊。他描述的 RNN 简洁、优雅，但被当时的技术条件牢牢限制。算力爆炸、Transformer 架构、fine-tuning 的工艺，一起开启了 AI 的新阶段：模型不只是生成文本，还能精确调整语气与风格。这说明我们走了多远，也提醒我们：这场革命最底层的火花，仍然来自那些朴素的序列建模想法。

那我们到底学到了什么？

基本上，没有什么根本东西变了。我们只是找到了更好的做法。RNN 的简单性是起点，LLM 的复杂性是目的地；但这段路更像演化，而不是断裂式革命。理解序列、预测 token、生成文本，这个核心仍然一样。真正变得面目全非的是规模、速度，以及风格控制能力。

简单说，我依然认为通往 AGI 或 ASI 的道路还很神秘，真正的基础性突破还没有到来。