卷积、CNN、RNN:现代神经网络的三位“老祖宗”

这几年大家聊得最多的是 Transformer、LLM、Diffusion、VLM,好像深度学习的历史是从 attention 开始的。
但如果往前倒一点,卷积、CNN、RNN 才是真正奠定现代神经网络直觉的那一代方法。

很多今天看起来理所当然的想法——局部感受野、参数共享、层级特征、序列状态、时间展开——其实都不是最近才出现的。复习这几类模型的意义,不只是“考古”,而是重新理解:为什么神经网络后来会演化成今天这个样子。

为什么说它们是“鼻祖”

严格说,神经网络的源头当然还可以往前追到感知机、MLP、反向传播。
但如果只讨论真正塑造了现代深度学习工程实践的结构,那么卷积、CNN、RNN 的地位非常特殊。

它们分别回答了三个最关键的问题:

  • 卷积:怎么把“局部结构”编码进网络
  • CNN:怎么把卷积堆成可训练的层级视觉系统
  • RNN:怎么让网络处理有先后顺序的输入

今天的很多模型其实仍然在回答同样的问题,只是答案更复杂了。

一切先从卷积开始

“卷积”这个词听起来很数学,但在神经网络里可以先把它理解成一句很朴素的话:

用一个小窗口,在整张输入上反复滑动,寻找同一种局部模式。

比如一个 3×3 的 kernel 扫过图像时,本质上是在问:

  • 这里像不像边缘?
  • 这里像不像角点?
  • 这里有没有某种纹理?

卷积最重要的两个思想是:

1. 局部连接

并不是每个输出都要看整张图。
图像中的很多模式本来就是局部的,比如边缘、纹理、轮廓。让神经元只看附近区域,既符合先验,也能大幅减少参数量。

2. 参数共享

如果左上角能用一个滤波器检测竖边,那么右下角也应该能用同一个滤波器检测竖边。
这就是卷积层的核心优势:同一组参数在不同空间位置复用。

这个设计带来了平移等变性(至少近似如此):目标出现在画面不同位置时,模型仍然可以用相同的局部模式识别它。

所以,卷积的重要性不只是“计算方式不同”,而是它第一次非常明确地把结构先验写进了网络。

CNN:把卷积变成一个真正能打的视觉系统

只有卷积操作本身还不够,真正让它统治视觉任务的是 CNN(Convolutional Neural Network)。

CNN 的典型套路今天看依然熟悉:

  1. 卷积层提取局部特征
  2. 非线性激活增强表达能力
  3. 池化或下采样扩大感受野
  4. 多层堆叠形成从低级到高级的层级表示
  5. 最后接分类头、检测头或分割头

这套范式为什么强?因为它天然契合图像的组织方式。

从边缘到物体:层级特征

CNN 最经典的直觉是:
浅层学边缘,中层学纹理和部件,深层学目标语义。

这件事今天已经被说烂了,但它的意义非常大——它让人们第一次直观看到,深度网络不是“黑盒记忆器”,而是会自动形成一种分层表示学习

这直接影响了后面几乎所有架构设计。即使今天是 Transformer 主导,大家仍然在讨论:

  • 早期层学到了什么
  • 中间层是否保留空间结构
  • 深层是不是更偏语义、更偏任务

这些问题,本质上都是 CNN 时代留下来的。

LeNet、AlexNet、VGG、ResNet:一条主线

如果把 CNN 的发展粗略串起来,大概是一条很清楚的路线:

  • LeNet:证明卷积网络能用于手写数字识别
  • AlexNet:在 ImageNet 上一战成名,推动深度学习全面复兴
  • VGG:用“小卷积核 + 更深网络”把结构标准化
  • ResNet:用残差连接解决深层网络训练困难

虽然这些模型现在很多都不直接上生产了,但现代视觉模型的很多基本组件——下采样 stage、feature hierarchy、skip connection、normalization——都能在这条主线上找到祖先。

CNN 改变了什么

CNN 真正改变的,不只是图像分类准确率,而是大家对“视觉模型该怎么设计”的默认认知:

  • 输入是二维结构,不是无序向量
  • 模型应该尊重空间局部性
  • 表示应该分层抽象
  • backbone 可以通用,head 可以按任务替换

今天做 detection、segmentation、pose estimation,甚至很多多模态视觉编码器,骨子里还是在用这套思想。

RNN:第一次认真处理“时间”

如果说 CNN 解决的是“空间结构”,那么 RNN(Recurrent Neural Network)解决的就是“时间顺序”。

它背后的核心想法也很优雅:

当前时刻的输出,不只依赖当前输入,还依赖过去的隐藏状态。

写成最简单的形式就是:

h_t = f(x_t, h_{t-1})

这意味着网络有了“记忆”。它不再把每个输入样本当成彼此独立,而是承认序列内部存在上下文关系。

这在当年是非常关键的一步,因为太多任务天然就是序列:

  • 语言建模
  • 机器翻译
  • 语音识别
  • 时间序列预测
  • 视频理解

在 RNN 出现之前,很难优雅地把“前文会影响后文”这件事直接塞进网络结构里。

RNN 为什么曾经那么重要

RNN 最重要的贡献不是性能数字,而是它第一次把“状态”变成了深度学习里的核心概念。

以前的前馈网络更像静态映射:

y = f(x)

而 RNN 引入的是:

y_t = f(x_t, h_{t-1})

这个变化意味着模型可以逐步读入信息、逐步更新内部表示。
也正是从这里开始,大家真正开始把神经网络理解成一种动态计算过程

后面的 LSTM、GRU,本质上都是在修补 vanilla RNN 的训练问题,同时保留这个核心思想。

为什么后来有了 LSTM / GRU

普通 RNN 的问题大家都知道:梯度消失和梯度爆炸
序列一长,早期信息就很难传到后面,模型“记不住”长期依赖。

于是有了两类经典改进:

  • LSTM:用输入门、遗忘门、输出门和 cell state 显式控制信息保留
  • GRU:结构更简洁,用 update/reset gate 近似实现类似能力

你今天再回头看,会觉得这些门控结构很“手工”,但在当时,它们非常有效。
很多 NLP 和语音任务里,LSTM/GRU 曾经几乎就是默认选项。

CNN 和 RNN 的时代,为什么后来还是过去了

说它们是鼻祖,不代表它们没有局限。

CNN 的局限

CNN 很擅长局部模式建模,但对长距离依赖的表达不够自然。
想让左上角和右下角的信息交互,通常得靠堆很多层、扩大感受野、或者加各种额外结构。

RNN 的局限

RNN 的问题则更明显:

  • 序列计算天然串行,难并行
  • 长依赖学习困难
  • 训练效率不高
  • 对超长上下文不友好

这也解释了为什么 Transformer 后来会赢得那么彻底:它几乎正面击中了 CNN 和 RNN 的这些痛点。

但这里有个很重要的认识:
Transformer 不是凭空出现的,它很多优势其实都是在回应前代模型的局限。

没有 CNN 对空间结构的深刻理解,就不会有后来的视觉 Transformer;没有 RNN 对序列建模问题的长期积累,也不会有后来的 attention 主导 NLP。

它们今天还活着吗?

当然活着,而且活得不错。

卷积还在

即使在 Transformer 时代,卷积也没有退出历史舞台。
很多模型仍然会显式或隐式地借用卷积思想:

  • ConvNeXt 重新证明纯卷积架构仍然很强
  • 很多 segmentation / detection 模型仍以 CNN 为 backbone
  • diffusion 模型里的 U-Net 本质上还是卷积系统
  • 音频、时序信号处理中,1D 卷积依然非常常见

RNN 还在

虽然大模型主流已经转向 attention,但在一些场景里 RNN 或其思想仍然有生命力:

  • 流式语音识别
  • 低延迟时序建模
  • 小模型、边缘设备部署
  • 状态空间模型和各种 recurrence 变体

很多新模型即使不叫 RNN,也在重新吸收“递归更新状态”的思想。
因为 sequence modeling 这个问题本身并没有消失。

为什么今天还值得复习它们

我觉得至少有三个原因。

1. 它们让你理解“结构不是随便搭的”

卷积、CNN、RNN 都不是盲目加层数的产物,而是把任务结构写进网络的结果。
这会提醒我们:好模型不只是参数多,更重要的是归纳偏置对不对

2. 它们定义了很多基本语言

今天我们还在说:

  • backbone
  • feature map
  • receptive field
  • hidden state
  • sequence length
  • skip connection

这些概念几乎都来自 CNN/RNN 时代。不了解它们,很难真正读懂后来的论文。

3. 它们帮助你看懂“新东西到底新在哪”

比如 Transformer 真正新在哪?
不是“能做序列”——RNN 早就能做;
不是“能做视觉”——CNN 早就在做;
它真正新的地方是:用 attention 提供了一种更容易并行、也更灵活的全局交互机制。

只有先理解 CNN 和 RNN 的优势与短板,你才会真正觉得 Transformer 的设计妙在哪里。

总结

如果要用一句话概括:

卷积给了神经网络局部结构感,CNN 给了它层级视觉能力,RNN 给了它时间记忆。

它们未必还是今天最耀眼的主角,但现代深度学习的大部分直觉、术语和工程套路,几乎都能追溯到这一代模型。

所以复习它们,不只是复习历史。
更像是在回头看一遍:现代神经网络到底是从哪些基本问题出发,一步一步长成今天这个样子的。