卷积、CNN、RNN：现代神经网络的三位“老祖宗”

2026年04月08日 reading notes # AI # deep learning # CNN # RNN

这几年大家聊得最多的是 Transformer、LLM、Diffusion、VLM，好像深度学习的历史是从 attention 开始的。
但如果往前倒一点，卷积、CNN、RNN 才是真正奠定现代神经网络直觉的那一代方法。

很多今天看起来理所当然的想法——局部感受野、参数共享、层级特征、序列状态、时间展开——其实都不是最近才出现的。复习这几类模型的意义，不只是“考古”，而是重新理解：为什么神经网络后来会演化成今天这个样子。

为什么说它们是“鼻祖”

严格说，神经网络的源头当然还可以往前追到感知机、MLP、反向传播。
但如果只讨论真正塑造了现代深度学习工程实践的结构，那么卷积、CNN、RNN 的地位非常特殊。

它们分别回答了三个最关键的问题：

卷积：怎么把“局部结构”编码进网络
CNN：怎么把卷积堆成可训练的层级视觉系统
RNN：怎么让网络处理有先后顺序的输入

今天的很多模型其实仍然在回答同样的问题，只是答案更复杂了。

一切先从卷积开始

“卷积”这个词听起来很数学，但在神经网络里可以先把它理解成一句很朴素的话：

用一个小窗口，在整张输入上反复滑动，寻找同一种局部模式。

比如一个 3×3 的 kernel 扫过图像时，本质上是在问：

这里像不像边缘？
这里像不像角点？
这里有没有某种纹理？

卷积最重要的两个思想是：

1. 局部连接

并不是每个输出都要看整张图。
图像中的很多模式本来就是局部的，比如边缘、纹理、轮廓。让神经元只看附近区域，既符合先验，也能大幅减少参数量。

2. 参数共享

如果左上角能用一个滤波器检测竖边，那么右下角也应该能用同一个滤波器检测竖边。
这就是卷积层的核心优势：同一组参数在不同空间位置复用。

这个设计带来了平移等变性（至少近似如此）：目标出现在画面不同位置时，模型仍然可以用相同的局部模式识别它。

所以，卷积的重要性不只是“计算方式不同”，而是它第一次非常明确地把结构先验写进了网络。

CNN：把卷积变成一个真正能打的视觉系统

只有卷积操作本身还不够，真正让它统治视觉任务的是 CNN（Convolutional Neural Network）。

CNN 的典型套路今天看依然熟悉：

卷积层提取局部特征
非线性激活增强表达能力
池化或下采样扩大感受野
多层堆叠形成从低级到高级的层级表示
最后接分类头、检测头或分割头

这套范式为什么强？因为它天然契合图像的组织方式。

从边缘到物体：层级特征

CNN 最经典的直觉是：
浅层学边缘，中层学纹理和部件，深层学目标语义。

这件事今天已经被说烂了，但它的意义非常大——它让人们第一次直观看到，深度网络不是“黑盒记忆器”，而是会自动形成一种分层表示学习。

这直接影响了后面几乎所有架构设计。即使今天是 Transformer 主导，大家仍然在讨论：

早期层学到了什么
中间层是否保留空间结构
深层是不是更偏语义、更偏任务

这些问题，本质上都是 CNN 时代留下来的。

LeNet、AlexNet、VGG、ResNet：一条主线

如果把 CNN 的发展粗略串起来，大概是一条很清楚的路线：

LeNet：证明卷积网络能用于手写数字识别
AlexNet：在 ImageNet 上一战成名，推动深度学习全面复兴
VGG：用“小卷积核 + 更深网络”把结构标准化
ResNet：用残差连接解决深层网络训练困难

虽然这些模型现在很多都不直接上生产了，但现代视觉模型的很多基本组件——下采样 stage、feature hierarchy、skip connection、normalization——都能在这条主线上找到祖先。

CNN 改变了什么

CNN 真正改变的，不只是图像分类准确率，而是大家对“视觉模型该怎么设计”的默认认知：

输入是二维结构，不是无序向量
模型应该尊重空间局部性
表示应该分层抽象
backbone 可以通用，head 可以按任务替换

今天做 detection、segmentation、pose estimation，甚至很多多模态视觉编码器，骨子里还是在用这套思想。

RNN：第一次认真处理“时间”

如果说 CNN 解决的是“空间结构”，那么 RNN（Recurrent Neural Network）解决的就是“时间顺序”。

它背后的核心想法也很优雅：

当前时刻的输出，不只依赖当前输入，还依赖过去的隐藏状态。

写成最简单的形式就是：

h_t = f(x_t, h_{t-1})

这意味着网络有了“记忆”。它不再把每个输入样本当成彼此独立，而是承认序列内部存在上下文关系。

这在当年是非常关键的一步，因为太多任务天然就是序列：

语言建模
机器翻译
语音识别
时间序列预测
视频理解

在 RNN 出现之前，很难优雅地把“前文会影响后文”这件事直接塞进网络结构里。

RNN 为什么曾经那么重要

RNN 最重要的贡献不是性能数字，而是它第一次把“状态”变成了深度学习里的核心概念。

以前的前馈网络更像静态映射：

y = f(x)

而 RNN 引入的是：

y_t = f(x_t, h_{t-1})

这个变化意味着模型可以逐步读入信息、逐步更新内部表示。
也正是从这里开始，大家真正开始把神经网络理解成一种动态计算过程。

后面的 LSTM、GRU，本质上都是在修补 vanilla RNN 的训练问题，同时保留这个核心思想。

为什么后来有了 LSTM / GRU

普通 RNN 的问题大家都知道：梯度消失和梯度爆炸。
序列一长，早期信息就很难传到后面，模型“记不住”长期依赖。

于是有了两类经典改进：

LSTM：用输入门、遗忘门、输出门和 cell state 显式控制信息保留
GRU：结构更简洁，用 update/reset gate 近似实现类似能力

你今天再回头看，会觉得这些门控结构很“手工”，但在当时，它们非常有效。
很多 NLP 和语音任务里，LSTM/GRU 曾经几乎就是默认选项。

CNN 和 RNN 的时代，为什么后来还是过去了

说它们是鼻祖，不代表它们没有局限。

CNN 的局限

CNN 很擅长局部模式建模，但对长距离依赖的表达不够自然。
想让左上角和右下角的信息交互，通常得靠堆很多层、扩大感受野、或者加各种额外结构。

RNN 的局限

RNN 的问题则更明显：

序列计算天然串行，难并行
长依赖学习困难
训练效率不高
对超长上下文不友好

这也解释了为什么 Transformer 后来会赢得那么彻底：它几乎正面击中了 CNN 和 RNN 的这些痛点。

但这里有个很重要的认识：
Transformer 不是凭空出现的，它很多优势其实都是在回应前代模型的局限。

没有 CNN 对空间结构的深刻理解，就不会有后来的视觉 Transformer；没有 RNN 对序列建模问题的长期积累，也不会有后来的 attention 主导 NLP。

它们今天还活着吗？

当然活着，而且活得不错。

卷积还在

即使在 Transformer 时代，卷积也没有退出历史舞台。
很多模型仍然会显式或隐式地借用卷积思想：

ConvNeXt 重新证明纯卷积架构仍然很强
很多 segmentation / detection 模型仍以 CNN 为 backbone
diffusion 模型里的 U-Net 本质上还是卷积系统
音频、时序信号处理中，1D 卷积依然非常常见

RNN 还在

虽然大模型主流已经转向 attention，但在一些场景里 RNN 或其思想仍然有生命力：

流式语音识别
低延迟时序建模
小模型、边缘设备部署
状态空间模型和各种 recurrence 变体

很多新模型即使不叫 RNN，也在重新吸收“递归更新状态”的思想。
因为 sequence modeling 这个问题本身并没有消失。

为什么今天还值得复习它们

我觉得至少有三个原因。

1. 它们让你理解“结构不是随便搭的”

卷积、CNN、RNN 都不是盲目加层数的产物，而是把任务结构写进网络的结果。
这会提醒我们：好模型不只是参数多，更重要的是归纳偏置对不对。

2. 它们定义了很多基本语言

今天我们还在说：

backbone
feature map
receptive field
hidden state
sequence length
skip connection

这些概念几乎都来自 CNN/RNN 时代。不了解它们，很难真正读懂后来的论文。

3. 它们帮助你看懂“新东西到底新在哪”

比如 Transformer 真正新在哪？
不是“能做序列”——RNN 早就能做；
不是“能做视觉”——CNN 早就在做；
它真正新的地方是：用 attention 提供了一种更容易并行、也更灵活的全局交互机制。

只有先理解 CNN 和 RNN 的优势与短板，你才会真正觉得 Transformer 的设计妙在哪里。

总结

如果要用一句话概括：

卷积给了神经网络局部结构感，CNN 给了它层级视觉能力，RNN 给了它时间记忆。

它们未必还是今天最耀眼的主角，但现代深度学习的大部分直觉、术语和工程套路，几乎都能追溯到这一代模型。

所以复习它们，不只是复习历史。
更像是在回头看一遍：现代神经网络到底是从哪些基本问题出发，一步一步长成今天这个样子的。