transformer

约 1321 字大约 4 分钟

2025-12-29

最早的transformer = encoder + decoder

CNN与NLP的形象类比关系

CNN:

针对一个图片，可以理解为一张二维的像素图，有多个通道。

NLP:

针对一句话，拆分为n个token，每个 token 经过 embedding 后，表示为一个固定维度的向量。

每个token可以理解为CNN中的一个像素点（贯穿多个通道，通道数即 embedding 维度）。

所有的token合起来就是一个像素图（贯穿多个通道）。

Batch Normalization (BN) 虽然在 CNN 上效果很好，但在以下场景存在致命缺陷，促使了 LN 的诞生：

LN 通过抛弃对 Batch 维度的依赖，完美解决了上述问题。

很像，但是：

假设输入张量形状为 $(N, C, H, W)$

BN (纵向切)：固定 Channel，跨越 Batch ( $N$ ) 统计。
在cnn中，可以想象成把一个通道的那张图norm。BN 非常适合 CNN。
LN (横向切)：固定 Sample ( $N$ )，跨越 Feature ( $C, H, W$ ) 统计。
在cnn中，可以想象成定一个点，然后垂直和每一个通道的该位置点，合起来一起norm。但是 LN 在 CNN 上表现一般：在图像分类等任务中，LN 往往打不过 BN。
- 原因：图像的特征（Channel）之间差异很大（比如边缘检测 vs 颜色检测），强制把它们拉到一个分布可能会破坏图像的空间/语义信息。

原因：

上图其实就是Bert的结构，Bert本质上就是一个编码器。

输入是四个向量，输出是四个处理后的特征向量（包含了上下文信息，且与x一一对应）。

首先对输入的向量，进行位置编码，然后送入一个多头的Attention，让模型在处理当前单词时，能够“关注”到句子里的其他单词。
然后Add: 指的是 Residual Connection (残差连接)。看旁边的箭头，输入直接绕过了 Attention 层加到了输出上。这能防止网络过深导致的退化。同时Norm: 指的就是 Layer Normalization (LN)。
接着进入一个就是一个简单的全连接网络（MLP），对特征进行进一步的非线性变换。
最后再次Add和Norm，输出。

BERT 就是一堆 Transformer Encoder 叠起来。每个 Encoder 层里有两步核心操作：先做注意力 (Attention)，再做前馈 (Feed Forward)，每一步做完都要记得 Add & Norm (残差+层归一化)。