Transformer 架构全解析

编码器 (Encoder)
前馈神经网络 (Feed Forward) 对自注意力的输出进行非线性变换,提取更深层次的特征。
Add & Norm (残差与归一化) 残差连接防止梯度消失,层归一化加速模型训练并使其更稳定。
多头自注意力 (Multi-Head Attention) 核心机制!让模型在编码当前词时,能“看”到句子中的其他词,理解上下文关系。
Add & Norm (残差与归一化) 稳定自注意力层的输出。
位置编码 (Positional Encoding) 因为 Transformer 是并行处理数据的,这里注入位置信息让模型知道词的先后顺序。
输入嵌入 (Input Embedding) 将人类语言(词汇)转换为机器能理解的密集向量(数字列表)。
输入文字 (Inputs)
解码器 (Decoder)
前馈神经网络 (Feed Forward) 与编码器类似,进一步处理整合后的特征。
Add & Norm (残差与归一化) 稳定输出。
编码-解码注意力 (Cross Attention) 接收来自编码器的输出!让解码器在生成当前词时,去关注输入句子中最相关的部分。
Add & Norm (残差与归一化) 稳定交叉注意力层的输出。
掩码多头自注意力 (Masked Attention) 与普通自注意力类似,但“掩盖”了未来的词,确保模型只能根据已生成的词来预测下一个词。
Add & Norm (残差与归一化) 稳定掩码自注意力层的输出。
位置编码 (Positional Encoding) 同样需要为目标序列注入位置信息。
输出嵌入 (Output Embedding) 将已经生成的输出词汇转化为向量输入回模型中。
已生成的输出 (Outputs)