Transformer 架构全解析

编码器 (Encoder)

前馈神经网络 (Feed Forward)

Add & Norm (残差与归一化)

多头自注意力 (Multi-Head Attention)

Add & Norm (残差与归一化)

位置编码 (Positional Encoding)

输入嵌入 (Input Embedding)

输入文字 (Inputs)

解码器 (Decoder)

前馈神经网络 (Feed Forward)

Add & Norm (残差与归一化)

编码-解码注意力 (Cross Attention)

Add & Norm (残差与归一化)

掩码多头自注意力 (Masked Attention)

Add & Norm (残差与归一化)

位置编码 (Positional Encoding)

输出嵌入 (Output Embedding)

已生成的输出 (Outputs)