前馈神经网络 (Feed Forward)
与编码器类似,进一步处理整合后的特征。
Add & Norm (残差与归一化)
稳定输出。
编码-解码注意力 (Cross Attention)
接收来自编码器的输出!让解码器在生成当前词时,去关注输入句子中最相关的部分。
Add & Norm (残差与归一化)
稳定交叉注意力层的输出。
掩码多头自注意力 (Masked Attention)
与普通自注意力类似,但“掩盖”了未来的词,确保模型只能根据已生成的词来预测下一个词。
Add & Norm (残差与归一化)
稳定掩码自注意力层的输出。