导航菜单

Transformer架构

Transformer架构概述

基本结构

Transformer是一种基于自注意力机制的神经网络架构:

编码器解码器多头自注意力前馈神经网络层归一化掩码多头自注意力编码器-解码器注意力前馈神经网络
  • 编码器-解码器架构
    • 编码器:处理输入序列
    • 解码器:生成输出序列
    • 并行计算:提高训练效率
  • 自注意力机制
    • 计算序列内部关系
    • 捕捉长距离依赖
    • 并行处理能力
  • 位置编码
    • 添加位置信息
    • 正弦位置编码
    • 可学习的位置编码

关键组件详解

Transformer的核心组件及其功能:

  • 多头自注意力
    • 并行计算多个注意力头
    • 不同子空间的信息提取
    • 增强模型的表达能力
  • 前馈神经网络
    • 两层全连接网络
    • ReLU激活函数
    • 特征转换和增强
  • 残差连接和层归一化
    • 缓解梯度消失问题
    • 稳定训练过程
    • 加速模型收敛

变体与改进

Transformer架构的主要变体和改进:

  • BERT
    • 双向编码器表示
    • 掩码语言模型预训练
    • 下游任务微调
  • GPT
    • 单向自回归模型
    • 大规模预训练
    • 生成式任务
  • T5
    • 文本到文本转换
    • 统一任务框架
    • 多任务学习