Transformer架构
Transformer架构概述
基本结构
Transformer是一种基于自注意力机制的神经网络架构:
- 编码器-解码器架构
- 编码器:处理输入序列
- 解码器:生成输出序列
- 并行计算:提高训练效率
- 自注意力机制
- 计算序列内部关系
- 捕捉长距离依赖
- 并行处理能力
- 位置编码
- 添加位置信息
- 正弦位置编码
- 可学习的位置编码
关键组件详解
Transformer的核心组件及其功能:
- 多头自注意力
- 并行计算多个注意力头
- 不同子空间的信息提取
- 增强模型的表达能力
- 前馈神经网络
- 两层全连接网络
- ReLU激活函数
- 特征转换和增强
- 残差连接和层归一化
- 缓解梯度消失问题
- 稳定训练过程
- 加速模型收敛
变体与改进
Transformer架构的主要变体和改进:
- BERT
- 双向编码器表示
- 掩码语言模型预训练
- 下游任务微调
- GPT
- 单向自回归模型
- 大规模预训练
- 生成式任务
- T5
- 文本到文本转换
- 统一任务框架
- 多任务学习