注意力机制 (Attention Mechanism)
注意力机制(Attention Mechanism)概述
核心思想与优势
注意力机制是一种让模型能够动态关注输入数据中重要部分的机制。其核心思想是通过选择性关注、权重分配、上下文感知和并行计算,有效提升模型对长序列数据的处理能力。
- 选择性关注:模型可以动态地关注输入的不同部分
- 权重分配:为不同的输入部分分配不同的重要性权重
- 上下文感知:考虑输入序列的上下文信息
- 并行计算:可以并行处理输入序列
注意力机制的类型
- 自注意力(Self-Attention)
- 计算序列内部元素之间的关系
- 用于捕获长距离依赖
- 交叉注意力(Cross-Attention)
- 计算两个不同序列之间的关系
- 常用于编码器-解码器架构
- 多头注意力(Multi-Head Attention)
- 并行计算多个注意力头
- 捕获不同子空间的信息
- 缩放点积注意力(Scaled Dot-Product Attention)
- 使用缩放因子优化梯度
- 计算效率高
应用场景
- 机器翻译
- 文本摘要
- 问答系统
- 图像描述生成
- 语音识别
- 推荐系统