计算机视觉进阶与前沿
Transformer架构
Vision Transformer (ViT)
- 将图像分割为固定大小的patch
- 使用位置编码保持空间信息
- 自注意力机制处理全局关系
- 在大规模数据集上表现优异
Swin Transformer
- 层次化设计
- 滑动窗口注意力机制
- 多尺度特征提取
- 计算效率更高
自监督学习
对比学习
- SimCLR:端到端对比学习
- MoCo:动量对比学习
- BYOL:自监督表示学习
- 无需标注数据
掩码图像建模
- MAE:掩码自编码器
- BEiT:双向编码器
- 自监督预训练
- 迁移学习效果好