导航菜单

计算机视觉进阶与前沿

Transformer架构

Vision Transformer (ViT)

  • 将图像分割为固定大小的patch
  • 使用位置编码保持空间信息
  • 自注意力机制处理全局关系
  • 在大规模数据集上表现优异

Swin Transformer

  • 层次化设计
  • 滑动窗口注意力机制
  • 多尺度特征提取
  • 计算效率更高

自监督学习

对比学习

  • SimCLR:端到端对比学习
  • MoCo:动量对比学习
  • BYOL:自监督表示学习
  • 无需标注数据

掩码图像建模

  • MAE:掩码自编码器
  • BEiT:双向编码器
  • 自监督预训练
  • 迁移学习效果好