导航菜单

卷积神经网络

卷积神经网络(CNN)概述

核心思想与优势

卷积神经网络(CNN)是一类专门用于处理具有类似网格结构的数据(如图像)的深度学习模型。其核心思想是通过卷积操作自动提取局部特征,利用参数共享和稀疏连接大幅减少模型参数量。

  • 局部感受野:每个神经元只关注输入的一小块区域
  • 参数共享:同一卷积核在不同位置重复使用
  • 稀疏连接:减少参数,提升泛化能力
  • 强大的特征提取能力,适合图像、语音等任务

典型应用场景

  • 图像分类、目标检测、图像分割
  • 人脸识别、自动驾驶、医学影像分析
  • 语音识别、视频分析等

卷积层

卷积层

输入特征图卷积核输出特征图
  • 卷积核:可学习的参数矩阵
  • 步长:卷积核移动的步长
  • 填充:保持特征图大小
  • 特征图:卷积运算的输出
  • 多通道:处理彩色图像

池化层

池化层

输入特征图池化窗口输出特征图
  • 最大池化:取区域最大值
  • 平均池化:取区域平均值
  • 池化窗口:通常为2x2
  • 步长:通常等于窗口大小
  • 作用:减少参数、防止过拟合

全连接层

全连接层

特征图展平全连接层
  • 特征整合:将特征图展平
  • 分类决策:输出类别概率
  • Dropout:防止过拟合
  • 激活函数:通常使用Softmax

经典CNN架构

LeNet-5

  • 第一个成功的CNN架构
  • 用于手写数字识别
  • 包含2个卷积层和3个全连接层
  • 使用Sigmoid激活函数

AlexNet

  • 2012年ImageNet竞赛冠军
  • 使用ReLU激活函数
  • 引入Dropout技术
  • 使用GPU加速训练

VGGNet

  • 使用小尺寸卷积核(3x3)
  • 结构简单规整
  • 易于迁移学习
  • 参数量较大