卷积神经网络
卷积神经网络(CNN)概述
核心思想与优势
卷积神经网络(CNN)是一类专门用于处理具有类似网格结构的数据(如图像)的深度学习模型。其核心思想是通过卷积操作自动提取局部特征,利用参数共享和稀疏连接大幅减少模型参数量。
- 局部感受野:每个神经元只关注输入的一小块区域
- 参数共享:同一卷积核在不同位置重复使用
- 稀疏连接:减少参数,提升泛化能力
- 强大的特征提取能力,适合图像、语音等任务
典型应用场景
- 图像分类、目标检测、图像分割
- 人脸识别、自动驾驶、医学影像分析
- 语音识别、视频分析等
卷积层
卷积层
- 卷积核:可学习的参数矩阵
- 步长:卷积核移动的步长
- 填充:保持特征图大小
- 特征图:卷积运算的输出
- 多通道:处理彩色图像
池化层
池化层
- 最大池化:取区域最大值
- 平均池化:取区域平均值
- 池化窗口:通常为2x2
- 步长:通常等于窗口大小
- 作用:减少参数、防止过拟合
全连接层
全连接层
- 特征整合:将特征图展平
- 分类决策:输出类别概率
- Dropout:防止过拟合
- 激活函数:通常使用Softmax
经典CNN架构
LeNet-5
- 第一个成功的CNN架构
- 用于手写数字识别
- 包含2个卷积层和3个全连接层
- 使用Sigmoid激活函数
AlexNet
- 2012年ImageNet竞赛冠军
- 使用ReLU激活函数
- 引入Dropout技术
- 使用GPU加速训练
VGGNet
- 使用小尺寸卷积核(3x3)
- 结构简单规整
- 易于迁移学习
- 参数量较大