CNN入门–dropout正则化
背景:机器学习模型中,存在过拟合的问题。如果模型参数太多,训练样本太少,训练出来的模型很容易产生过拟合,几乎不能用。为了解决过拟合,一般会用多个模型集成的方式,即训练多个模型进行组合再训练,这种方式虽然能解决过拟合问题,但是会带来计算费时的新问题。
2012年,Hinton在《Improving neural networks by preventing co-adaptation of feature detectors》中提出Dropout。随后Hinton,Alex等人在《ImageNet Classification with Deep Convolutional Neural Networks》中使用Dropout算法,用于防止过拟合问题,论文中提到的AlexNet网络模型引发了CNN应用的热潮,使得CNN成为图像分类应用领域中的核心模型。
Hinton G E, Srivastava N, Krizhevsky A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. arXiv preprint arXiv:1207.0580, 2012.
Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
主要思想:是一种“玄学”的正则化,在训练模型的过程中,随机丢弃一些特征(dropout rate控制比例,一般设置在0.3-0.5之间),降低神经网络的复杂程度,同时提高模型的鲁棒性。
为什么在降低复杂度的同时还能提高鲁棒性呢?
因为在一些应用场景中,我们不需要进行一些额外的特征提取的计算,将这部分特征舍弃掉,只进行必要特征的提取和计算。比如:人脸识别中,我们不需要对衣服、胳膊进行特征提取,模型要正确的识别出结果,只用关注脸部的特征。因此,我们可以通过dropout算法在隐藏层舍弃掉一些特征,降低隐藏层处理的复杂度,使得模型计算集中在留下的特征中,从而在输出层给出正确的识别结果,提高模型的鲁棒性。
但是,需要注意的是,具体需要丢弃掉哪些特征,这是机器无从得知的。所以dropout也被称为玄学正则化,控制好dropout rate是调参的关键,调得合适就是增强了模型魔棒性,反之,就是模型过拟合了。
算法流程:
- 确定每一层的keep_prob(表示每一个结点留下来的概率,范围为[0,1))
- 在每一次迭代中,其中小于等于keep_prob的结点被留下,反之,结点在本次迭代中不被计算,暂时删除(删除并不是真正的删掉了,而是将该结点在本次迭代中前向传播的输出值为0)
- 将输入层的数据通过修改后的隐藏层前向传播,将得到的损失结果通过修改后的隐藏层反向传播。不断重复。
优缺点:
优点:使用dropout正则化的神经网络,使得模型的泛化能力更强,不会过分依赖某个或某些特征,根据随机概率进行特征丢弃,使得权值分散,减少结点之间的耦合。