基于由神经网络架构建立的Gram矩阵的特定结构.doc

资源ID：3417948 资源大小：17KB 全文页数：3页
资源格式： DOC 下载积分：2元

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要2元

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

基于由神经网络架构建立的Gram矩阵的特定结构.doc

基于由神经网络架构建立的Gram矩阵的特定结构深度学习的网络训练损失问题一直是学术界关注的热点。过去，利用梯度下降法找到的一般都是局部最优解。近日，CMU、MIT和北京大学的研究人员分别对深度全连接前馈神经网络、ResNet和卷积ResNet进行了分析，并表明利用梯度下降可以找到全局最小值，在多项式时间内实现零训练损失。在目标函数非凸的情况下，梯度下降在训练深度神经网络中也能够找到全局最小值。本文证明，对于具有残差连接的超参数化的深度神经网络（ResNet），采用梯度下降可以在多项式时间内实现零训练损失。本文的分析基于由神经网络架构建立的Gram矩阵的特定结构。该结构显示在整个训练过程中，Gram矩阵是稳定的，并且这种稳定性意味着梯度下降算法的全局最优性。使用ResNet可以获得相对于全连接的前馈网络架构的优势。对于前馈神经网络，边界要求每层网络中的神经元数量随网络深度的增加呈指数级增长。对于ResNet，只要求每层的神经元数量随着网络深度的实现多项式缩放。我们进一步将此类分析扩展到深度残余卷积神经网络上，并获得了类似的收敛结果。找到梯度下降全局最优解，实现训练零损失深度学习中的一个难题是随机初始化的一阶方法，即使目标函数是非凸的，梯度下降也会实现零训练损失。一般认为过参数化是这种现象的主要原因，因为只有当神经网络具有足够大的容量时，该神经网络才有可能适合所有训练数据。在实践中，许多神经网络架构呈现高度的过参数化。训练深度神经网络的第二个神秘现象是“越深层的网络越难训练”。为了解决这个问题，采用提出了深度残差网络（ResNet）架构，该架构使得随机初始化的一阶方法能够训练具有更多层数的数量级的神经网络。从理论上讲，线性网络中的残余链路可以防止大的零邻域中的梯度消失，但对于具有非线性激活的神经网络，使用残差连接的优势还不是很清楚。本文揭开了这两个现象的神秘面纱。我们考虑设置n个数据点，神经网络有H层，宽度为m。然后考虑最小二乘损失，假设激活函数是Lipschitz和平滑的。这个假设适用于许多激活函数，包括soft-plus。论文链接： https:/arxiv/pdf/1811.03804.pdf首先考虑全连接前馈神经网络，在神经元数量m=（poly（n）2O（H）的情况下，随机初始化的梯度下降会以线性速度收敛至零训练损失。接下来考虑ResNet架构。只要神经元数量m =（poly（n，H），那么随机初始化的梯度下降会以线性速率收敛到零训练损失。与第一个结果相比，ResNet对网络层数的依赖性呈指数级上升。这证明了使用残差连接的优势。最后，用相同的技术来分析卷积ResNet。结果表明，如果m = poly（n，p，H），其中p是patch数量，则随机初始化的梯度下降也可以实现零训练损失。本文的研究证据建立在先前关于两层神经网络梯度下降的研究理念之上。首先，作者分析了预测的动力学情况，其收敛性由神经网络结构引出的Gram矩阵的最小特征值确定，为了降低其最小特征值的下限，从初始化阶段限制每个权重矩阵的距离就可以了。其次，作者使用Li和Liang2018的观察结果，如果神经网络是过参数化的，那么每个权重矩阵都接近其初始化状态。本文在分析深度神经网络时，需要构建更多深度神经网络的架构属性和新技术。本文附录中给出了详细的数学证明过程接下来，论文分别给出了全连接前馈神经网络、ResNet和卷积ResNet的分析过程，并在长达20余页的附录部分（本文含附录共计45页）给出了详细的数学证明过程，对自己的数学功底有自信的读者可以自行参看论文。这里仅就ResNet分析过程中，Gram矩阵的构建和研究假设做简要说明。Gram矩阵的构建以上是网络宽度m趋于无限时的渐进Gram矩阵。我们特做出如下假设，该假设条件决定了收敛速度和过参数化数量。注意，这里的和全连接前馈神经网络中的不同，因为这里的只由K（0）决定，一般来说，除非两个数据点是平行的，否则总是正数。研究结论和局限：目前还不是随机梯度下降在本文中，我们表明深度过度参数化网络上的梯度下降可以获得零训练损失。其中关键是证明了Gram矩阵在过参数化条件下会越来越稳定，因此梯度下降的每一步都以几何速率减少损失。最后列出未来的一些潜在研究方向：1.本文主要关注训练损失，但没有解决测试损失的问题。如何找到梯度下降的低测试损失的解决方案将是一个重要问题。尤其是现有的成果只表明梯度下降在与kernel方法和随机特征方法相同的情况下才起作用。2.网络层的宽度m是ResNet架构的所有参数的多项式，但仍然非常大。而在现实网络中，数量较大的是参数的数量，而不是网络层的宽度，数据点数量n是个很大的常量。如何改进分析过程，使其涵盖常用的网络，是一个重要的、有待解决的问题。3、目前的分析只是梯度下降，不是随机梯度下降。我们认为这一分析可以扩展到随机梯度下降，同时仍然保持线性收敛速度。

注意事项

本文（基于由神经网络架构建立的Gram矩阵的特定结构.doc）为本站会员（白大夫）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。