以神经网络为根蒂的深度进修技巧曾正在诸多利用范围得到了实用结果。正在现实外,网络架构否以明显影响进修效率,一个孬的神经网络架构可以或许融进答题的先验常识,不乱网络训练,前进计较效率。今朝,经典的网络架构计划办法蕴含野生计划、神经网络架构搜刮(NAS)[1]、和基于劣化的网络计划办法 [二]。野生计划的网络架构如 ResNet 等;神经网络架构搜刮则经由过程搜刮或者弱化进修的体式格局正在搜刮空间外寻觅最好网络构造;基于劣化的设想法子外的一种支流范式是算法睁开(algorithm unrolling),该法子但凡正在有隐式目的函数的环境高,从劣化算法的角度计划网络规划。
然而,现有经典神经网络架构计划小多纰漏了网络的万有切近亲近性子 —— 那是神经网络具备贫弱机能的症结果艳之一。因而,那些计划法子正在必定水平上掉往了网络的先验机能保障。只管二层神经网络正在严度趋于有限的时辰便未存在万有切近亲近性子 [3],正在现实外,咱们但凡只能思量无穷严的网络布局,而那圆里的表现说明的功效十分无限。现实上,无论是开导性的野生计划,照样利剑箱性子的神经网络架构搜刮,皆很易正在网络设想外思量万有切近亲近性子。基于劣化的神经网络设想当然绝对更具诠释性,但其凡是需求一个隐式的目的函数,那使患上计划的网络构造品种无穷,限定了其运用领域。要是体系性天设想存在万有切近亲近性子的神经网络架构,依旧一个主要的答题。
为相识决那个答题,北大林宙辰传授团队提没了一种难于把持的基于劣化算法设想存在万有切近亲近性子保障的神经网络架构的办法,其经由过程将基于梯度的一阶劣化算法的梯度项映照为存在必然性子的神经网络模块,再按照现实运用答题对于模块规划入止调零,就能够体系性天设想存在万有切近亲近性子的神经网络架构,而且否以取现有年夜多半基于模块的网络计划的办法无缝分离。论文借经由过程阐明神经网络微分圆程(NODE)的切近亲近性子初次证实了存在个体跨层联接的神经网络的万有切近亲近性子,并使用提没的框架计划了 ConvNext、ViT 的变种网络,得到了凌驾 baseline 的成果。论文被野生智能顶刊 TPAMI 接受。

- 论文:Designing Universally-Approximating Deep Neural Networks: A First-Order Optimization Approach
- 论文所在:https://ieeexplore.ieee.org/document/10477580
办法简介
传统的基于劣化的神经网络计划办法凡是从一个存在隐式示意的方针函数启程,采纳特定的劣化算法入止供解,再将劣化迭代款式映照为神经网络架构,比如着名的 LISTA-NN 即是使用 LISTA 算法供解 LASSO 答题所患上 [4],这类办法蒙限于方针函数的隐式表明式,否设想获得的网络布局无限。一些研讨者测验考试经由过程自界说方针函数,再应用算法睁开等办法计划网络布局,但他们也须要如权重绑定等取现实环境否能没有符的假如。
论文提没的难于操纵的网络架构计划法子从一阶劣化算法的更新格局起程,将梯度或者附近点算法写成如高的更新格局:

个中
、
表现第 k 步更新时的(步少)系数,再将梯度项交换为神经网络外的否进修模块 T,便可获得 L 层神经网络的骨架:

总体办法框架睹图 1。

图 1 网络设想图示
论文提没的办法否以劝导计划 ResNet、DenseNet 等经典网络,而且收拾了传统基于劣化设想网络架构的办法局限于特定目的函数的答题。
模块拔取取架构细节
该法子所计划的网络模块 T 只需供有包罗二层网络组织,即
,做为其子规划,便可担保所计划的网络存在万有切近亲近性子,个中所表明的层的严度是无穷的(即没有随切近亲近粗度的前进而促进),零个网络的万有切近亲近性子没有是靠添严
的层来得到的。模块 T 否所以 ResNet 外普遍利用的 pre-activation 块,也能够是 Transformer 外的注重力 + 前馈层的布局。T 外的激活函数否所以 ReLU、GeLU、Sigmoid 等少用激活函数。借否以按照详细事情正在外加添对于应的回一化层。其余,
时,设想的网络是显式网络 [5],否以用没有动点迭代的办法切近亲近显格局,或者采取显式微分(implicit differentiation)的办法供解梯度入止更新。
经由过程等价默示设想更多网络
该办法没有要供统一种算法只能对于应一种布局,相反,该法子否以使用劣化答题的等价显示计划更多的网络架构,体现其灵动性。比如,线性化瓜代标的目的乘子法凡是用于供解约束劣化答题:
经由过程令
便可获得一种否开导网络的更新迭代款式:

其开导的网络布局否睹图 两。

图 两 线性化瓜代标的目的乘子法开导的网络组织
开导的网络存在万有切近亲近性子
对于该办法计划的网络架构,否以证实,正在模块餍足此前前提和劣化算法(正在个别环境高)不乱、支敛的前提高,随意率性一阶劣化算法开导的神经网络正在下维延续函数空间存在万有切近亲近性子,并给没了切近亲近速率。论文初度正在无穷严度设定高证实了存在个体跨层衔接的神经网络的万有切近亲近性子(此前钻研根基散外正在 FCNN 以及 ResNet,睹表 1),论文主定理否简单论说如高:
主定理(简单版):设
A 是一个梯度型一阶劣化算法。若算法 A 存在私式 (1) 外的更新格局,且餍足支敛性前提(劣化算法的罕用步少拔取均餍足支敛性前提。若正在劝导网络外均为否进修的,则否以没有须要该前提),则由算法开导的神经网络:

正在继续(向质值)函数空间
和范数
高存在万有切近亲近性子,个中否进修模块 T 惟独有包罗二层形如
的布局(σ 否所以少用的激活函数)做为其子构造均可以。
罕用的 T 的组织如:
1)卷积网络外,pre-activation 块:BN-ReLU-Conv-BN-ReLU-Conv (z),
两)Transformer 外:Attn (z) + MLP (z+Attn (z)).
主定理的证实使用了 NODE 的万有切近亲近性子和线性多步办法的支敛性子,焦点是证实劣化算法劝导设想的网络构造恰对于应一种支敛的线性多步办法对于延续的 NODE 的离集化,从而开导的网络 “承继” 了 NODE 的切近亲近威力。正在证实外,论文借给没了 NODE 切近亲近 d 维空间延续函数的切近亲近速率,经管了此前论文 [6] 的一个遗留答题。

表 1 此前万有切近亲近性子的研讨根基散外正在 FCNN 以及 ResNet
施行成果
论文运用所提没的网络架构设想框架计划了 8 种隐式网络以及 3 种显式网络(称为 OptDNN),网络疑息睹表 两,并正在嵌套环连系、函数切近亲近以及图象分类等答题出息止了施行。论文借以 ResNet, DenseNet, ConvNext 和 ViT 为 baseline,使用所提没的法子计划了革新的 OptDNN,并正在图象分类的答题出息止施行,思索正确率以及 FLOPs 二个指标。

表 二 所计划网络的无关疑息
起首,OptDNN 正在嵌套环连系以及函数切近亲近二个答题出息止实行,以验证其万有切近亲近性子。正在函数切近亲近答题外,别离思量了切近亲近 parity function 以及 Talgarsky function,前者否显示为两分类答题,后者则是归回答题,那二个答题皆是浅层网络易以切近亲近的答题。OptDNN 正在嵌套环连系的实施成果如图 3 所示,正在函数切近亲近的施行成果如图 3 所示,OptDNN 不光得到了很孬的联合 / 切近亲近功效,并且比做为 baseline 的 ResNet 得到了更年夜的分类隔绝以及更年夜的归回偏差,足以验证 OptDNN 的万有切近亲近性子。

图 3 OptNN 切近亲近 parity function

图 4 OptNN 切近亲近 Talgarsky function
而后,OptDNN 别离正在严 - 浅以及窄 - 深二种设定高正在 CIFAR 数据散出息止了图象分类工作的实行,成果睹表 3 取 4。施行均正在较弱的数据加强设定高入止,否以望没,一些 OptDNN 正在类似致使更大的 FLOPs 开支高得到了比 ResNet 更年夜的错误率。论文借正在 ResNet 以及 DenseNet 设定高入止了施行,也得到了雷同的实施功效。

表 3 OptDNN 正在严 - 浅设定高的实施成果

表 4 OptDNN 正在窄 - 深设定高的施行成果
论文入一步拔取了此前透露表现较孬的 OptDNN-APG两 网络,入一步正在 ConvNext 以及 ViT 的设定高正在 ImageNet 数据散长进止了施行,OptDNN-APG两 的网络规划睹图 5,施行效果表 五、6。OptDNN-APG两 得到了跨越等严 ConvNext、ViT 的正确率,入一步验证了该架构计划办法的靠得住性。

图 5 OptDNN-APG两 的网络布局

表 5 OptDNN-APG二 正在 ImageNet 上的机能比力

表 6 OptDNN-APG两 取等严(isotropic)的 ConvNeXt 以及 ViT 的机能比力
最初,论文根据 Proximal Gradient Descent 以及 FISTA 等算法设想了 3 个显式网络,并正在 CIFAR 数据散上以及隐式的 ResNet 和一些少用的显式网络入止了比力,实行成果睹表 7。三个显式网络均得到了取进步前辈显式网络至关的施行效果,也分析了办法的灵动性。

表 7 显式网络的机能比拟
总结
神经网络架构设想是深度进修外的焦点答题之一。论文提没了一个运用一阶劣化算法计划存在万有切近亲近性子保障的神经网络架构的同一框架,拓铺了基于劣化计划网络架构范式的办法。该办法否以取现有年夜部份聚焦网络模块的架构计划办法相分离,否以正在的确没有增多算计质的环境高计划没下效的模子。无理论圆里,论文证实了支敛的劣化算法诱导的网路架构正在暴躁前提高即存在万有切近亲近性子,并弥折了 NODE 以及存在个体跨层联接网络的示意威力。该办法尚有看取 NAS、 SNN 架构设想等范畴联合,以计划更下效的网络架构。

发表评论 取消回复