盗墓笔记同人小说,穿越小说完本

什么是神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索？

NAS（Neural Architecture Search, 神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索）的概述，以及與超參數(shù)優(yōu)化的比較的討論。

2018年12月20日

編者注：敬請(qǐng)查看2019年4月15日至18日在紐約舉行的人工智能會(huì)議上的“大規(guī)模并行超參數(shù)調(diào)整”分會(huì)場(chǎng)議題。最惠價(jià)格將于1月25日結(jié)束。

該文章最初發(fā)表于Determined AI博客，經(jīng)許可重新發(fā)表于此。

深度學(xué)習(xí)提供了這樣一種承諾：它可以繞過手動(dòng)特征工程的流程，通過端對(duì)端的方式聯(lián)合學(xué)習(xí)中間表征與統(tǒng)計(jì)模型。然而，神經(jīng)網(wǎng)絡(luò)架構(gòu)本身通常由專家以艱苦的、一事一議的方式臨時(shí)設(shè)計(jì)出來。神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索（NAS）被譽(yù)為一條減輕痛苦之路，它可以自動(dòng)識(shí)別哪些網(wǎng)絡(luò)優(yōu)于手工設(shè)計(jì)的網(wǎng)絡(luò)。

但是，無論是在研究進(jìn)展還是炒作方面，這個(gè)領(lǐng)域都變得如此之快，很難得到一些基礎(chǔ)問題的答案：NAS到底是什么，它與AutoML或超參數(shù)優(yōu)化有什么根本的不同？定制化的NAS方法真的有用嗎？它們使用起來不是很昂貴嗎？我應(yīng)該使用定制化的NAS方法嗎？在這篇文章中，我們將回答每個(gè)問題。我們的討論涉及幾個(gè)關(guān)鍵點(diǎn)：

NAS與傳統(tǒng)的超參數(shù)優(yōu)化之間存在二分法是錯(cuò)誤的；實(shí)際上，NAS是超參數(shù)優(yōu)化的子集。此外，定制化的NAS方法實(shí)際上并不是完全自動(dòng)化的，因?yàn)樗鼈円蕾囉谌斯ぴO(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)作為搜索的起點(diǎn)。
雖然探索和調(diào)整不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)對(duì)于開發(fā)高質(zhì)量的深度學(xué)習(xí)應(yīng)用至關(guān)重要，但我們認(rèn)為定制化的NAS方法還沒到迎來黃金時(shí)段的水平：與高質(zhì)量的超參數(shù)優(yōu)化算法相比，它們引入了顯著的算法和計(jì)算復(fù)雜度（例如ASHA），卻無法證明在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試任務(wù)上帶來性能提高。
盡管如此，定制化NAS方法在過去幾年中，對(duì)于提高精度，降低計(jì)算成本和降低網(wǎng)絡(luò)架構(gòu)尺寸幾個(gè)方面取得了顯著進(jìn)步，并且最終可能超越人類在神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)方面的表現(xiàn)。

宏觀而言，讓我們首先討論NAS如何適應(yīng)更廣泛的AutoML（自動(dòng)機(jī)器學(xué)習(xí)）。

AutoML?超參數(shù)優(yōu)化?NAS

image1-3250b5283382455a64a9b3fabc39f6c2

圖1.感謝Determined AI提供圖片

AutoML專注于自動(dòng)化機(jī)器學(xué)習(xí)（ML）工作流程的各個(gè)方面，以提高效率，并帶來了機(jī)器學(xué)習(xí)民主化，以便非專家可以輕松地將機(jī)器學(xué)習(xí)應(yīng)用于他們的問題。雖然AutoML包含與ETL（對(duì)數(shù)據(jù)的提取，轉(zhuǎn)換，加載），模型訓(xùn)練和模型部署相關(guān)的各種問題的自動(dòng)化，但超參數(shù)優(yōu)化問題是AutoML的核心焦點(diǎn)。此問題涉及對(duì)ML模型/算法行為的內(nèi)部設(shè)置進(jìn)行配置管理，返回高質(zhì)量的預(yù)測(cè)模型。

例如，嶺回歸模型需要設(shè)置正則化項(xiàng)的值；隨機(jī)森林模型要求用戶設(shè)置每個(gè)葉子節(jié)點(diǎn)包含的最小樣本數(shù)，以及總模型樹的最大深度；訓(xùn)練任何需要隨機(jī)梯度下降的模型，需要設(shè)置適當(dāng)?shù)膶W(xué)習(xí)率步長。神經(jīng)網(wǎng)絡(luò)還需要設(shè)置多個(gè)超參數(shù)，包括（1）選擇優(yōu)化器及其相關(guān)的超參數(shù)集; （2）設(shè)置dropout比率和其他正則化超參數(shù)；如果需要的話還要（3）調(diào)整控制網(wǎng)絡(luò)架構(gòu)的參數(shù)（例如，隱層的層數(shù)，卷積核的數(shù)量）。

雖然對(duì)NAS的闡述可能暗示它是一個(gè)全新的問題，但我們上面的最后一個(gè)例子暗示了超參數(shù)優(yōu)化和NAS之間的密切關(guān)系。盡管用于NAS的搜索空間通常較大，而且涵蓋了控制神經(jīng)網(wǎng)絡(luò)架構(gòu)的方方面面，但是底層問題與超參數(shù)優(yōu)化所解決的問題相同：在搜索空間內(nèi)，找到在目標(biāo)任務(wù)上表現(xiàn)良好的一組配置。因此，我們將NAS視為超參數(shù)優(yōu)化中的子問題。

雖然是一個(gè)子問題，不過NAS仍然是一個(gè)令人興奮的研究方向，因?yàn)閷Ｗ⒂谝粋€(gè)專門的子問題，提供了利用額外結(jié)構(gòu)來設(shè)計(jì)定制化解決方案的機(jī)會(huì)（許多專門的NAS方法都是這么做的）在下一節(jié)中，我們將提供NAS的概述，并深入研究超參數(shù)優(yōu)化和NAS之間的相似點(diǎn)和不同點(diǎn)。

NAS概述

image2-1ab1292fe731b686511b26381162e4d9

圖2. 感謝DeterminedAI提供圖片

在Zoph等人的工作之后，對(duì)NAS的興趣激增。他們的工作使用強(qiáng)化學(xué)習(xí)來設(shè)計(jì)當(dāng)時(shí)最先進(jìn)的圖像識(shí)別和語言模型架構(gòu)。不過，盡管Zoph等人設(shè)計(jì)了用于NAS的第一代定制化方法，隨之而來的是這種方法需要大量的算力（例如，數(shù)以百計(jì)的GPU實(shí)際運(yùn)行時(shí)長上千天），這使得它們對(duì)于除了Google這樣的公司以外的所有人而言，都是不切實(shí)際的。最近的方法利用各種重用方法來大幅降低計(jì)算成本，并且在研究界中還在快速引入新方法。

接下來我們將稍微深入地探討與定制化NAS方法相關(guān)的核心設(shè)計(jì)決策（有關(guān)NAS的更詳細(xì)概述，我們推薦閱讀2017年Elsken等人做的優(yōu)秀調(diào)研）。三個(gè)主要組成部分是：

搜索空間。該組件描述了潛在可能的神經(jīng)網(wǎng)絡(luò)架構(gòu)集合。這些搜索空間是針對(duì)應(yīng)用而專門設(shè)計(jì)的，例如，針對(duì)計(jì)算機(jī)視覺任務(wù)的卷積網(wǎng)絡(luò)空間，或針對(duì)語言建模任務(wù)的遞歸神經(jīng)網(wǎng)絡(luò)空間。因此，NAS方法并非完全自動(dòng)化，因?yàn)檫@些搜索空間的設(shè)計(jì)從根本上依賴于人為設(shè)計(jì)的架構(gòu)作為起點(diǎn)。即便如此，仍然存在許多架構(gòu)參數(shù)需要決策。實(shí)際上，在這些搜索空間中需要考慮的潛在架構(gòu)的數(shù)量通常超過10的10次方。
優(yōu)化方法。此組件確定如何瀏覽搜索空間以便找到一個(gè)好的架構(gòu)。這里最基本的方法是隨機(jī)搜索，同時(shí)還引入了各種自適應(yīng)方法，例如強(qiáng)化學(xué)習(xí)，進(jìn)化搜索，基于梯度的優(yōu)化和貝葉斯優(yōu)化。雖然這些自適應(yīng)方法在選擇評(píng)估哪些架構(gòu)上存在些許不同，但它們都試圖搜索傾向于更可能表現(xiàn)良好的網(wǎng)絡(luò)架構(gòu)。不出所料的是，所有這些方法都具有在傳統(tǒng)超參數(shù)優(yōu)化任務(wù)的情境下的對(duì)應(yīng)方法。
評(píng)估方法。該組件測(cè)量?jī)?yōu)化方法考慮的每種體系結(jié)構(gòu)的表現(xiàn)。最簡(jiǎn)單，但計(jì)算量最大的選擇是完整的訓(xùn)練一個(gè)網(wǎng)絡(luò)。人們可以選擇利用部分訓(xùn)練，使用類似于ASHA等超參數(shù)優(yōu)化中常用的早期停止方法。針對(duì)NAS特定的評(píng)估方法，如網(wǎng)絡(luò)同態(tài)映射，權(quán)重共享，以及超網(wǎng)絡(luò)，也都可以引入，用于發(fā)掘神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，提供更節(jié)省算力、啟發(fā)式的模型質(zhì)量評(píng)估。部分訓(xùn)練方法通常比完整訓(xùn)練的算力少一個(gè)數(shù)量級(jí)，而針對(duì)NAS的評(píng)估方法，比完全訓(xùn)練模型對(duì)算力的消耗低兩到三個(gè)數(shù)量級(jí)。

值得注意的是，這些是傳統(tǒng)超參數(shù)優(yōu)化方法的三個(gè)必要成分。研究界已經(jīng)聚合了一些規(guī)范的基準(zhǔn)數(shù)據(jù)集和任務(wù)，用來評(píng)估不同搜索方法的性能，接下來我們將使用這些基準(zhǔn)來報(bào)告（1）用超參數(shù)優(yōu)化方法調(diào)整的人工設(shè)計(jì)的架構(gòu)以及（2）前沿的針對(duì)NAS設(shè)計(jì)的方法，通過NAS設(shè)計(jì)的架構(gòu)。（NAS專注于尋找與識(shí)別架構(gòu)的問題，但仍需要輔助性的超參數(shù)優(yōu)化步驟，來調(diào)整它所尋找到的的架構(gòu)中，非架構(gòu)的特定超參數(shù)。下表顯示了這兩個(gè)步驟后的測(cè)試誤差率。）

NAS模型與人工設(shè)計(jì)的模型

用于基準(zhǔn)NAS方法的兩個(gè)最常見的任務(wù)是（1）設(shè)計(jì)在CIFAR-10數(shù)據(jù)集上評(píng)估的卷積神經(jīng)網(wǎng)絡(luò)（CNN）架構(gòu)，以及（2）設(shè)計(jì)在PennTree Bank（PTB）上評(píng)估的遞歸神經(jīng)網(wǎng)絡(luò)（RNN）架構(gòu)）數(shù)據(jù)集。我們?cè)谙卤碇酗@示了CIFAR-10上不同體系結(jié)構(gòu)的測(cè)試錯(cuò)誤。

	資源	參數(shù)數(shù)量（百萬）	測(cè)試誤差	搜索方法	評(píng)估方法
PyramidNet + ShakeDrop	Yamada等人，2018年	26	2.31	人工設(shè)計(jì)	–
NASNet-A +CutOut	Zoph等人，2017年	3.3	2.65	強(qiáng)化學(xué)習(xí)	全部訓(xùn)練
AmoebaNet-B +CutOut	Real等人，2018年	34.9	2.13	基于進(jìn)化	全程
NAONET	羅等人，2018年	28.6	2.98	基于梯度	部分訓(xùn)練
DARTS +CutOut	H. Liu等，2018	3.4	2.83	基于梯度	權(quán)重共享

表1. 前沿的神經(jīng)網(wǎng)絡(luò)架構(gòu)在CIFAR-10上的測(cè)試誤差率表現(xiàn)，有些是人工設(shè)計(jì)，另一些是用各種搜索方法、評(píng)估方法通過定制化的NAS方法實(shí)現(xiàn)的。請(qǐng)注意，所有架構(gòu)都通過標(biāo)準(zhǔn)的超參數(shù)優(yōu)化方法進(jìn)行了調(diào)整。

對(duì)于CIFAR-10基準(zhǔn)測(cè)試，使用完全訓(xùn)練的的定制化NAS方法與手工設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)旗鼓相當(dāng)；然而，它們非常昂貴，需要超過1,000個(gè)GPU天。雖然利用部分訓(xùn)練或其他NAS特定評(píng)估方法的方法需要較少的計(jì)算來執(zhí)行搜索（分別為400 GPU天和~1 GPU天），但它們的表現(xiàn)被表1中的人工設(shè)計(jì)架構(gòu)所超越了。值得注意的是，NAS架構(gòu)比人工設(shè)計(jì)的模型低幾乎一個(gè)數(shù)量級(jí)的參數(shù)，表明NAS在顯存約束、延遲約束的應(yīng)用場(chǎng)合下可能還有希望。

表2中顯示了PTB數(shù)據(jù)集上不同架構(gòu)的測(cè)試混淆度。

	來源	測(cè)試混淆度	搜索方法	評(píng)估方法
帶MoS的LSTM	Yang等人，2017	54.4	手工設(shè)計(jì)	–
NASNet	Zoph等人，2016	62.4	強(qiáng)化學(xué)習(xí)	全部訓(xùn)練
NAONET	羅等人，2018年	56.0	基于梯度	部分訓(xùn)練
DARTS	H. Liu等人，2018	55.7	基于地圖	權(quán)重共享

表2.由人類設(shè)計(jì)或通過具有各種搜索和評(píng)估方法的專用NAS方法設(shè)計(jì)的領(lǐng)先架構(gòu)的PTB測(cè)試?yán)Щ蠖取?請(qǐng)注意，所有體系結(jié)構(gòu)都是通過標(biāo)準(zhǔn)的超參數(shù)優(yōu)化方法進(jìn)行調(diào)整的。

與手動(dòng)設(shè)計(jì)的架構(gòu)相比，定制化的NAS結(jié)果在PTB基準(zhǔn)測(cè)試中的競(jìng)爭(zhēng)力較弱。然而，令人驚訝的是，簡(jiǎn)單評(píng)估方法優(yōu)于全部訓(xùn)練；這可能是由于自2016年Zoph等人發(fā)表的2016年的論文以來，在LSTM方面取得的額外進(jìn)展。

定制化的NAS方法是否馬上會(huì)被廣泛采用？

還沒有！需要明確的是，探索各種網(wǎng)絡(luò)架構(gòu)，并執(zhí)行大量的超參數(shù)優(yōu)化，仍然是任何深度學(xué)習(xí)應(yīng)用程序工作流程的主要組成部分。然而，鑒于現(xiàn)有的研究結(jié)果（如上所述），我們認(rèn)為雖然針對(duì)性的NAS方法已經(jīng)在這兩個(gè)基準(zhǔn)測(cè)試中顯示出比較有希望的結(jié)果，但由于以下原因，它們?nèi)匀浑x進(jìn)入黃金時(shí)段存在距離：

由于高度手工調(diào)整、設(shè)計(jì)的架構(gòu)，在CIFAR-10上和計(jì)算可行NAS方法相比具有競(jìng)爭(zhēng)力，而且在PTB上優(yōu)于針對(duì)性的NAS方法，我們相信，資源用于現(xiàn)有手動(dòng)設(shè)計(jì)架構(gòu)的超參數(shù)優(yōu)化是更好的。
大多數(shù)定制化的NAS方法對(duì)于給定的搜索空間是相當(dāng)特定的，并且需要針對(duì)每個(gè)新的搜索空間進(jìn)行重新訓(xùn)練、重新組合。另外，某些方法存在魯棒性問題，難以訓(xùn)練。這些問題目前阻礙了現(xiàn)有定制化NAS方法對(duì)不同任務(wù)的普遍適用性。

91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

AutoML?超參數(shù)優(yōu)化?NAS

NAS概述

NAS模型與人工設(shè)計(jì)的模型

定制化的NAS方法是否馬上會(huì)被廣泛采用？

相關(guān)閱讀：

91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

AutoML?超參數(shù)優(yōu)化?NAS

NAS概述

NAS模型與人工設(shè)計(jì)的模型

定制化的NAS方法是否馬上會(huì)被廣泛采用？

相關(guān)閱讀：

為什么Java、Python會(huì)進(jìn)入程序員最怕編程語言榜單

2020年技術(shù)領(lǐng)導(dǎo)人需要關(guān)注的5大關(guān)鍵領(lǐng)域

無服務(wù)器計(jì)算中的兩個(gè)缺失鏈條：有狀態(tài)計(jì)算和放置位置控制

在企業(yè)里管理機(jī)器學(xué)習(xí)：來自銀行和醫(yī)療行業(yè)的經(jīng)驗(yàn)?

定制化的NAS方法是否馬上會(huì)被廣泛采用？

為什么Java、Python會(huì)進(jìn)入程序員最怕編程語言榜單