91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

什么是神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索?
NAS(Neural Architecture Search, 神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索)的概述,以及與超參數(shù)優(yōu)化的比較的討論。
編者注:敬請(qǐng)查看2019年4月15日至18日在紐約舉行的人工智能會(huì)議上的“大規(guī)模并行超參數(shù)調(diào)整”分會(huì)場(chǎng)議題。最惠價(jià)格將于1月25日結(jié)束。

該文章最初發(fā)表于Determined AI博客,經(jīng)許可重新發(fā)表于此。

深度學(xué)習(xí)提供了這樣一種承諾:它可以繞過手動(dòng)特征工程的流程,通過端對(duì)端的方式聯(lián)合學(xué)習(xí)中間表征與統(tǒng)計(jì)模型。 然而,神經(jīng)網(wǎng)絡(luò)架構(gòu)本身通常由專家以艱苦的、一事一議的方式臨時(shí)設(shè)計(jì)出來。 神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)被譽(yù)為一條減輕痛苦之路,它可以自動(dòng)識(shí)別哪些網(wǎng)絡(luò)優(yōu)于手工設(shè)計(jì)的網(wǎng)絡(luò)。

但是,無論是在研究進(jìn)展還是炒作方面,這個(gè)領(lǐng)域都變得如此之快,很難得到一些基礎(chǔ)問題的答案:NAS到底是什么,它與AutoML或超參數(shù)優(yōu)化有什么根本的不同? 定制化的NAS方法真的有用嗎? 它們使用起來不是很昂貴嗎? 我應(yīng)該使用定制化的NAS方法嗎? 在這篇文章中,我們將回答每個(gè)問題。 我們的討論涉及幾個(gè)關(guān)鍵點(diǎn):

  • NAS與傳統(tǒng)的超參數(shù)優(yōu)化之間存在二分法是錯(cuò)誤的; 實(shí)際上,NAS是超參數(shù)優(yōu)化的子集。 此外,定制化的NAS方法實(shí)際上并不是完全自動(dòng)化的,因?yàn)樗鼈円蕾囉谌斯ぴO(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)作為搜索的起點(diǎn)。
  • 雖然探索和調(diào)整不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)對(duì)于開發(fā)高質(zhì)量的深度學(xué)習(xí)應(yīng)用至關(guān)重要,但我們認(rèn)為定制化的NAS方法還沒到迎來黃金時(shí)段的水平:與高質(zhì)量的超參數(shù)優(yōu)化算法相比,它們引入了顯著的算法和計(jì)算復(fù)雜度(例如ASHA),卻無法證明在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試任務(wù)上帶來性能提高。
  • 盡管如此,定制化NAS方法在過去幾年中,對(duì)于提高精度,降低計(jì)算成本和降低網(wǎng)絡(luò)架構(gòu)尺寸幾個(gè)方面取得了顯著進(jìn)步,并且最終可能超越人類在神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)方面的表現(xiàn)。

宏觀而言,讓我們首先討論NAS如何適應(yīng)更廣泛的AutoML(自動(dòng)機(jī)器學(xué)習(xí))。

AutoML?超參數(shù)優(yōu)化?NAS

image1-3250b5283382455a64a9b3fabc39f6c2

圖1.感謝Determined AI提供圖片

AutoML專注于自動(dòng)化機(jī)器學(xué)習(xí)(ML)工作流程的各個(gè)方面,以提高效率,并帶來了機(jī)器學(xué)習(xí)民主化,以便非專家可以輕松地將機(jī)器學(xué)習(xí)應(yīng)用于他們的問題。 雖然AutoML包含與ETL(對(duì)數(shù)據(jù)的提取,轉(zhuǎn)換,加載),模型訓(xùn)練和模型部署相關(guān)的各種問題的自動(dòng)化,但超參數(shù)優(yōu)化問題是AutoML的核心焦點(diǎn)。 此問題涉及對(duì)ML模型/算法行為的內(nèi)部設(shè)置進(jìn)行配置管理,返回高質(zhì)量的預(yù)測(cè)模型。

例如,嶺回歸模型需要設(shè)置正則化項(xiàng)的值;隨機(jī)森林模型要求用戶設(shè)置每個(gè)葉子節(jié)點(diǎn)包含的最小樣本數(shù),以及總模型樹的最大深度;訓(xùn)練任何需要隨機(jī)梯度下降的模型,需要設(shè)置適當(dāng)?shù)膶W(xué)習(xí)率步長。 神經(jīng)網(wǎng)絡(luò)還需要設(shè)置多個(gè)超參數(shù),包括(1)選擇優(yōu)化器及其相關(guān)的超參數(shù)集; (2)設(shè)置dropout比率和其他正則化超參數(shù);如果需要的話還要(3)調(diào)整控制網(wǎng)絡(luò)架構(gòu)的參數(shù)(例如,隱層的層數(shù),卷積核的數(shù)量)。

雖然對(duì)NAS的闡述可能暗示它是一個(gè)全新的問題,但我們上面的最后一個(gè)例子暗示了超參數(shù)優(yōu)化和NAS之間的密切關(guān)系。 盡管用于NAS的搜索空間通常較大,而且涵蓋了控制神經(jīng)網(wǎng)絡(luò)架構(gòu)的方方面面,但是底層問題與超參數(shù)優(yōu)化所解決的問題相同:在搜索空間內(nèi),找到在目標(biāo)任務(wù)上表現(xiàn)良好的一組配置。 因此,我們將NAS視為超參數(shù)優(yōu)化中的子問題。

雖然是一個(gè)子問題,不過NAS仍然是一個(gè)令人興奮的研究方向,因?yàn)閷W⒂谝粋€(gè)專門的子問題,提供了利用額外結(jié)構(gòu)來設(shè)計(jì)定制化解決方案的機(jī)會(huì)(許多專門的NAS方法都是這么做的) 在下一節(jié)中,我們將提供NAS的概述,并深入研究超參數(shù)優(yōu)化和NAS之間的相似點(diǎn)和不同點(diǎn)。

NAS概述

image2-1ab1292fe731b686511b26381162e4d9

圖2. 感謝DeterminedAI提供圖片

Zoph等人的工作之后,對(duì)NAS的興趣激增。他們的工作使用強(qiáng)化學(xué)習(xí)來設(shè)計(jì)當(dāng)時(shí)最先進(jìn)的圖像識(shí)別和語言模型架構(gòu)。不過,盡管Zoph等人設(shè)計(jì)了用于NAS的第一代定制化方法,隨之而來的是這種方法需要大量的算力(例如,數(shù)以百計(jì)的GPU實(shí)際運(yùn)行時(shí)長上千天),這使得它們對(duì)于除了Google這樣的公司以外的所有人而言,都是不切實(shí)際的。最近的方法利用各種重用方法來大幅降低計(jì)算成本,并且在研究界中還在快速引入新方法。

接下來我們將稍微深入地探討與定制化NAS方法相關(guān)的核心設(shè)計(jì)決策(有關(guān)NAS的更詳細(xì)概述,我們推薦閱讀2017年Elsken等人做的優(yōu)秀調(diào)研)。三個(gè)主要組成部分是:

  1. 搜索空間。 該組件描述了潛在可能的神經(jīng)網(wǎng)絡(luò)架構(gòu)集合。這些搜索空間是針對(duì)應(yīng)用而專門設(shè)計(jì)的,例如,針對(duì)計(jì)算機(jī)視覺任務(wù)的卷積網(wǎng)絡(luò)空間,或針對(duì)語言建模任務(wù)的遞歸神經(jīng)網(wǎng)絡(luò)空間。 因此,NAS方法并非完全自動(dòng)化,因?yàn)檫@些搜索空間的設(shè)計(jì)從根本上依賴于人為設(shè)計(jì)的架構(gòu)作為起點(diǎn)。 即便如此,仍然存在許多架構(gòu)參數(shù)需要決策。 實(shí)際上,在這些搜索空間中需要考慮的潛在架構(gòu)的數(shù)量通常超過10的10次方。
  2. 優(yōu)化方法。 此組件確定如何瀏覽搜索空間以便找到一個(gè)好的架構(gòu)。 這里最基本的方法是隨機(jī)搜索,同時(shí)還引入了各種自適應(yīng)方法,例如強(qiáng)化學(xué)習(xí),進(jìn)化搜索,基于梯度的優(yōu)化和貝葉斯優(yōu)化。 雖然這些自適應(yīng)方法在選擇評(píng)估哪些架構(gòu)上存在些許不同,但它們都試圖搜索傾向于更可能表現(xiàn)良好的網(wǎng)絡(luò)架構(gòu)。 不出所料的是,所有這些方法都具有在傳統(tǒng)超參數(shù)優(yōu)化任務(wù)的情境下的對(duì)應(yīng)方法。
  3. 評(píng)估方法。 該組件測(cè)量?jī)?yōu)化方法考慮的每種體系結(jié)構(gòu)的表現(xiàn)。 最簡(jiǎn)單,但計(jì)算量最大的選擇是完整的訓(xùn)練一個(gè)網(wǎng)絡(luò)。 人們可以選擇利用部分訓(xùn)練,使用類似于ASHA等超參數(shù)優(yōu)化中常用的早期停止方法。針對(duì)NAS特定的評(píng)估方法,如網(wǎng)絡(luò)同態(tài)映射,權(quán)重共享,以及超網(wǎng)絡(luò),也都可以引入,用于發(fā)掘神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),提供更節(jié)省算力、啟發(fā)式的模型質(zhì)量評(píng)估。部分訓(xùn)練方法通常比完整訓(xùn)練的算力少一個(gè)數(shù)量級(jí),而針對(duì)NAS的評(píng)估方法,比完全訓(xùn)練模型對(duì)算力的消耗低兩到三個(gè)數(shù)量級(jí)。

值得注意的是,這些是傳統(tǒng)超參數(shù)優(yōu)化方法的三個(gè)必要成分。 研究界已經(jīng)聚合了一些規(guī)范的基準(zhǔn)數(shù)據(jù)集和任務(wù),用來評(píng)估不同搜索方法的性能,接下來我們將使用這些基準(zhǔn)來報(bào)告(1)用超參數(shù)優(yōu)化方法調(diào)整的人工設(shè)計(jì)的架構(gòu)以及(2)前沿的針對(duì)NAS設(shè)計(jì)的方法,通過NAS設(shè)計(jì)的架構(gòu)。 (NAS專注于尋找與識(shí)別架構(gòu)的問題,但仍需要輔助性的超參數(shù)優(yōu)化步驟,來調(diào)整它所尋找到的的架構(gòu)中,非架構(gòu)的特定超參數(shù)。下表顯示了這兩個(gè)步驟后的測(cè)試誤差率。)

NAS模型與人工設(shè)計(jì)的模型

用于基準(zhǔn)NAS方法的兩個(gè)最常見的任務(wù)是(1)設(shè)計(jì)在CIFAR-10數(shù)據(jù)集上評(píng)估的卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu),以及(2)設(shè)計(jì)在PennTree Bank(PTB)上評(píng)估的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)架構(gòu))數(shù)據(jù)集。 我們?cè)谙卤碇酗@示了CIFAR-10上不同體系結(jié)構(gòu)的測(cè)試錯(cuò)誤。

資源 參數(shù)數(shù)量(百萬) 測(cè)試誤差 搜索方法 評(píng)估方法
PyramidNet + ShakeDrop Yamada等人,2018年 26 2.31 人工設(shè)計(jì)
NASNet-A +CutOut Zoph等人,2017年 3.3 2.65 強(qiáng)化學(xué)習(xí) 全部訓(xùn)練
AmoebaNet-B +CutOut Real等人,2018年 34.9 2.13 基于進(jìn)化 全程
NAONET 羅等人,2018年 28.6 2.98 基于梯度 部分訓(xùn)練
DARTS +CutOut H. Liu等,2018 3.4 2.83 基于梯度 權(quán)重共享
表1. 前沿的神經(jīng)網(wǎng)絡(luò)架構(gòu)在CIFAR-10上的測(cè)試誤差率表現(xiàn),有些是人工設(shè)計(jì),另一些是用各種搜索方法、評(píng)估方法通過定制化的NAS方法實(shí)現(xiàn)的。請(qǐng)注意,所有架構(gòu)都通過標(biāo)準(zhǔn)的超參數(shù)優(yōu)化方法進(jìn)行了調(diào)整。

對(duì)于CIFAR-10基準(zhǔn)測(cè)試,使用完全訓(xùn)練的的定制化NAS方法與手工設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)旗鼓相當(dāng);然而,它們非常昂貴,需要超過1,000個(gè)GPU天。 雖然利用部分訓(xùn)練或其他NAS特定評(píng)估方法的方法需要較少的計(jì)算來執(zhí)行搜索(分別為400 GPU天和~1 GPU天),但它們的表現(xiàn)被表1中的人工設(shè)計(jì)架構(gòu)所超越了。值得注意的是,NAS架構(gòu)比人工設(shè)計(jì)的模型低幾乎一個(gè)數(shù)量級(jí)的參數(shù),表明NAS在顯存約束、延遲約束的應(yīng)用場(chǎng)合下可能還有希望。

表2中顯示了PTB數(shù)據(jù)集上不同架構(gòu)的測(cè)試混淆度。

來源 測(cè)試混淆度 搜索方法 評(píng)估方法
帶MoS的LSTM Yang等人,2017 54.4 手工設(shè)計(jì)
NASNet Zoph等人,2016 62.4 強(qiáng)化學(xué)習(xí) 全部訓(xùn)練
NAONET 羅等人,2018年 56.0 基于梯度 部分訓(xùn)練
DARTS H. Liu等人,2018 55.7 基于地圖 權(quán)重共享
表2.由人類設(shè)計(jì)或通過具有各種搜索和評(píng)估方法的專用NAS方法設(shè)計(jì)的領(lǐng)先架構(gòu)的PTB測(cè)試?yán)Щ蠖取?請(qǐng)注意,所有體系結(jié)構(gòu)都是通過標(biāo)準(zhǔn)的超參數(shù)優(yōu)化方法進(jìn)行調(diào)整的。

與手動(dòng)設(shè)計(jì)的架構(gòu)相比,定制化的NAS結(jié)果在PTB基準(zhǔn)測(cè)試中的競(jìng)爭(zhēng)力較弱。 然而,令人驚訝的是,簡(jiǎn)單評(píng)估方法優(yōu)于全部訓(xùn)練;這可能是由于自2016年Zoph等人發(fā)表的2016年的論文以來,在LSTM方面取得的額外進(jìn)展。

定制化的NAS方法是否馬上會(huì)被廣泛采用?

還沒有!需要明確的是,探索各種網(wǎng)絡(luò)架構(gòu),并執(zhí)行大量的超參數(shù)優(yōu)化,仍然是任何深度學(xué)習(xí)應(yīng)用程序工作流程的主要組成部分。 然而,鑒于現(xiàn)有的研究結(jié)果(如上所述),我們認(rèn)為雖然針對(duì)性的NAS方法已經(jīng)在這兩個(gè)基準(zhǔn)測(cè)試中顯示出比較有希望的結(jié)果,但由于以下原因,它們?nèi)匀浑x進(jìn)入黃金時(shí)段存在距離:

  1. 由于高度手工調(diào)整、設(shè)計(jì)的架構(gòu),在CIFAR-10上和計(jì)算可行NAS方法相比具有競(jìng)爭(zhēng)力,而且在PTB上優(yōu)于針對(duì)性的NAS方法,我們相信,資源用于現(xiàn)有手動(dòng)設(shè)計(jì)架構(gòu)的超參數(shù)優(yōu)化是更好的。
  2. 大多數(shù)定制化的NAS方法對(duì)于給定的搜索空間是相當(dāng)特定的,并且需要針對(duì)每個(gè)新的搜索空間進(jìn)行重新訓(xùn)練、重新組合。 另外,某些方法存在魯棒性問題,難以訓(xùn)練。 這些問題目前阻礙了現(xiàn)有定制化NAS方法對(duì)不同任務(wù)的普遍適用性。

相關(guān)閱讀:

Liam Li?

Liam Li是卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系的博士生,在那里他與Ameet Talwalkar合作。 他目前的研究重點(diǎn)是自動(dòng)化機(jī)器學(xué)習(xí)中模型的選擇,研究目標(biāo)是開發(fā)工具和算法,使機(jī)器學(xué)習(xí)的實(shí)踐更簡(jiǎn)單、更容易上手。

Ameet Talwalkar

Ameet Talwalkar是卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系的助理教授。 他還是Determined AI的聯(lián)合創(chuàng)始人兼首席科學(xué)家,這是一家軟件公司,它使機(jī)器學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家的工作效率大大提高。

神經(jīng)元(source: Pixabay)