遮天辰东小说,欢乐颂小说txt,yy玄幻小说排行榜完本

把深度學(xué)習(xí)用于你已有的數(shù)據(jù)

運(yùn)用新的工具和框架把深度學(xué)習(xí)用于實(shí)際工作，以及未來的開發(fā)中。

Ben Lorica, 2017年1月18日

編者注：更多內(nèi)容可以參考Strata北京2017的相關(guān)議題。

在過去的幾年里，深度學(xué)習(xí)取得了顯著的進(jìn)步。盡管企業(yè)的經(jīng)理們已經(jīng)意識(shí)到了學(xué)術(shù)界里正在發(fā)生的事情，但我們依然處于將研究引入到實(shí)際工作的早期階段。雖然對(duì)于深度學(xué)習(xí)的主要興趣還是來自于它在計(jì)算機(jī)視覺和語音上的應(yīng)用，但是很多企業(yè)其實(shí)已經(jīng)可以把深度學(xué)習(xí)用于他們已有的數(shù)據(jù)上，包括結(jié)構(gòu)化的數(shù)據(jù)、文本和時(shí)間序列數(shù)據(jù)等。

對(duì)于深度學(xué)習(xí)的狂熱已經(jīng)帶來了越來越多的工具和框架，其中就包括一些專門為已經(jīng)使用其他的機(jī)器學(xué)習(xí)的非專家人士所設(shè)計(jì)的。不少設(shè)備也已經(jīng)能使用這些技術(shù)，因此我們可預(yù)見具有智能的流式應(yīng)用的出現(xiàn)。最后，已經(jīng)有非常多的有趣的研究項(xiàng)目正在研究針對(duì)未來的神經(jīng)網(wǎng)絡(luò)，它們具有不同的特點(diǎn)和更強(qiáng)的模型構(gòu)建能力。

回到機(jī)器學(xué)習(xí)

如果你把深度學(xué)習(xí)看成是另外一種機(jī)器學(xué)習(xí)的方法，那么你對(duì)它的基本組成部分都應(yīng)該是很熟悉的。部署和維護(hù)模型的軟件架構(gòu)依然是根本。一篇廣為引用的谷歌的論文使用了“技術(shù)負(fù)債”這個(gè)概念來指出“現(xiàn)實(shí)世界里的機(jī)器學(xué)習(xí)系統(tǒng)中只有一部分是真正的機(jī)器學(xué)習(xí)的代碼”。這意味著盡管底層的算法是很重要，但它們也僅僅只是一個(gè)復(fù)雜的生產(chǎn)系統(tǒng)里的一個(gè)小部分。正如論文的作者指出的，機(jī)器學(xué)習(xí)系統(tǒng)也必須解決機(jī)器學(xué)習(xí)相關(guān)的特定關(guān)聯(lián)和依賴問題，比如數(shù)據(jù)、特征、超參數(shù)、模型和模型的設(shè)置（作者稱此為CACE原則：改一點(diǎn)即改全部）。

深度學(xué)習(xí)也通常意味著訓(xùn)練模型所需的專門的硬件（如GPU）。對(duì)于已經(jīng)使用SaaS（軟件即服務(wù)）工具的公司，很多云服務(wù)商已經(jīng)提供了支持深度學(xué)習(xí)的軟硬件解決方案。像BigDl這樣較新的工具已經(jīng)出現(xiàn)了，針對(duì)特定的一些公司。這些公司喜歡的工具就是要能和流行的工具（比如Apache Spark）無縫集成，并充分利用已有的大數(shù)據(jù)集群、模型服務(wù)和監(jiān)控平臺(tái)。

不過你還是需要（打過標(biāo)簽的）數(shù)據(jù)，事實(shí)上是需要更多的數(shù)據(jù)。深度學(xué)習(xí)的專家把這個(gè)情況比喻成是一個(gè)需要巨型發(fā)動(dòng)機(jī)（模型）的火箭，需要使用大量的燃料（數(shù)據(jù)）來到達(dá)任何想去的地方。（很多場景里，數(shù)據(jù)已經(jīng)存儲(chǔ)在集群里了。因此很多公司都在尋找那些可以運(yùn)行在它們已有的工具上的解決方案。）想獲得干凈并打過標(biāo)簽的數(shù)據(jù)就意味著需要數(shù)據(jù)分析師能結(jié)合行業(yè)知識(shí)，并與基礎(chǔ)設(shè)施工程師們合作，來共同設(shè)計(jì)和維護(hù)一個(gè)魯棒的數(shù)據(jù)處理平臺(tái)。在近期的一次對(duì)話里，和我聊天的一位專家就開玩笑說，隨著這些在軟件架構(gòu)和機(jī)器學(xué)習(xí)模型的改進(jìn)，“很快，所有的公司需要雇傭的人就只是那些能產(chǎn)生好的數(shù)據(jù)的分析師了”。去除掉這里面的玩笑部分，實(shí)際情況是更加得微妙。例如很多的公司已經(jīng)在開發(fā)和部署“人機(jī)互動(dòng)”的系統(tǒng)，有時(shí)也被叫做“人類增強(qiáng)的人工智能”或是“主動(dòng)學(xué)習(xí)系統(tǒng)”。這些系統(tǒng)能夠?qū)⑿袠I(yè)專家和數(shù)據(jù)科學(xué)家的工作結(jié)合起來。

這種情況對(duì)于深度學(xué)習(xí)而言更是如此。相比其他的機(jī)器學(xué)習(xí)技術(shù)，設(shè)置和修改深度學(xué)習(xí)的模型需要經(jīng)驗(yàn)和專業(yè)技能。幸運(yùn)的是，很多流行的框架都自帶樣例模型，而這些模型對(duì)多種類型的數(shù)據(jù)和多領(lǐng)域的問題都能有比較好的效果。至少在初始階段，使用由領(lǐng)先的云服務(wù)商提供的打包的解決方案和可管理的服務(wù)都比自己雇傭?qū)＜乙o迫。我認(rèn)為很多公司將只需要很少的真正的深度學(xué)習(xí)專家就能先對(duì)付過去。而一個(gè)更合理的選擇是雇傭那些有很強(qiáng)軟件工程技能的數(shù)據(jù)科學(xué)家。他們能夠部署機(jī)器學(xué)習(xí)的模型，還能理解模型評(píng)估里的細(xì)微差別。

另外一個(gè)對(duì)于深度學(xué)習(xí)常見的疑問就是深度學(xué)習(xí)模型的特點(diǎn)。生成的預(yù)測是因?yàn)橄嚓P(guān)性還是一些因果關(guān)系？深度學(xué)習(xí)的架構(gòu)對(duì)于非專家（甚至專家）而言都是臭名昭著的難以理解和解釋。常見的模型包括上百萬的參數(shù)。為什么深度學(xué)習(xí)在模式識(shí)別上工作的這么出色的確切原因是目前的一個(gè)熱門研究領(lǐng)域（近期的一篇論文發(fā)現(xiàn)，很多成功的深度學(xué)習(xí)架構(gòu)都靠“全記憶”來表現(xiàn)的很好）。然而很多公司只會(huì)在深度學(xué)習(xí)的模型能大幅度提升業(yè)務(wù)指標(biāo)的情況下才會(huì)部署應(yīng)用它。一些應(yīng)用和行業(yè)會(huì)要求模型必須能被解釋，不過幸運(yùn)的是，已經(jīng)有一些研究來試圖讓機(jī)器學(xué)習(xí)的模型更容易被理解。企業(yè)應(yīng)該參與的另外一個(gè)有趣的常見討論就是算法的可信賴度（Tim O’Reilly有一個(gè)很好的列表）。

展望有限的人工智能系統(tǒng)，近期的激動(dòng)人心的成果都涉及到了一些系統(tǒng)。這些系統(tǒng)組合了深度學(xué)習(xí)和額外的一些技術(shù)（增強(qiáng)學(xué)習(xí)、概率計(jì)算等）和組件（內(nèi)存、知識(shí)、預(yù)測和計(jì)劃）。我相信這些系統(tǒng)對(duì)于典型的企業(yè)而言都很復(fù)雜，而能構(gòu)建特定應(yīng)用的公司就充滿機(jī)會(huì)。對(duì)于正在引入和部署機(jī)器學(xué)習(xí)的企業(yè)而言，一個(gè)更合理的起點(diǎn)則是將深度學(xué)習(xí)和其他的算法一起使用。將你的模型結(jié)合多臂強(qiáng)盜算法，你就可以宣稱你正在向著增強(qiáng)學(xué)習(xí)前進(jìn)。

物聯(lián)網(wǎng)（IoT）和邊緣智能

盡管人們經(jīng)常認(rèn)為深度學(xué)習(xí)對(duì)于文本、圖像和語言更有用，但我也看到了一些企業(yè)正在使用深度學(xué)習(xí)來分析時(shí)間序列數(shù)據(jù)和事件數(shù)據(jù)。巧合的是，一些人工智能令人激動(dòng)的例子就涉及到了能大量產(chǎn)生這樣數(shù)據(jù)的系統(tǒng)和設(shè)備。例如，自動(dòng)駕駛汽車的傳感器可以獲取遠(yuǎn)比我們意識(shí)到的多得多的數(shù)據(jù)。這些數(shù)據(jù)的量是如此之大，以至于分析技術(shù)必須先被用于過濾、壓縮和總結(jié)這些數(shù)據(jù)，然后再把它們上傳到大規(guī)模的（云）平臺(tái)。

未來的一種場景則是大量的智能設(shè)備之間相互交互（是時(shí)候溫習(xí)一下P2P系統(tǒng)了）。這提醒了我之前在和RISE實(shí)驗(yàn)室的創(chuàng)建人的對(duì)話中談到的一些思考。未來流式計(jì)算系統(tǒng)將必須和在線機(jī)器學(xué)習(xí)相配合，不僅只是做模型訓(xùn)練，還要用來做數(shù)據(jù)處理和收集。安全性和安全的運(yùn)行環(huán)境將鼓勵(lì)數(shù)據(jù)的共享，從而增進(jìn)“個(gè)性化”，并能釋放更多數(shù)據(jù)源的價(jià)值。

研究方向：像人一樣思考的機(jī)器

深度學(xué)習(xí)和人工智能領(lǐng)域正在快速發(fā)展。跟上它們的步伐是很難的。近期的一篇綜述調(diào)研論文總結(jié)了人類智能的核心部分，并用它作為一框架來組織近期深度學(xué)習(xí)方面的研究成果。我發(fā)現(xiàn)下面的這個(gè)分類系統(tǒng)很有用，可以較好地理解正在進(jìn)展的各式各樣的研究方向。本質(zhì)上，人類“學(xué)習(xí)自較少的數(shù)據(jù)，然后用更豐富和靈活的方法來泛化總結(jié)”。而使用深度學(xué)習(xí)的人工智能系統(tǒng)應(yīng)該具有相似的能力。按照這個(gè)邏輯，作者列舉了一些未來人工智能產(chǎn)品里可能會(huì)出現(xiàn)的能力：

通過組件化來快速構(gòu)建模型（能組合一系列原始計(jì)算是高產(chǎn)出的核心）和學(xué)習(xí)如何學(xué)習(xí)（通過轉(zhuǎn)換和多任務(wù)學(xué)習(xí)來加速學(xué)習(xí)新任務(wù)）。
系統(tǒng)具有一些構(gòu)建因果關(guān)系的能力，并能從更少的樣本里學(xué)習(xí)（從而讓人工智能產(chǎn)品更容易被解釋和理解）。
研究人員正在從兒童的快速和高效的學(xué)習(xí)過程里得到靈感，研究組合一些起步知識(shí)的重要性。
研究人員正在研究一些可以使用“工作記憶（短期記憶）”的深度學(xué)習(xí)模型。

現(xiàn)有的很多基于深度學(xué)習(xí)的系統(tǒng)都需要好的計(jì)算機(jī)、大量的數(shù)據(jù)和復(fù)雜的模型。研究人員正在構(gòu)建更少依賴于大規(guī)模模式識(shí)別的工具，而企業(yè)則希望能把深度學(xué)習(xí)作為一種機(jī)器學(xué)習(xí)的技術(shù)，能通過一些工具將它和已有的大數(shù)據(jù)平臺(tái)結(jié)合在一起使用。

Ben Lorica

Ben Lorica是O’Reilly傳媒集團(tuán)的首席數(shù)據(jù)科學(xué)家和數(shù)據(jù)主題內(nèi)容策略的主管。他已經(jīng)在多個(gè)領(lǐng)域里（包括直銷市場、消費(fèi)者和市場研究、精準(zhǔn)廣告、文本挖掘和金融工程）進(jìn)行了商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析的工作。他之前曾效力于投資管理公司、互聯(lián)網(wǎng)創(chuàng)業(yè)企業(yè)和金融服務(wù)公司。