91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

企業(yè)里的深度學習
企業(yè)在整合和實施深度學習框架時所面臨的機遇和挑戰(zhàn)
編者注:可參看2018年2月27日的webcast “使用人工智能來對抗金融犯罪” 。

深度學習是受到人類大腦啟發(fā)而產(chǎn)生的機器學習(ML)算法的一種。這些算法也被稱為神經(jīng)網(wǎng)絡,它們特別擅長從嘈雜的數(shù)據(jù)和曾經(jīng)對機器完全不透明的數(shù)據(jù)里探測出模式。雖然神經(jīng)網(wǎng)絡的技術細節(jié)可能令數(shù)學和計算機科學博士感到興奮,但該技術的真正意義有更廣泛的吸引力。它代表著邁向真正的自主學習機器的又進一步。

毫不奇怪,這一新的算法浪潮已經(jīng)引起了從機器翻譯到自動駕駛汽車等應用領域的廣泛關注。企業(yè)(而不只是互聯(lián)網(wǎng)的數(shù)字巨頭)已經(jīng)開始使用它來解決各種各樣的問題。先期采用者已經(jīng)在欺詐檢測、制造性能優(yōu)化、預防性維護和推薦引擎等方面展示了(深度學習)高影響力的業(yè)務價值。很明顯這些新的機器智能驅(qū)動的創(chuàng)新有可能在未來五年重新定義各個行業(yè),并產(chǎn)生新的贏家和輸家。

雖然為企業(yè)定制的深度學習框架可以提供重要的價值,但自己構建一個這樣的框架會帶來獨特的挑戰(zhàn)。本文將探討一些企業(yè)在開發(fā)應用此技術時遇到的障礙,克服這些障礙的方法,以及構建和維護深度學習項目時的其他需考慮的事項。具體我們將探討:

?深度學習特殊的硬件和軟件需求(例如GPU)

?解釋模型的新方法

?構建可為深度學習提供服務的數(shù)據(jù)基礎平臺的考慮因素

?在選擇、測試和推廣深度學習模型時進行的自動化

?部署深度學習到生產(chǎn)系統(tǒng)的挑戰(zhàn)和要求

?企業(yè)級專業(yè)知識技能的需求

深度學習需要超強的計算力

應用深度學習的挑戰(zhàn)之一是這樣一個事實:(有時運行在數(shù)百萬個神經(jīng)元節(jié)點的規(guī)模上的)模型是計算密集型的,想要有效地進行模型的訓練需要專門的硬件和軟件資源。

目前,訓練深度學習模型的最佳選擇是GPU(圖形處理單元)。這些專用電路是在游戲行業(yè)被開發(fā)出來的,但特別適用于深度學習所需的浮點并行計算。

這一硬件是在CPU之后重要一步的前進。過去需要幾個月的時間進行模型的訓練,用GPU則只用幾周。但是,使用GPU可能會遇到挑戰(zhàn),因為它們的硬件架構和計算框架與只能工作于CPU架構的軟硬件大不相同。

GPU需要大量工程工作來優(yōu)化軟件和確保高效的并行性、可管理性、可靠性和可移植性。它們還必須與整個分析生態(tài)系統(tǒng)的其他部分集成在一起,因為某些學習會在CPU和GPU架構中都會發(fā)生。只通過GPU擴展模型可能非常棘手,因此需要智能地路由流量的設計以便高效地使用這兩種架構。

使用LIME來逐步接近模型的可解釋性

除了密集的計算需求之外,使用神經(jīng)網(wǎng)絡的另一個獨特挑戰(zhàn)是它們偶爾的不可探知性。神經(jīng)網(wǎng)絡使用隱藏層,從而將機器用于制定決策的信息解耦。深度學習的模型像黑盒子一樣工作,因為幾乎不可能了解到它們的內(nèi)部運作方式。這就導致了信任的問題,因為在一些行業(yè)里,可解釋性是強制要求的。

例如,歐洲的金融機構必須遵守歐盟的《通用數(shù)據(jù)保護條例(GDPR)》。該條例會對無法解釋客戶數(shù)據(jù)如何被使用的公司施加嚴厲的財務處罰。在這種情況下,告訴客戶他們的金融交易被拒絕是因為模型的決定的是不可能的,也是非法的。除了符合法規(guī)之外,利益相關者往往需要被告知決策是如何被制定的,從而能決定是否支持決策的行動。

盡管離真正解決可解釋性還很遠,但已經(jīng)有了一些方法可以讓企業(yè)解決模型可解釋性的問題。一種是被稱為局部可理解的與模型無關的解釋(LIME)的方法,這是華盛頓大學開發(fā)的一個開源的研究成果。LIME揭示了在決策時觸發(fā)算法的特定變量,并以人類可讀的方式生成該信息。例如在欺詐的場景下,了解這些信息可以從監(jiān)管的角度提供安全保護,并幫助企業(yè)了解欺詐行為發(fā)生的方式和原因。

隨著研究人員試圖解決解釋性問題并完善深度學習必須的硬件,新的創(chuàng)新正在快速發(fā)展。但即使存在這些缺點,在企業(yè)中使用這種技術的收益可能很大。不過在正式部署模型之前,企業(yè)還必須擁有恰當?shù)臄?shù)據(jù)平臺。

為深度學習構建一個數(shù)據(jù)基礎(平臺)

投資構建一個強大的數(shù)據(jù)和分析基礎系統(tǒng)是深度學習項目的第一步。事實上,深度學習項目的成功取決于數(shù)據(jù),這些數(shù)據(jù)必須是干凈、高可用且可靠的。過時的、不完整或不準確的數(shù)據(jù)會讓模型產(chǎn)生不正確的預測,這樣的代價是昂貴的并可能導致整個項目失敗。

雖然不像深度學習的其他部分那么令人興奮,但深度學習項目的大部分工作是在在這個數(shù)據(jù)基礎系統(tǒng)里完成的——讓數(shù)據(jù)可以被訪問,確保數(shù)據(jù)類型是正確的,修復和準確度相關的問題,并開發(fā)能幫助模型應用于正式環(huán)境的系統(tǒng)。

一旦模型被部署到生產(chǎn)系統(tǒng),就需要能實時地解決數(shù)據(jù)集成問題。流式數(shù)據(jù)的導入必須是高可用和高可靠的,且計算特征的延遲要短。與此同時,批量數(shù)據(jù)的導入需要支持大規(guī)模,并與數(shù)據(jù)管道和存儲系統(tǒng)集成。

該系統(tǒng)還必須能夠快速迭代。特征準備需要能與模型訓練同步,要有相同的邏輯、延遲和前向兼容。對于所有的數(shù)據(jù)源和特征,必須確保它們的可見性和可追溯性,并將數(shù)據(jù)質(zhì)量和管理與監(jiān)控系統(tǒng)相結(jié)合。

越來越多的企業(yè)數(shù)據(jù)分布在混合云環(huán)境以及不同的存儲格式上。駐留在公共云中的數(shù)據(jù)、企業(yè)內(nèi)部數(shù)據(jù)和存儲在于不同類型的對象和文件存儲系統(tǒng)中的數(shù)據(jù)之間必須要建立起連接。

雖然面臨很多挑戰(zhàn),但這些依然可控。可以通過開發(fā)系統(tǒng)來持續(xù)監(jiān)控數(shù)據(jù),讓項目的團隊知道數(shù)據(jù)從何而來,不管是現(xiàn)在還是過去的數(shù)據(jù),都知道如何重現(xiàn)它們。一旦這個數(shù)據(jù)基礎及其監(jiān)控系統(tǒng)到位,就可以利用它進行深入學習實踐,并可以將它用于其他領域。

自動化深度學習模型的選擇和訓練

大多數(shù)(如果不是全部的話)用于深度學習的軟件框架都是開源的項目,任何人都可以免費下載和試用。其中,2015年由谷歌開源的TensorFlow是市場的領導者。

可以在這些深度學習框架之上運行許多不同的神經(jīng)網(wǎng)絡類別,例如前饋網(wǎng)絡、生成對抗網(wǎng)絡深層信念網(wǎng)絡深度卷積網(wǎng)絡。由于新型深度學習模型繼續(xù)以驚人的速度出現(xiàn),持續(xù)更新這個清單是幾乎不可能的?;谀阕约旱氖褂脠鼍?,選擇特定神經(jīng)網(wǎng)絡體系架構的最佳實踐是存在的。但是,測試是無可替代的。深度學習是一門實驗學科,而不是理論學科。

一旦模型通過自動過程(分析運營??方法論)完成訓練和驗證,應先部署到一個預生產(chǎn)環(huán)境里。在預生產(chǎn)環(huán)境中可以再對模型進行調(diào)整或重新訓練。使用分析運營流程方法論的好處還包括,可以讓利益相關方在模型被部署到生產(chǎn)環(huán)境自動運行之前熟悉模型。

生產(chǎn)系統(tǒng)上的深度學習模型需要考慮的事項

與所有其他類型的機器學習模型類似,深度學習模型的全生命周期(從開發(fā)到測試,發(fā)布到預生產(chǎn),再發(fā)布到生產(chǎn))都需要被監(jiān)控和并能自動化的再訓練。在某些情況下,還應該能夠有從預生產(chǎn)到生產(chǎn)系統(tǒng)的灰度部署(通常通過A / B測試框架完成)。

還應考慮再訓練的策略。在某些情況下,傳統(tǒng)的機器學習相比深度學習可能能夠更快地被再次訓練。特別是當深度學習模型已經(jīng)在海量數(shù)據(jù)中訓練并且新數(shù)據(jù)不會提供太多差異時(例如,一個模型用數(shù)十億人和汽車的圖像訓練過了)。通過現(xiàn)場測試來識別何時該模型的預測與基于人類專業(yè)知識的預期相一致也很重要。如果情況并非如此(不一致),那么應該再次通過分析運營流程開始自動再訓練的工作。

例如,推薦引擎能向購物者展示不同的選擇,但需要有一個機制來監(jiān)控它,以確保購物者對推薦的物品的響應是正面的。同時,還應該能夠在全部數(shù)據(jù)的一定比例范圍內(nèi)部署新的推薦引擎,并將其性能與另外一個推薦引擎的性能進行實時比較。

上面這些都不容易完成。實際上,由于規(guī)模和管理方面的復雜性不可預測,許多深度學習項目的最終歸宿都是數(shù)據(jù)科學實驗。由于存在如此多的陷阱,建立一個熟悉生產(chǎn)環(huán)境里深度學習挑戰(zhàn)的團隊非常重要。不幸的是,具有這種知識的人(目前)很難在谷歌和臉書等公司以外找到。

人才的匱乏

目前深度學習的專業(yè)人才很稀缺且昂貴。雖然許多聰明人能夠自學神經(jīng)網(wǎng)絡并使用云API進行模型實驗,但很難找到具有在企業(yè)環(huán)境中大規(guī)模部署深度學習經(jīng)驗的工程師。在福布斯最近一篇關于人工智能的文章中,Diego Klabjan說:“人工智能開發(fā)的人才庫很小,以可承受的、可持續(xù)的速度在一個組織中獲得這種腦力資源會很難?!?/p>

這一切將隨著深度學習領域的發(fā)展而變化,同時深度學習將證明其在更多行業(yè)和業(yè)務場景中的價值。同時,克服這種知識差距的一種方法是與知道需要避免哪種錯誤的有經(jīng)驗的合作伙伴合作。雖然等到深度學習領域成熟后再行動會很有誘惑力,但這樣做可能會導致落后于人。

利用深度學習進行變革性轉(zhuǎn)變

部署深度學習與采用其他類型的軟件不同,它可能涉及大規(guī)模決策的自動化,并且是顛覆性的。這就要求企業(yè)重新考慮在部署之前涉及的流程。

這是必須的,因為深度學習不僅僅是通常的分析型附加業(yè)務。這些數(shù)據(jù)產(chǎn)品必須成為業(yè)務的組成部分,讓企業(yè)通過利用其數(shù)據(jù)的強大能量并自動采取行動來推動組織變革。

隨著深度學習領域的不斷成熟,成功部署深度學習的企業(yè)將看到更安全的產(chǎn)品、更滿意的客戶、更高效的運營以及其他幾十個相關應用場景所帶來的紅利。部署深度學習需要深思熟慮的投資(很大的)、跨職能協(xié)作和大量測試,但這些付出是值得的。如果企業(yè)準備好了,深度學習可以帶來變革。

這篇博文是O’ReillyTeradata的合作產(chǎn)物。請閱讀我們的編輯獨立聲明。

Emily Drevets

Emily Drevets之前是BrightTALK的數(shù)據(jù)科學和大數(shù)據(jù)內(nèi)容的負責人。她目前住在芝加哥,在那里她是一名作家,在晚上她就變成即興創(chuàng)作的自我。她只吃過芝加哥式的熱狗兩次。

Network structure (source: Denys Nevozhai on Unsplash)