在這一集的數(shù)據(jù)秀里,我采訪了英特爾的大數(shù)據(jù)技術(shù)CTO和Strata + Hadoop World北京大會的聯(lián)合主席Jason Dai。Dai和他的團(tuán)隊(duì)是Apache Spark項(xiàng)目的長期多產(chǎn)貢獻(xiàn)者。他們對Spark項(xiàng)目早期的主要貢獻(xiàn)是系統(tǒng)層面的,包括基于Netty的shuffle、公平調(diào)度器和yarn-client運(yùn)行模式。近期,他們主要貢獻(xiàn)了一些高級分析所用的工具。在與中國的主要云服務(wù)商結(jié)成合作伙伴關(guān)系后,他們已經(jīng)實(shí)現(xiàn)了一些算法的基礎(chǔ)模塊和機(jī)器學(xué)習(xí)的模型,這些部分使得Apache Spark可以擴(kuò)展處理極高維度的模型和超大數(shù)據(jù)集。他們是通過使用諸如“數(shù)據(jù)稀疏性”和英特爾的MKL軟件來實(shí)現(xiàn)這個可擴(kuò)展性的。在取得這些成就的過程中,他們對于企業(yè)如何在真實(shí)應(yīng)用里部署機(jī)器學(xué)習(xí)模型獲得了寶貴的經(jīng)驗(yàn)和洞察。
在我預(yù)測2017年將會是大數(shù)據(jù)與數(shù)據(jù)科學(xué)領(lǐng)域開始認(rèn)真探索諸如深度學(xué)習(xí)這樣的技術(shù)的一年時,我是依據(jù)與這個領(lǐng)域的多位專家溝通后作出的。我也了解到Dai和他的團(tuán)隊(duì)為Apache Spark的深度學(xué)習(xí)庫做出了貢獻(xiàn)。從貢獻(xiàn)基礎(chǔ)架構(gòu)到機(jī)器學(xué)習(xí)應(yīng)用,再到現(xiàn)在的基于深度學(xué)習(xí)的應(yīng)用,他的團(tuán)隊(duì)的整個演化過程是可以預(yù)測的。
一旦有了一個平臺和團(tuán)隊(duì)可以讓你部署機(jī)器學(xué)習(xí)的模型,很自然地你會開始探索深度學(xué)習(xí)。正如我在最近的數(shù)據(jù)秀的一集里指出的,企業(yè)正在開始應(yīng)用深度學(xué)習(xí)技術(shù)到時間序列數(shù)據(jù)、事件數(shù)據(jù)、文本和圖像數(shù)據(jù)上。其中的大部分企業(yè)已經(jīng)在大數(shù)據(jù)技術(shù)(大部分都是開源的)上進(jìn)行了投入,并雇傭了數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師,而且這些人對于這些大數(shù)據(jù)工具都很熟悉。
盡管有很多可用的深度學(xué)習(xí)的庫、云服務(wù)和打包的解決方案可用,部署深度學(xué)習(xí)通常會涉及到海量(標(biāo)記過的)數(shù)據(jù)、超大的模型和大型計(jì)算。因此一個典型的深度學(xué)習(xí)項(xiàng)目都會涉及到在Spark集群上進(jìn)行數(shù)據(jù)獲取、預(yù)處理和準(zhǔn)備,并在多GPU服務(wù)器上的進(jìn)行模型訓(xùn)練。
一個新的被稱為BigDL的項(xiàng)目提供了另外一種選擇:即直接把深度學(xué)習(xí)引入大數(shù)據(jù)生態(tài)系統(tǒng)。BigDL是為Apache Spark開發(fā)的開源的、分布式的深度學(xué)習(xí)庫。它有著與現(xiàn)有流行的深度學(xué)習(xí)框架(如Torch和Caffe,BigDL參考了Torch的模型)相一致的特征。對于許多已經(jīng)有數(shù)據(jù)在Hadoop/Spark集群上的企業(yè)而言,BigDL可以讓它們在已有的相同的集群上使用深度學(xué)習(xí)。

來源:Jason Dai授權(quán)使用
對于需要在Spark集群上進(jìn)行數(shù)據(jù)預(yù)處理和準(zhǔn)備并在裝配多個GPU服務(wù)器上進(jìn)行模型訓(xùn)練的典型的深度學(xué)習(xí)任務(wù),現(xiàn)在可以只用一個簡單的Spark庫,并運(yùn)行在進(jìn)行數(shù)據(jù)預(yù)處理和準(zhǔn)備的相同的集群上。BigDL利用了MKL軟件,并能讓你高效地在集群上訓(xùn)練更大的模型(使用分布的、同步小批次的隨機(jī)梯度下降法,SGD)。同時它提供的AMI(亞馬遜機(jī)器鏡像)可以被用來在亞馬遜的AWS上部署和嘗試使用BigDL。
對于處于學(xué)術(shù)前沿的研究人員而言,GPU還是能提供更快的訓(xùn)練深度學(xué)習(xí)模型的速度。不過對于那些已經(jīng)在大數(shù)據(jù)集群的軟硬件上已經(jīng)有了投入的企業(yè),BigDL就有吸引力了(方便vs性能)。這對于使用云計(jì)算資源的企業(yè)而言就更是如此了。甚至是對于已經(jīng)投資CPU多于GPU的公有云服務(wù)商而言,BigDL也是有吸引力的。
大量數(shù)據(jù)產(chǎn)品都有非常復(fù)雜的數(shù)據(jù)管道部分,而機(jī)器學(xué)習(xí)建模僅僅只是整個系統(tǒng)中很小的一個組成部分。我可以預(yù)見,BigDL會吸引一些企業(yè),因?yàn)樗鼛砹耸褂媒y(tǒng)一的基礎(chǔ)平臺來進(jìn)行數(shù)據(jù)處理、存儲、特征工程、分析、機(jī)器學(xué)習(xí)和現(xiàn)在的深度學(xué)習(xí)的可能性。這意味著不需要在集群和框架(BigDL僅僅是一個Spark的庫)間傳輸數(shù)據(jù)、更低的端到端的訓(xùn)練時間和更簡單的資源與工作流管理。實(shí)際上,這也就是BigDL產(chǎn)生的原因:在了解到多家中國的企業(yè)對于使用已有的硬件和計(jì)算資源來進(jìn)行深度學(xué)習(xí)項(xiàng)目的有興趣后,這個團(tuán)隊(duì)就決定搞這么一個東西出來。
2016年底,BigDL作為一個開源項(xiàng)目被發(fā)布。在發(fā)布前的幾個月期間,Dai和他的團(tuán)隊(duì)已經(jīng)幫助了一些企業(yè)在他們的由幾十個賽揚(yáng)服務(wù)器組成的Spark集群的生成系統(tǒng)上部署使用了BigDL。早期的使用案例包括一個大型支付公司和一家大型商業(yè)銀行里使用的欺詐檢測系統(tǒng),以及在多家大型制造企業(yè)里使用的圖像分類和物體識別應(yīng)用。
目前我們還是處于將深度學(xué)習(xí)引入企業(yè)的機(jī)器學(xué)習(xí)模型庫的非常早期的階段。我預(yù)計(jì)企業(yè)還會持續(xù)地對各種各樣的深度學(xué)習(xí)的可管理的服務(wù)、專利和開源工具進(jìn)行試驗(yàn)。對于那些希望能充分利用已有的大數(shù)據(jù)基礎(chǔ)設(shè)施和方便已經(jīng)熟悉這些框架的團(tuán)隊(duì)采用深度學(xué)習(xí)的企業(yè)而言,BigDL提供了一種選擇。采用BigDL還有經(jīng)濟(jì)上的好處。即除了使用已經(jīng)在用的工具所帶來的方便性之外,還能通過降低復(fù)雜性和增加現(xiàn)有設(shè)施的使用率來獲得更低的總所有成本(TCO,Total Cost of Ownership)。
Strata + Hadoop World北京2017大會的議題征集即將在2017年2月24日截止。
相關(guān)資料
- 《在Apache Spark上的互聯(lián)網(wǎng)規(guī)模的機(jī)器學(xué)習(xí)》:Jason Dai在2016年Strata新加坡大會上的演講
- BigDL(深度學(xué)習(xí))、SparseML(稀疏數(shù)據(jù)集上的機(jī)器學(xué)習(xí))和主題模型的代碼
- 2017年將會是大數(shù)據(jù)與數(shù)據(jù)科學(xué)領(lǐng)域開始探索使用人工智能技術(shù)的一年
- 為大型企業(yè)構(gòu)建深度學(xué)習(xí)解決方案的關(guān)鍵點(diǎn)
- 把深度學(xué)習(xí)用于你已有的數(shù)據(jù)
- 大型計(jì)算如何推動深度學(xué)習(xí)的火箭
訂閱O’Reilly數(shù)據(jù)秀播客,探索推動大數(shù)據(jù)、數(shù)據(jù)科學(xué)及人工智能的機(jī)遇和技術(shù)??梢栽?iTunes,?Stitcher,?TuneIn,?SoundCloud,?RSS?找到我們。
Ben Lorica
Ben Lorica是O’Reilly Media的首席數(shù)據(jù)科學(xué)家和數(shù)據(jù)主題內(nèi)容策略的主管。他已經(jīng)在多個領(lǐng)域里(包括直銷市場、消費(fèi)者和市場研究、精準(zhǔn)廣告、文本挖掘和金融工程)進(jìn)行了商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析的工作。他之前曾效力于投資管理公司、互聯(lián)網(wǎng)創(chuàng)業(yè)企業(yè)和金融服務(wù)公司。


