盗墓笔记小说txt下载,已完结小说排行榜,好看的小说君子以泽

應(yīng)用數(shù)據(jù)科學(xué)的現(xiàn)狀

近期觀察機(jī)器學(xué)習(xí)實(shí)際應(yīng)用的趨勢(shì)和對(duì)關(guān)鍵瓶頸的探討

Ben Lorica, 2017年8月24日

編者注：想了解更多的近期數(shù)據(jù)科學(xué)的實(shí)際運(yùn)用的趨勢(shì)，請(qǐng)參考Strata Data紐約大會(huì)里的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)主題。
同時(shí)也請(qǐng)關(guān)注2018年4月10-13日人工智能北京大會(huì)。

現(xiàn)在已經(jīng)進(jìn)入2017年的下半年，是時(shí)候來看看對(duì)使用數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)（ML）有興趣的企業(yè)所面臨的常見挑戰(zhàn)了。讓我們假定你的機(jī)構(gòu)已經(jīng)收集了足夠大的數(shù)據(jù)來為引入數(shù)據(jù)分析工具做辯護(hù)，而且你也已經(jīng)識(shí)別出和確定了數(shù)據(jù)科學(xué)可以扮演變革力量的使用場(chǎng)景（包括改進(jìn)決策制定、業(yè)務(wù)運(yùn)營和提升銷售額等等）的優(yōu)先級(jí)。數(shù)據(jù)收集和識(shí)別有趣的問題不是無足輕重的，不過假定你在這些方面已經(jīng)有了一個(gè)不錯(cuò)的開始，那么后續(xù)的挑戰(zhàn)是什么哪？

數(shù)據(jù)科學(xué)是一個(gè)很大的題目，因此我這里給一個(gè)免責(zé)聲明：這篇博文主要是關(guān)于當(dāng)前使用監(jiān)督機(jī)器學(xué)習(xí)的，其內(nèi)容來自于過去幾個(gè)月里的一系列對(duì)話。對(duì)于人工智能系統(tǒng)，我會(huì)在后續(xù)的博文里更多地討論，這樣的系統(tǒng)明顯不僅僅依賴于監(jiān)督學(xué)習(xí)。

一切都始于（訓(xùn)練）數(shù)據(jù)

即便假定你已經(jīng)有了一個(gè)團(tuán)隊(duì)來處理數(shù)據(jù)收集和整理，并有一個(gè)團(tuán)隊(duì)來維護(hù)數(shù)據(jù)平臺(tái)（“真實(shí)的來源”），新的數(shù)據(jù)源還是會(huì)持續(xù)出現(xiàn)，而行業(yè)專家有責(zé)任來強(qiáng)調(diào)它們的存在。更進(jìn)一步，因?yàn)槲覀冎饕顷P(guān)注監(jiān)督學(xué)習(xí)，毫不驚訝的發(fā)現(xiàn)是缺乏訓(xùn)練數(shù)據(jù)依然是機(jī)器學(xué)習(xí)項(xiàng)目的最主要的瓶頸。

已經(jīng)出現(xiàn)了一些好的研究項(xiàng)目和工具來快速地創(chuàng)建大型訓(xùn)練數(shù)據(jù)集（或是增強(qiáng)現(xiàn)有的）。斯坦福大學(xué)的研究人員已經(jīng)展示了可以使用弱監(jiān)督和數(shù)據(jù)編程在沒法得到大量人工標(biāo)注的訓(xùn)練數(shù)據(jù)的情況下來訓(xùn)練模型。生成模型（來自深度學(xué)習(xí)研究人員）的初步工作已經(jīng)顯示了在計(jì)算機(jī)視覺和其他領(lǐng)域使用無監(jiān)督學(xué)習(xí)能產(chǎn)生有希望的結(jié)果。

格言“關(guān)注特征而不是算法”是另外一個(gè)有用的方法，可以在機(jī)器學(xué)習(xí)的場(chǎng)景里評(píng)估數(shù)據(jù)。這里有一個(gè)有情提示：數(shù)據(jù)增強(qiáng)可以提升你現(xiàn)有的模型的表現(xiàn)。在某些情況下，這甚至可以幫助解決冷啟動(dòng)的問題。大部分?jǐn)?shù)據(jù)科學(xué)家可能已經(jīng)使用來自公開或是第三方數(shù)據(jù)提供商的數(shù)據(jù)來增強(qiáng)他們自己的數(shù)據(jù)。但我的發(fā)現(xiàn)是有時(shí)數(shù)據(jù)增強(qiáng)被忽視了。獲取外部數(shù)據(jù)，正則化它，然后用它來進(jìn)行試驗(yàn)，這些活動(dòng)一般不如開發(fā)模型和算法那樣被覺得有魅力。

完成從原型到產(chǎn)品

在很多業(yè)務(wù)場(chǎng)景里，目標(biāo)是產(chǎn)品化一個(gè)數(shù)據(jù)科學(xué)項(xiàng)目。我們已經(jīng)指出機(jī)器學(xué)習(xí)工程師作為一個(gè)新的工作角色近期已經(jīng)開始出現(xiàn)來實(shí)現(xiàn)這一過程。另外也有新的工具集來幫助讓從原型到產(chǎn)品的過渡更容易，同時(shí)也幫助跟蹤與分析產(chǎn)品相伴隨的上下文和元數(shù)據(jù)。

我們依然處于把機(jī)器學(xué)習(xí)部署到產(chǎn)品里的早期階段。相應(yīng)的最佳實(shí)踐也剛剛開始出現(xiàn)。伴隨著先進(jìn)的分析模型得到廣泛地使用，下述幾點(diǎn)需要被關(guān)注，包括：

部署的環(huán)境：你將有可能需要和現(xiàn)有的日志或A/B測(cè)試設(shè)施進(jìn)行集成。除了能部署一個(gè)魯棒和表現(xiàn)好的模型到服務(wù)器上以外，環(huán)境問題還擴(kuò)大到如何以及何時(shí)把模型部署到邊緣設(shè)備上（移動(dòng)設(shè)備是一個(gè)常見的例子）。已經(jīng)有一些新的可以部署模型到邊緣設(shè)備的工具和策略。
規(guī)模、延遲和更新：訓(xùn)練模型需要多少數(shù)據(jù)？模型進(jìn)行推斷的響應(yīng)時(shí)間為多少是合理的？多久模型應(yīng)該被再次訓(xùn)練并且訓(xùn)練數(shù)據(jù)集需要被更新？后者意味著你已經(jīng)有可再生的數(shù)據(jù)管道就位了。
偏移：如果你的訓(xùn)練數(shù)據(jù)已經(jīng)不能代表當(dāng)前的總體樣本了，你將得到很糟的（甚至是不公平的）結(jié)果。在某些情況下，你可能可以使用傾向評(píng)分或其他的方法來相應(yīng)地調(diào)整你的數(shù)據(jù)集。
監(jiān)控模型：我認(rèn)為人們低估了監(jiān)控模型的重要性，而這就是那些有統(tǒng)計(jì)學(xué)背景的人有競爭優(yōu)勢(shì)的地方。發(fā)現(xiàn)何時(shí)模型的表現(xiàn)降低了以及已經(jīng)降低了多少是很棘手的。在分類的場(chǎng)景里，一種策略是比較模型預(yù)測(cè)的類別的分布和觀察到的預(yù)測(cè)的類別的分布。也可能你的業(yè)務(wù)目標(biāo)和用來評(píng)估機(jī)器學(xué)習(xí)模型的指標(biāo)是非常不同的。比如，一個(gè)推薦系統(tǒng)可能是被用來幫助提升“不常見和長尾的”內(nèi)容。
關(guān)鍵任務(wù)的應(yīng)用：部署在關(guān)鍵任務(wù)場(chǎng)景下的模型需要比典型的消費(fèi)應(yīng)用更加強(qiáng)壯。另外，在這樣的場(chǎng)景里的機(jī)器學(xué)習(xí)應(yīng)用需要被設(shè)計(jì)來“持續(xù)地”運(yùn)行很多月（比如不能有內(nèi)存泄漏）。
隱私和安全：通常來說，如果你能讓用戶和企業(yè)相信他們的數(shù)據(jù)是安全的，他們會(huì)更喜歡分享數(shù)據(jù)。如我前面所說的，用額外特征增強(qiáng)的數(shù)據(jù)一般會(huì)帶來更好的結(jié)果。對(duì)于在歐盟做生意的企業(yè)，短期內(nèi)就會(huì)出現(xiàn)的一個(gè)問題是2018年5月GDPR就要生效了。在另外一邊，對(duì)抗機(jī)器學(xué)習(xí)和安全機(jī)器學(xué)習(xí)（包括能夠使用加密的數(shù)據(jù)）的實(shí)際研究也正在出現(xiàn)。

模型的開發(fā)

模型和算法的開發(fā)已經(jīng)得到了很多的媒體報(bào)道，但是當(dāng)你和數(shù)據(jù)科學(xué)家交談時(shí)，大部分將會(huì)告訴你缺乏訓(xùn)練數(shù)據(jù)和能產(chǎn)品化數(shù)據(jù)科學(xué)才是更需要考慮的。通常有很多足夠直接的應(yīng)用場(chǎng)景可以開始使用你喜歡（基礎(chǔ)或高級(jí)）的算法，后續(xù)可以修改或是替換它們。

因?yàn)楣ぞ咭呀?jīng)讓部署算法變得很容易，所以作為第一步，最好還是先看看《如何評(píng)估機(jī)器學(xué)習(xí)模型的結(jié)果》。按這個(gè)電子書里說的，永遠(yuǎn)不要丟失你的業(yè)務(wù)指標(biāo)和目標(biāo)，因?yàn)樗麄儾槐赝耆妥罴颜{(diào)優(yōu)的或最佳表現(xiàn)的模型一致。與公平和透明相關(guān)的開發(fā)也已經(jīng)開始被研究人員和企業(yè)所關(guān)注和討論。對(duì)隱私的關(guān)注和各種邊緣設(shè)備的大量增加和使用也帶來了不完全依賴于集中的數(shù)據(jù)集的技術(shù)的興起。

深度學(xué)習(xí)正在慢慢地成為數(shù)據(jù)科學(xué)家們需要了解的算法集合的一部分。深度學(xué)習(xí)最初是被用于計(jì)算機(jī)視覺和語音識(shí)別，不過已經(jīng)開始有了與數(shù)據(jù)科學(xué)家相關(guān)的數(shù)據(jù)類型和問題的案例和應(yīng)用場(chǎng)景。挑戰(zhàn)包括選擇正確的網(wǎng)絡(luò)架構(gòu)（架構(gòu)工程師就是新的特征工程師）、超參數(shù)調(diào)優(yōu)和把問題以及數(shù)據(jù)變換成深度學(xué)習(xí)可用的形式。（偶然地，我今年碰到的非常有趣的大規(guī)模數(shù)據(jù)產(chǎn)品之一就不是基于深度學(xué)習(xí)的）

在很多場(chǎng)景里，用戶更傾向和喜歡模型是可以被解釋的（在某些情況下，黑盒模型是不可接收的）。考慮到可解釋的模型的基本機(jī)制在某種程度上可以被理解，可解釋的模型可能也更容易被改進(jìn)。隨著近期深度學(xué)習(xí)的興起，我已經(jīng)看到有企業(yè)在使用一些工具來解釋模式是如何生成它們的預(yù)測(cè)的，以及一些工具通過從學(xué)習(xí)算法和訓(xùn)練數(shù)據(jù)里追蹤預(yù)測(cè)的過程來解釋模型的產(chǎn)生過程。

工具

在這里我不想創(chuàng)建一個(gè)完整的工具列表，是因?yàn)橛刑嗟墓ぞ吡?。整個(gè)生態(tài)系統(tǒng)的工具能幫你完成數(shù)據(jù)導(dǎo)入、集成、處理、準(zhǔn)備和存儲(chǔ)，以及模型部署的工作。所有的這些步驟都很關(guān)鍵。下面是一小部分機(jī)器學(xué)習(xí)的工具：

Python和R是最流行的語言。Kera是那些想使用深度學(xué)習(xí)的人用的最流行的入門工具（現(xiàn)在你安裝TensorFlow的時(shí)候Keras也會(huì)被包括裝進(jìn)去）
目前Jupyter Notebook看來是最流行的模型開發(fā)工具之選，但在R用戶里IDE很流行。
有非常多的常用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的庫可用。其中一些善于完成從原型到產(chǎn)品的轉(zhuǎn)移。
能很容易地從筆記本擴(kuò)展到集群的能力也是一個(gè)重要的考慮點(diǎn)，而Apache Spark則是讓這種情形能發(fā)生的最流行的執(zhí)行框架。另外一種很常見的場(chǎng)景是，在經(jīng)過一系列的數(shù)據(jù)整理步驟后，你也能把所有數(shù)據(jù)導(dǎo)入到一個(gè)單獨(dú)的超強(qiáng)的服務(wù)器。
供應(yīng)商已經(jīng)開始支持開發(fā)合作與版本控制。
在一天結(jié)束的時(shí)候，你可能需要數(shù)據(jù)科學(xué)工具能夠無縫地把你現(xiàn)有的生態(tài)系統(tǒng)和數(shù)據(jù)平臺(tái)集成起來。

對(duì)企業(yè)來說，現(xiàn)在是一個(gè)非常好的時(shí)間點(diǎn)來評(píng)估機(jī)器學(xué)習(xí)里出現(xiàn)的問題和業(yè)務(wù)場(chǎng)景。我這里試圖去總結(jié)一些近期的趨勢(shì)、存在的瓶頸。你能立刻采用的主要建議就是：開始使用機(jī)器學(xué)習(xí)吧。從一個(gè)你已經(jīng)有數(shù)據(jù)的問題開始，然后再去追逐時(shí)髦的模型。

感謝David Talby對(duì)本博文草稿的評(píng)論和建議。

Ben Lorica

本·羅瑞卡是O'Reilly的首席數(shù)據(jù)科學(xué)家和關(guān)于數(shù)據(jù)方面的內(nèi)容策略主管。在多個(gè)領(lǐng)域里（包括直銷市場(chǎng)、消費(fèi)者和市場(chǎng)研究、精準(zhǔn)廣告、文本挖掘和金融工程），他曾經(jīng)進(jìn)行了商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析的工作。他曾效力于投資管理公司、互聯(lián)網(wǎng)創(chuàng)業(yè)企業(yè)和金融服務(wù)公司。