有声小说在线收听网,《完美世界》txt全集

機器學(xué)習(xí)中的深度自動化

我們需要做的不僅僅是使用AutoML自動化地進行模型構(gòu)建，?我們需要在數(shù)據(jù)管線的每個階段自動執(zhí)行任務(wù)。

2018年12月19日

編者注：敬請查看2019年4月29日至5月2日將在倫敦舉行的Strata數(shù)據(jù)會議上的“數(shù)據(jù)科學(xué)，機器學(xué)習(xí)和AI”分會場議題。最惠價格將于2月8日結(jié)束。

2019年6月18-21日在北京舉行的人工智能大會議題征集正在進行中，將于1月15日結(jié)束。

在之前的一篇文章中我們討論了機器學(xué)習(xí)（ML）在軟件開發(fā)中的應(yīng)用，其中包括數(shù)據(jù)科學(xué)中的采樣工具和管理數(shù)據(jù)基礎(chǔ)架構(gòu)。?從那時起，Andrej Karpathy就軟件開發(fā)的命運做出了更多的預(yù)測：他設(shè)想了軟件2.0，其中軟件開發(fā)的本質(zhì)已經(jīng)發(fā)生了根本性的變化。?人類不再實施解決業(yè)務(wù)問題的代碼;?相反，他們定義了所需的行為，訓(xùn)練算法來解決他們的問題。?正如他所寫的那樣，“神經(jīng)網(wǎng)絡(luò)是一段這樣的代碼，在絕大部分垂直領(lǐng)域，它比你我表現(xiàn)都要好?！?我們不會編寫代碼來優(yōu)化制造工廠的調(diào)度工作，我們將訓(xùn)練ML算法，以根據(jù)歷史數(shù)據(jù)找到具有最佳性能的方案。

如果不再需要人類編寫企業(yè)應(yīng)用程序，我們該怎么辦？?人類仍然需要編寫軟件，但該軟件是一種全然不同的類型。?Software 1.0的開發(fā)人員擁有大量可供選擇的工具：IDE，CI / CD工具，自動化測試工具等。?軟件2.0的工具才剛剛開始存在；未來兩年的一項重大任務(wù)是開發(fā)用于機器學(xué)習(xí)的IDE，以及用于數(shù)據(jù)管理，流水線管理，數(shù)據(jù)清理，數(shù)據(jù)源頭管理和數(shù)據(jù)出處的其他工具。

Karpathy的愿景雄心勃勃，我們認(rèn)為企業(yè)軟件開發(fā)人員在短時間內(nèi)擔(dān)心丟掉工作。?但是，顯然軟件的開發(fā)方式正在發(fā)生變化。?通過機器學(xué)習(xí)，挑戰(zhàn)不在于編寫代碼；算法已經(jīng)在許多眾所周知且高度優(yōu)化的庫中具有實現(xiàn)了。?我們不需要實現(xiàn)我們自己的算法版本，比如長短時記憶模型（LSTM）、強化學(xué)習(xí)；這些我們能從PyTorch，Ray RLlib或其他一些庫中獲得。?但是，沒有數(shù)據(jù)就無法進行機器學(xué)習(xí)，而且我們處理數(shù)據(jù)的工具也不夠用。?我們有很好的工具來處理代碼：創(chuàng)建代碼，管理代碼，測試代碼和部署代碼。?但是它們并沒有解決數(shù)據(jù)問題，而對于ML來說，管理數(shù)據(jù)與管理代碼本身一樣重要。?GitHub是一個管理代碼的優(yōu)秀工具，但我們需要考慮[代碼+數(shù)據(jù)]。?雖然我們開始看到機器學(xué)習(xí)模型的版本控制項目，例如DVC，不過不存在一個數(shù)據(jù)領(lǐng)域的Github。

精確思考git的作用非常重要。?它能捕獲源代碼以及源代碼的所有更改。?對于任何代碼庫，它可以告訴您代碼從哪里來（來源），以及從原始提交到您下載的版本的所有更改。?它能夠維護許多不同的分支，反映了一份代碼的多種定制化情況。?如果某人更改了一行代碼，您將看到該更改，以及是誰更改了代碼。?并且（在人工的幫助或者辛苦勞動下）可以解決不同分支上的沖突。?這些功能對數(shù)據(jù)都很重要，但是git雖好，卻不適合數(shù)據(jù)。?它沒有格式化為一系列行的數(shù)據(jù)（如源代碼），在處理二進制數(shù)據(jù)上存在問題，并且會在巨大的文件上卡住。它也不適合跟蹤數(shù)據(jù)集中對每個樣本進行的變換，例如矩陣乘法或歸一化。

我們還需要更好的工具來收集數(shù)據(jù)。?我們聽過了所有關(guān)于數(shù)據(jù)大爆炸的討論，諷刺的是，爆炸性的巨量數(shù)據(jù)被丟掉了，從來沒有被捕獲過。數(shù)據(jù)管理不僅限于數(shù)據(jù)來源和數(shù)據(jù)出處等問題；處理數(shù)據(jù)，最重要的事情之一是收集它。?考慮到創(chuàng)建數(shù)據(jù)的速率，數(shù)據(jù)收集必須自動化。?如何在不丟棄數(shù)據(jù)的情況下做到這一點？?鑒于任何模型產(chǎn)生的預(yù)測結(jié)果都會代表用于創(chuàng)建模型的數(shù)據(jù)，您如何確保您的數(shù)據(jù)收集過程是公平的，有代表性的和無偏見的？

通往可持續(xù)的ML實踐

在我們即將發(fā)布的《數(shù)據(jù)基礎(chǔ)架構(gòu)的演進》這一報告中，我們研究的一個方面是，歐洲組織正在采取哪些措施來構(gòu)建可持續(xù)的機器學(xué)習(xí)實踐：當(dāng)下一個技術(shù)潮流出現(xiàn)時，我們不需要一個概念上的論證，或是一次性的好點子，我們需要而是組織計劃中能夠永存的那部分。?點到為止是一回事，將機器學(xué)習(xí)深度集成到您的組織中所需的基礎(chǔ)架構(gòu)中，就完全是另一回事了。

image1-79922db797cbb2bc90dce1b37cee75fc

建立可持續(xù)的實踐意味著要把時間精力投資于能夠讓您長期有效工作的工具。?這些工具使您能夠構(gòu)建可依賴的軟件，而不僅僅是簡單的概念驗證級別的拷貝。這些工具包括ETL等基礎(chǔ)工具（提取，轉(zhuǎn)換和加載：從多個源提取數(shù)據(jù)，將其轉(zhuǎn)換為有用的形式，并將其加載到數(shù)據(jù)存儲區(qū)進行分析）。?毫無疑問，公司正在投資數(shù)據(jù)科學(xué)平臺以大規(guī)模運行機器學(xué)習(xí)，就像他們十年前投資Hadoop一樣。?鑒于數(shù)據(jù)科學(xué)家的大部分工作是在分析之前清理數(shù)據(jù)，因此大多數(shù)公司都花精力在數(shù)據(jù)準(zhǔn)備工具上并不奇怪。?隨著公司開始構(gòu)建數(shù)據(jù)科學(xué)實踐，這些是五年前我們期望在列表中看到的工具。

我們也看到了對新工具的投資。?異常檢測工具在金融行業(yè)中是普遍的，它經(jīng)常用于檢測欺詐性交易，但它也可用于自動捕獲和修復(fù)數(shù)據(jù)質(zhì)量問題。?這并不奇怪：如果您從多個氣象站收集數(shù)據(jù)并且其中一個發(fā)生故障，您可能會看到異常數(shù)據(jù)。?有故障的氣象站可能會停止報告數(shù)據(jù)（可能會在數(shù)據(jù)流中變?yōu)榱悖瑹o窮大或空值），或者它可能只發(fā)送比預(yù)期高幾度的讀數(shù)，但是與該地區(qū)中其他站點的讀數(shù)不一致。?在任何情況下，輸入數(shù)據(jù)都可能會出現(xiàn)異常，機器檢測異常會比人類更容易。?如果您突然在社交數(shù)據(jù)中看到意外模式，則可能意味著攻擊者試圖破壞您的數(shù)據(jù)源。?異常檢測可能起源于金融，但它正在成為每個數(shù)據(jù)科學(xué)家工具包的一部分。

元數(shù)據(jù)分析可以構(gòu)建數(shù)據(jù)目錄，從而使人們能夠發(fā)現(xiàn)與其項目相關(guān)的數(shù)據(jù)。對數(shù)據(jù)進行民主化是向成為數(shù)據(jù)驅(qū)動（或人工智能驅(qū)動）公司的過程邁出的重要一步：必須授權(quán)用戶探索數(shù)據(jù)，并創(chuàng)建自己的項目。?沒有某種數(shù)據(jù)目錄性質(zhì)的東西存在，事情就很難做。?您可以告訴用戶他們可以訪問他們需要的所有數(shù)據(jù)，并授予他們訪問數(shù)據(jù)庫的權(quán)限，但除非他們知道可用的數(shù)據(jù)是什么，以及如何找到它，否則這種訪問毫無意義。手動創(chuàng)建該目錄是不可能的；這個流程需要自動化。

數(shù)據(jù)出處

數(shù)據(jù)分析的歷史一直受到對數(shù)據(jù)源的輕視態(tài)度的困擾。?這就是最終情況：?數(shù)據(jù)倫理的討論使數(shù)據(jù)科學(xué)家意識到數(shù)據(jù)來源和數(shù)據(jù)出處的重要性。?兩者都指的是數(shù)據(jù)來源：數(shù)據(jù)來自何處，如何收集，以及如何修改數(shù)據(jù)？?數(shù)據(jù)來源日益成為了一個法律問題：知道數(shù)據(jù)來自何處以及如何獲得數(shù)據(jù)顯然非常重要。?當(dāng)您組合來自多個來源的數(shù)據(jù)時，這一點尤其重要；我們經(jīng)常觀察到，當(dāng)組合多個源時，數(shù)據(jù)最強大。?數(shù)據(jù)的起源可能變得非常復(fù)雜，特別是當(dāng)一組數(shù)據(jù)產(chǎn)生的結(jié)果與其他數(shù)據(jù)進一步結(jié)合時尤為如此。

能夠在細(xì)粒度級別跟蹤數(shù)據(jù)出處，了解從源到應(yīng)用程序的整個數(shù)據(jù)路徑非常重要。數(shù)據(jù)一直在被修改：經(jīng)?？梢钥吹?，數(shù)據(jù)科學(xué)的大部分工作都是清理或準(zhǔn)備。?數(shù)據(jù)清理涉及修改數(shù)據(jù)：例如，消除具有缺失值或非法值的行。?我們開始清楚的認(rèn)識到“清理過程中發(fā)生了什么，數(shù)據(jù)是如何從原始狀態(tài)演變出來的” 這一重要性：這些過程可能是錯誤和偏見的來源。?隨著公司采集和使用更多數(shù)據(jù)，并且隨著數(shù)據(jù)消費者數(shù)量的增加，知道數(shù)據(jù)是值得信賴的這一點很重要。?修改數(shù)據(jù)時，確切地跟蹤修改數(shù)據(jù)的方式和時間非常重要。

跟蹤數(shù)據(jù)來源和沿襲的工具是有限的，盡管商業(yè)供應(yīng)商（如Trifacta）的產(chǎn)品開始出現(xiàn)。?Git及其前身（SVN甚至RCS）可以跟蹤軟件中每行代碼的每個變化，維護代碼的多個分支，并協(xié)調(diào)分支之間的差異。?我們?nèi)绾螄@數(shù)據(jù)做到這一點？?此外，我們將如何處理結(jié)果？?標(biāo)準(zhǔn)化數(shù)據(jù)或以某種方式進行轉(zhuǎn)換是很常見的，但這種轉(zhuǎn)換很容易改變數(shù)據(jù)集中的每個字節(jié)。

這些變化不僅會帶來問題，而且像git這樣的工具會在提交新版本來解釋為何進行任何更改時強制人們提供解釋性注釋。?使用自動數(shù)據(jù)管道來實現(xiàn)這一點是不可能的。系統(tǒng)可能會記錄并“解釋”它們所做的更改，但這基于的假設(shè)是，您已經(jīng)具有細(xì)粒度數(shù)據(jù)控制權(quán)而且強制它們這樣做。

在單個工具的范圍內(nèi)，也許可以進行這種控制。?例如，Jacek Laskowski?描述了如何提取描述一系列Spark轉(zhuǎn)換的彈性分布式數(shù)據(jù)集（RDD）數(shù)據(jù)血緣關(guān)系圖。?該圖可以提交出處跟蹤系統(tǒng)，甚至是更傳統(tǒng)的版本控制系統(tǒng)，以記錄那些已經(jīng)應(yīng)用于數(shù)據(jù)的轉(zhuǎn)換。?但是這個過程只適用于單個機器學(xué)習(xí)平臺：Spark。為了變得更加有用，每個平臺都需要支持提取血緣關(guān)系圖，最好是采用單一格式，而不需要開發(fā)人員進行額外的腳本開發(fā)。?對于我們需要達到的目標(biāo)來說，這是一個很好的愿景，但我們還沒達到。

數(shù)據(jù)來源和出處關(guān)系不僅僅與結(jié)果的質(zhì)量有關(guān);?這是一個安全和合規(guī)問題。?在2017年紐約的Strata數(shù)據(jù)會議上，Danah Boyd認(rèn)為，社交媒體系統(tǒng)故意被傳播低質(zhì)量內(nèi)容的工具所毒害，這些內(nèi)容旨在影響確定人們觀看內(nèi)容的算法。惡意的算法已經(jīng)學(xué)會“破解注意力經(jīng)濟”。在“?平面光：對迷失方向人群進行數(shù)據(jù)保護，從政策到實踐”）這一研究報告中，Andrew Burt和Daniel Geer認(rèn)為，過去數(shù)據(jù)準(zhǔn)確性是二元的 —— 數(shù)據(jù)是正確的還是不正確的。?現(xiàn)在，數(shù)據(jù)來源如果不比數(shù)據(jù)的準(zhǔn)確性更重要，那也至少是同樣重要：如果您不知道數(shù)據(jù)來源，則無法判斷數(shù)據(jù)是否可靠。?對于機器學(xué)習(xí)系統(tǒng)，這意味著我們需要跟蹤源數(shù)據(jù)和源代碼：用于訓(xùn)練系統(tǒng)的數(shù)據(jù)，和通過算法實現(xiàn)所表現(xiàn)出來的行為同樣重要。

我們開始看到一些自動化數(shù)據(jù)質(zhì)量問題的工具。?Intuit在檢測數(shù)據(jù)中的異常時使用Circuit Breaker模式來暫停數(shù)據(jù)管道。?他們的工具跟蹤數(shù)據(jù)出處，因為了解管道每個階段的輸入和輸出非常重要;?它還跟蹤管道組件本身的狀態(tài)以及管道每個階段的數(shù)據(jù)質(zhì)量（是否在預(yù)期的范圍內(nèi)，是否屬于適當(dāng)?shù)念愋偷龋?a >Intuit，Netflix和Stitchfix構(gòu)建了數(shù)據(jù)沿襲系統(tǒng)，可跟蹤他們在系統(tǒng)中使用的數(shù)據(jù)的來源和演變。

自動化的含義遠遠大于模型構(gòu)建

在過去的一年中，我們看到有幾家公司構(gòu)建了“自動化機器學(xué)習(xí)”的工具，包括谷歌和亞馬遜。?這些工具能對構(gòu)建模型的過程進行自動化：嘗試不同的算法和拓?fù)洌员阍谀Ｐ陀糜跍y試數(shù)據(jù)時最大限度地減少錯誤。?但這些工具只是構(gòu)建模型，我們已經(jīng)看到機器學(xué)習(xí)需要更多。?沒有用于數(shù)據(jù)集成和ETL，數(shù)據(jù)準(zhǔn)備，數(shù)據(jù)清理，異常檢測，數(shù)據(jù)治理等工具的模型，該模型就不可能存在。自動化模型構(gòu)建只是機器學(xué)習(xí)自動化的一個組成部分。

為了真正有用，自動化機器學(xué)習(xí)必須比模型構(gòu)建更深入。?認(rèn)為機器學(xué)習(xí)項目需要單一模型太簡單了;?一個項目可以輕松地需要幾個不同的模型，做不同的事情。?業(yè)務(wù)的不同方面，雖然表面上相似，但可能需要不同的模型，并從不同的數(shù)據(jù)源進行訓(xùn)練。?考慮一下像萬豪酒店這樣的酒店業(yè)務(wù)：超過6,000家酒店，總收入超過200億美元。?任何酒店都希望對他們的入住率，收入和需要提供的服務(wù)進行預(yù)測。?但每家酒店都提供了完全不同的業(yè)務(wù)：時代廣場的萬豪酒店以大型企業(yè)會議和紐約市旅游業(yè)為主，而塞巴斯托波爾的Fairfield Inn酒店則以當(dāng)?shù)鼗顒雍推咸丫凄l(xiāng)村旅游為主。?客戶群人口學(xué)的統(tǒng)計數(shù)據(jù)不同，但更重要的是，活動事件的來源不同。?塞巴斯托波爾的酒店需要了解當(dāng)?shù)氐幕槎Y和葡萄酒鄉(xiāng)村活動，我預(yù)期他們會使用自然語言處理來解析當(dāng)?shù)貓蠹埖男畔ⅰ?時代廣場的酒店需要了解百老匯開放，Yankee橄欖球隊的比賽，以及城北地鐵的時刻表。?這就不僅僅是一個不同的模型了，這兩項業(yè)務(wù)需要完全不同的數(shù)據(jù)管道。?自動化模型構(gòu)建過程很有幫助，但它還遠遠不夠。

酒店不是唯一需要比人類想象需要構(gòu)建的模型更多的商業(yè)模式。?Salesforce為其客戶提供人工智能服務(wù)，其數(shù)量達數(shù)十萬。?每個客戶都需要一個定制模型，即使在類似企業(yè)的客戶之間也無法共享模型。?除了機密性問題，沒有兩個客戶擁有相同的客戶或相同的數(shù)據(jù)，客戶之間的微小差異可能會導(dǎo)致大的錯誤。?即使對機器學(xué)習(xí)人才最樂觀的估計，也沒有足夠的人手動構(gòu)建那么多模型。?Salesforce的解決方案是TransmogrifAI，一個用于結(jié)構(gòu)化數(shù)據(jù)的開源自動化ML庫。?與其他Auto ML解決方案一樣，TransmogrifAI可以自動化模型構(gòu)建過程，但它還可以自動執(zhí)行許多其他任務(wù)?，包括數(shù)據(jù)準(zhǔn)備和特征驗證。

其他企業(yè)軟件供應(yīng)商也都在同樣的路上：他們擁有許多客戶，每個客戶都需要“定制模型”。他們無法聘請足夠的數(shù)據(jù)科學(xué)家來支持所有這些客戶使用傳統(tǒng)的手動工作流程。?自動化根本不是一種選項，而是一種必需品。

當(dāng)模型“完成”時，自動化不會停止;?在任何實際應(yīng)用中，模型永遠不會被視為“完成”。任何模型的性能都會隨著時間的推移而降低：情況會發(fā)生變化，人們會發(fā)生變化，產(chǎn)品會發(fā)生變化，甚至模型本身都可能會成為模型變壞的因素。我們預(yù)期會看到用于自動化模型測試的新工具，要么在模型需要重新訓(xùn)練時提醒開發(fā)人員，要么自動啟動訓(xùn)練過程。?我們需要更進一步：除了模型準(zhǔn)確性的簡單問題之外，我們還需要測試公平性和道德性。這些測試不能完全自動化，但我們可以開發(fā)工具來幫助領(lǐng)域?qū)＜液蛿?shù)據(jù)科學(xué)家發(fā)現(xiàn)公平性問題。?例如，這樣的工具可能會在檢測到潛在問題時生成警報，例如來自受保護組的顯著更高的貸款拒絕率；它還可以提供工具來幫助人類專家分析問題并進行糾正。

結(jié)尾的思考

我們構(gòu)建軟件的方式正在發(fā)生變化。?無論我們是否使用Karpathy的軟件2.0，我們當(dāng)然都朝著這個方向前進。?未來會存在更多的機器學(xué)習(xí)，而非更少。開發(fā)和維護模型將是構(gòu)建軟件工作的一部分。?軟件開發(fā)人員將花費更少的時間編寫代碼，并花更多時間訓(xùn)練模型。

不過，缺乏數(shù)據(jù)、缺乏處理數(shù)據(jù)的工具仍然是一個根本瓶頸。?在過去的50年中，我們開發(fā)了用于處理軟件的出色工具。?我們現(xiàn)在需要構(gòu)建軟件+數(shù)據(jù)的工具：跟蹤數(shù)據(jù)來源和血緣關(guān)系的工具，從元數(shù)據(jù)構(gòu)建目錄的工具，以及執(zhí)行ETL等基本操作的工具。?很多公司正在投資這些基礎(chǔ)技術(shù)。

下一個瓶頸將是建模本身;?我們需要的模型數(shù)量總是遠遠大于能夠手動構(gòu)建這些模型的人數(shù)。?同樣，該解決方案正在構(gòu)建用于自動化流程的工具。?我們需要做的不僅僅是使用AutoML自動化模型構(gòu)建;?我們還需要在數(shù)據(jù)管道的每個階段自動執(zhí)行特征工程，數(shù)據(jù)準(zhǔn)備和其他任務(wù)。?畢竟，軟件開發(fā)人員從事的是一種自動化業(yè)務(wù)。?軟件開發(fā)人員最需要自動化的，是他們自己的工作。