在本文中我分享了一些幻燈片和筆記。它們來自于我在2017年12月新加坡Strata 數(shù)據(jù)會(huì)議上發(fā)表的講話,針對(duì)積極部署機(jī)器學(xué)習(xí)驅(qū)動(dòng)產(chǎn)品的公司,這些資料提供了一些建議。在過去幾年中,數(shù)據(jù)社區(qū)一直專注于用于數(shù)據(jù)收集的基礎(chǔ)架構(gòu)和平臺(tái),這其中包括了強(qiáng)大的數(shù)據(jù)管線,以及高度可擴(kuò)展的、用于數(shù)據(jù)分析的存儲(chǔ)系統(tǒng)。 據(jù)LinkedIn最近的一份報(bào)告顯示,『機(jī)器學(xué)習(xí)工程師』和『數(shù)據(jù)科學(xué)家』占據(jù)了新興職業(yè)崗位的前兩名位置。大量公司開始將數(shù)據(jù)基礎(chǔ)架構(gòu)推向?qū)崙?zhàn),機(jī)器學(xué)習(xí)將在未來幾年變得更加普遍。

圖1. 來自Ben Lorica的幻燈片
隨著越來越多的公司開始在產(chǎn)品,工具和業(yè)務(wù)流程中使用機(jī)器學(xué)習(xí),我們簡單介紹一下模型構(gòu)建,模型部署和模型管理的流程。 事實(shí)證明,一旦建立模型,在生產(chǎn)環(huán)境中對(duì)其進(jìn)行部署和管理是需要工程技巧的。今年的早些時(shí)候,我們注意到,一些公司已經(jīng)為負(fù)責(zé)在生產(chǎn)環(huán)境維護(hù)機(jī)器學(xué)習(xí)模型的人員創(chuàng)造了一個(gè)新的角色——機(jī)器學(xué)習(xí)(或者深度學(xué)習(xí))工程師。

圖2. 來自Ben Lorica的幻燈片
當(dāng)前流行的機(jī)器學(xué)習(xí)庫和類似『notebook』的工具,使構(gòu)建模型變得日益簡單。新的數(shù)據(jù)科學(xué)家需要確保他們理解業(yè)務(wù)問題,并在這種基礎(chǔ)上針對(duì)業(yè)務(wù)問題對(duì)模型進(jìn)行優(yōu)化。 在類似東南亞這種文化多元化地區(qū),因?yàn)?a >東盟(ASEAN)國家的情況和場景有所不同,需要對(duì)模型進(jìn)行本地化。

圖3. 來自Ben Lorica的幻燈片
展望2018,人們對(duì)于算法偏見所造成的影響、算法的公平性/透明度的重要性漸漸有所認(rèn)知,這意味著,數(shù)據(jù)科學(xué)家要做的絕不僅僅只是簡單地優(yōu)化業(yè)務(wù)指標(biāo)。我們需要認(rèn)真對(duì)待這些問題,就像我們投入真金白銀來解決數(shù)據(jù)安全、數(shù)據(jù)隱私問題一樣,來處理這些問題。

圖4. 來自Ben Lorica的幻燈片
雖然不存在一張面面俱到的清單,可以讓人系統(tǒng)性地解決有關(guān)公平性,透明度和問責(zé)制度的相關(guān)問題,不過一個(gè)好消息是,機(jī)器學(xué)習(xí)研究社區(qū)已經(jīng)為建模人員提供了一些建議和新手起步指南。讓我舉幾個(gè)簡單的例子。
假定,在機(jī)器學(xué)習(xí)模型里你已經(jīng)有了一個(gè)重要的特征(比如說,與特定地點(diǎn)的距離)。不過在樣本總體中,存在一些分組(比如,高收入/低收入分組),在不同的分組中,特征呈現(xiàn)出全然不同的分布。可能發(fā)生的事情是,你的模型,對(duì)于這兩個(gè)群體會(huì)產(chǎn)生差異性影響。 一個(gè)相關(guān)的例子是Staples推出的在線定價(jià)模型:該模型基于用戶不同的地理位置,給出了不同的建議價(jià)格。

圖5. 來自Ben Lorica的幻燈片
2014年,一組研究人員提供了一種數(shù)據(jù)重整化方法來消除差異性影響:

圖6. 來自Ben Lorica的幻燈片,參考鏈接
另一個(gè)例子與預(yù)測錯(cuò)誤有關(guān):一旦我們對(duì)某個(gè)錯(cuò)誤概率感到滿意,我們是不是已經(jīng)做好準(zhǔn)備將我們的模型部署到生產(chǎn)環(huán)境中去了?考慮一下在醫(yī)療護(hù)理項(xiàng)目中使用機(jī)器學(xué)習(xí)模型的情況:在模型構(gòu)建過程中,與老年人(藍(lán)色)相比,千禧一代(紅色)的訓(xùn)練數(shù)據(jù)樣本量大得多。正確率有一種和訓(xùn)練樣本大小正相關(guān)的傾向,因此,對(duì)于老年人預(yù)測的錯(cuò)誤概率就比對(duì)千禧一代年輕人的預(yù)測錯(cuò)誤率要高。

圖7. 來自Ben Lorica的幻燈片
針對(duì)類似的情況,一些研究者引入了一個(gè)名為『等幾率』的概念,緩解不同類間錯(cuò)誤率不等的情況,保證不同組的『真陽性率』(True Positive Rate)接近。參考這篇論文,并結(jié)合交互式可視化方案進(jìn)行閱讀。
因此,當(dāng)提到『數(shù)據(jù)關(guān)聯(lián)錯(cuò)誤』的時(shí)候,至少有幾項(xiàng)是我們必須檢查的:

圖8. 來自Ben Lorica的幻燈片, 參考鏈接
為了發(fā)現(xiàn)不可靠的數(shù)據(jù)關(guān)聯(lián)性, 我們需要使用工具來輔助我們的數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師。 有時(shí)候,模型的輸出空間太大,以至于無法進(jìn)行人工復(fù)核和檢查。在2015年,包含了一個(gè)自動(dòng)化圖片標(biāo)注工具的Google相冊(cè),在某些情況下失效很嚴(yán)重。谷歌受到了強(qiáng)烈的批評(píng)(理應(yīng)如此),不過值得贊揚(yáng)的是,他們?nèi)斯そ槿肓诉@一情況,并及時(shí)提出了一個(gè)解決方案。這里有一個(gè)例子,在這個(gè)例子中當(dāng)輸出空間,也就是可能的標(biāo)簽數(shù)目足夠大的情況下,目標(biāo)很容易檢測不到。機(jī)器學(xué)習(xí)工程師可以使用QA測試工具,在生產(chǎn)環(huán)境部署這個(gè)模型之前,能夠暴露出潛在的問題,方便工程師進(jìn)行手動(dòng)復(fù)查。

圖9. 來自Ben Lorica的幻燈片。Twitter用戶@jackyalcine的推文
生產(chǎn)環(huán)境中用于部署和管理模型的初始清單包含了一些我曾經(jīng)討論過的問題:
? 監(jiān)測模型 :在許多情況下,模型性能下降,需要定期重新訓(xùn)練。 除了監(jiān)測機(jī)器學(xué)習(xí)目標(biāo)或業(yè)務(wù)指標(biāo)之外,引入一些能夠檢測『不可靠的數(shù)據(jù)關(guān)聯(lián)』的工具,防止模型變蠢,也是十分合理的。
? 關(guān)鍵任務(wù)應(yīng)用程序 :隨著機(jī)器學(xué)習(xí)在關(guān)鍵場合下進(jìn)行部署,部署的門檻會(huì)進(jìn)一步提高。模型的可重復(fù)性以及誤差估計(jì)將是必需的。
? 安全和隱私 :公平而無偏見的模型,可能會(huì)受到攻擊,其預(yù)測行為將會(huì)變得沒有保障。用戶和監(jiān)管機(jī)構(gòu)也將開始要求模型能夠滿足最嚴(yán)格的隱私保護(hù)條例。
讓我們拿起為機(jī)器學(xué)習(xí)工程師準(zhǔn)備的清單,并添加一些『入門級(jí)預(yù)防偏見』的流程。

圖10. 來自Ben Lorica的幻燈片
這是針對(duì)單個(gè)模型(或單個(gè)模型集成)來設(shè)計(jì)的。展望未來,我們知道許多公司要將機(jī)器學(xué)習(xí)融入許多產(chǎn)品,工具和業(yè)務(wù)流程中。真實(shí)情況下,機(jī)器學(xué)習(xí)工程師要負(fù)責(zé)生產(chǎn)環(huán)境中的大量模型:

圖11. 來自Ben Lorica的幻燈片
我們?nèi)绾螏椭覀兊臋C(jī)器學(xué)習(xí)工程師識(shí)別很壞的模型? 請(qǐng)注意,這與我們之前遇到的問題類似。 公司一直在構(gòu)建工具(可觀察平臺(tái)),以幫助他們監(jiān)控網(wǎng)頁和網(wǎng)絡(luò)服務(wù),一些大公司一直在監(jiān)控許多時(shí)間序列。 在2013年,我寫了一篇報(bào)道是關(guān)于Twitter當(dāng)年是使用何種工具來監(jiān)控?cái)?shù)以億計(jì)的時(shí)間序列的。

圖12. 來自Ben Lorica的幻燈片,由anodot.com拍攝,經(jīng)許可使用
隨著公司部署成百上千,甚至上百萬個(gè)機(jī)器學(xué)習(xí)模型的時(shí)候,我們需要用工具輔助我們的數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師。 我們需要用機(jī)器學(xué)習(xí)來監(jiān)控機(jī)器學(xué)習(xí)!在每一個(gè)工作日結(jié)束的時(shí)候,你的專家團(tuán)隊(duì)仍然需要檢查那些正在發(fā)生的問題,不過他們至少需要一些自動(dòng)化工具來幫助他們處理大量生產(chǎn)模型。

圖13. 來自Ben Lorica的幻燈片,由anodot.com拍攝,經(jīng)許可使用
在2018年,我們需要更嚴(yán)謹(jǐn)?shù)貙?duì)待模型的公平性,透明度和可解釋性。 機(jī)器學(xué)習(xí)研究社區(qū)正致力于解決這些問題,他們開始針對(duì)如何檢測問題、如何緩解出現(xiàn)的問題提供一些建議。由于大量公司開始在許多場景中推廣機(jī)器學(xué)習(xí),因此,我們需要構(gòu)建機(jī)器學(xué)習(xí)工具,來輔助我們的數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師團(tuán)隊(duì)。我們?nèi)匀恍枰讶肆α粼诘谝痪€,但我們需要為他們提供工具,來應(yīng)對(duì)即將來到生產(chǎn)環(huán)境中的海量模型。
相關(guān)內(nèi)容:
Ben Lorica
Ben Lorica是O’Reilly Media的首席數(shù)據(jù)科學(xué)家和數(shù)據(jù)主題內(nèi)容策略的主管。他已經(jīng)在多個(gè)領(lǐng)域里(包括直銷市場、消費(fèi)者和市場研究、精準(zhǔn)廣告、文本挖掘和金融工程)進(jìn)行了商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析的工作。他之前曾效力于投資管理公司、互聯(lián)網(wǎng)創(chuàng)業(yè)企業(yè)和金融服務(wù)公司。

