好看的小说君子以泽,好看的小说完本推荐

從將機(jī)器學(xué)習(xí)模型轉(zhuǎn)化成真正產(chǎn)品和服務(wù)中學(xué)到的經(jīng)驗(yàn)教訓(xùn)

為什么模型的開(kāi)發(fā)不同于軟件開(kāi)發(fā)

David Talby, 2018年6月5日

編者注：讀者可以查看將于2018年9月11-13日在紐約Strata數(shù)據(jù)大會(huì)上的輔導(dǎo)課“使用開(kāi)源的工具進(jìn)行大規(guī)模的模型部署和管理”。

人工智能依然處于它的幼年時(shí)期。今天，只有15%的企業(yè)在使用機(jī)器學(xué)習(xí)，但是有30%的企業(yè)已經(jīng)在它們未來(lái)的發(fā)展路線圖里包括了機(jī)器學(xué)習(xí)。像Intel的CEO這樣的公眾人物宣稱(chēng)，每一個(gè)企業(yè)都應(yīng)該有一個(gè)機(jī)器學(xué)習(xí)的戰(zhàn)略，否則就會(huì)有落后的風(fēng)險(xiǎn)。那么機(jī)器學(xué)習(xí)進(jìn)入你的組織機(jī)構(gòu)就僅僅只是個(gè)時(shí)間問(wèn)題。當(dāng)然，它目前還沒(méi)有進(jìn)入。

然而在與希望在其企業(yè)中實(shí)施機(jī)器學(xué)習(xí)的CEO交談時(shí)我們發(fā)現(xiàn)：將機(jī)器學(xué)習(xí)從科學(xué)轉(zhuǎn)向生產(chǎn)似乎存在一個(gè)常見(jiàn)的問(wèn)題。換句話說(shuō)，就如《MIT Sloan Management Review》文章的作者提出的，“大多數(shù)公司的雄心與實(shí)際的執(zhí)行之間存在很大的差距”。以至于最終在構(gòu)建一個(gè)模型與實(shí)際把它準(zhǔn)備好為用戶(hù)在產(chǎn)品和服務(wù)中使用之間存在著重大的差異。

數(shù)據(jù)科學(xué)訓(xùn)練營(yíng)非常適合學(xué)習(xí)如何構(gòu)建和優(yōu)化模型，但它們并沒(méi)有教會(huì)工程師如何將模型帶到下一步。后續(xù)的結(jié)果就是出現(xiàn)一個(gè)構(gòu)建出的模型沒(méi)有轉(zhuǎn)化為創(chuàng)收產(chǎn)品和服務(wù)的瓶頸。那么在實(shí)施機(jī)器學(xué)習(xí)解決方案之前，組織機(jī)構(gòu)應(yīng)該知道什么？

模型在被部署到生成系統(tǒng)后它的準(zhǔn)確性會(huì)立刻開(kāi)始降低

人們?cè)跈C(jī)器學(xué)習(xí)方面犯的最大錯(cuò)誤就是認(rèn)為模型類(lèi)似于其他類(lèi)型的軟件。一旦模型被構(gòu)建并上線，人們會(huì)認(rèn)為它將持續(xù)正常工作。然而，盡管機(jī)器學(xué)習(xí)的終極目標(biāo)是希望隨著時(shí)間的推移變得更加智能，但實(shí)際上如果沒(méi)有持續(xù)的新數(shù)據(jù)導(dǎo)入，模型的質(zhì)量和速度會(huì)降低，而且非常快。這被稱(chēng)為概念漂移，意味著隨著時(shí)間的推移，靜態(tài)機(jī)器學(xué)習(xí)模型的預(yù)測(cè)將變得不準(zhǔn)確，可用性降低。在某些情況下，這甚至可能在模型部署上線后的幾天內(nèi)就開(kāi)始發(fā)生。

因此，企業(yè)和機(jī)構(gòu)需要認(rèn)識(shí)到機(jī)器學(xué)習(xí)模型永遠(yuǎn)不會(huì)有最終版本，并且需要隨著時(shí)間的推移對(duì)模型進(jìn)行更新和改進(jìn)。這要求企業(yè)和機(jī)構(gòu)即使在建立模型之后也要讓工程師繼續(xù)參與項(xiàng)目，以確保模型不僅能夠保持運(yùn)行，而且還能保持準(zhǔn)確。雖然大數(shù)據(jù)和機(jī)器學(xué)習(xí)工程師需求量很大，而且價(jià)格昂貴，但它們很重要，因?yàn)樗麄冐?fù)責(zé)定期重新訓(xùn)練模型以保證準(zhǔn)確的預(yù)測(cè)和推薦結(jié)果。其中一些工作是可以被自動(dòng)化，但仍然需要專(zhuān)業(yè)知識(shí)和定制化開(kāi)發(fā)才能完成。

那么模型應(yīng)該多久被重新訓(xùn)練一次？這取決于模型預(yù)測(cè)的內(nèi)容。例如，在網(wǎng)絡(luò)安全或?qū)崟r(shí)交易等領(lǐng)域，如果變化是持續(xù)的，這就需要持續(xù)不斷的更新模型。另一方面，語(yǔ)音識(shí)別或其他物理模型可以不需要那么頻繁地被重新訓(xùn)練，因?yàn)樗鼈兊妮斎胪ǔ２惶珪?huì)隨時(shí)間變化。

然而，無(wú)論模型預(yù)測(cè)的是什么，都需要進(jìn)行一定程度的再訓(xùn)練。因?yàn)榭倳?huì)有無(wú)法預(yù)見(jiàn)的外部變化會(huì)影響機(jī)器學(xué)習(xí)模型的準(zhǔn)確性，例如人們偏好的變化、營(yíng)銷(xiāo)活動(dòng)、競(jìng)爭(zhēng)對(duì)手的舉動(dòng)、天氣的變化、新聞周期或使用模型時(shí)的位置、時(shí)間或設(shè)備類(lèi)型變化等。因此，對(duì)企業(yè)和機(jī)構(gòu)而言至關(guān)重要的是：建立與監(jiān)控服務(wù)器和應(yīng)用運(yùn)行狀況同等重要的模型在線反饋和準(zhǔn)確度測(cè)量工具，從而能了解其生產(chǎn)系統(tǒng)模型的準(zhǔn)確性水平。

完全相同的模型幾乎不能被部署兩次

在將機(jī)器學(xué)習(xí)模型轉(zhuǎn)換為生產(chǎn)級(jí)的產(chǎn)品和服務(wù)之前，另一個(gè)需要考慮的是模型通常需要進(jìn)行本地化處理。換句話說(shuō)，適用于一個(gè)地區(qū)的模型可能不適用于另一個(gè)地區(qū)。人口統(tǒng)計(jì)、語(yǔ)言和偏好是有地域差異的。為了讓模型能有效地運(yùn)作，必須仔細(xì)考慮這些因素對(duì)模型的影響。

有時(shí)，需要本地化模型是顯而易見(jiàn)的。例如，推薦體育節(jié)目的模型需要考慮在美國(guó)超級(jí)碗是最重要的體育賽事，而西班牙德比足球賽在西班牙是最大的體育賽事，同時(shí)有些國(guó)家在板球世界杯期間則是全民關(guān)注。但是，本地化模型的需求也可能不那么明顯。例如，如果考慮到醫(yī)院服務(wù)于不同的人口，接受不同的保險(xiǎn)計(jì)劃，或?qū)Ｗ⒂诓煌尼t(yī)學(xué)專(zhuān)科，即使是在同一城市的醫(yī)院之間，預(yù)測(cè)患者在出院后30天內(nèi)返回醫(yī)院的風(fēng)險(xiǎn)可能會(huì)有很大不同。

對(duì)模型進(jìn)行本地化不僅僅只適用于不同的地理區(qū)域。機(jī)器學(xué)習(xí)模型是針對(duì)特定受眾而設(shè)計(jì)的，因此企業(yè)應(yīng)該測(cè)試和測(cè)量模型在不同人口統(tǒng)計(jì)數(shù)據(jù)上的準(zhǔn)確性，以決定是否以及如何調(diào)整它們。為一組特定用戶(hù)設(shè)計(jì)的模型在大規(guī)模應(yīng)用時(shí)很少會(huì)有效。因此企業(yè)需要深入了解用于構(gòu)建模型的數(shù)據(jù)和假設(shè)，并根據(jù)需要進(jìn)行調(diào)整。

如果忽視這些差異，就可能會(huì)產(chǎn)生有偏見(jiàn)的模型。這不僅會(huì)導(dǎo)致糟糕的結(jié)果，甚至可能引發(fā)公共關(guān)系災(zāi)難。以Google為例，其面部識(shí)別軟件將黑人與大猩猩混為一談。也可能出現(xiàn)個(gè)人助理能較好地為男性工作而對(duì)女性不友好。盡管人類(lèi)生物學(xué)不會(huì)在一夜之間改變，但在醫(yī)療保健中重復(fù)使用模型也可能有聲譽(yù)風(fēng)險(xiǎn)。在做任何面向消費(fèi)者的事情時(shí)，都需要考慮人口統(tǒng)計(jì)差異。不僅要確保準(zhǔn)確的結(jié)果，更重要的是要避免在社會(huì)中產(chǎn)生新的偏見(jiàn)或使現(xiàn)有的偏見(jiàn)持久化。

衡量模型的在線準(zhǔn)確性（例如它在生產(chǎn)系統(tǒng)中的實(shí)際表現(xiàn)）是非常棘手的，即使是業(yè)內(nèi)經(jīng)驗(yàn)最豐富的團(tuán)隊(duì)也可能弄錯(cuò)。選擇正確的度量標(biāo)準(zhǔn)和測(cè)試集需要綜合數(shù)學(xué)、業(yè)務(wù)、產(chǎn)品、技術(shù)和道德方面的因素，而這些因素超出了團(tuán)隊(duì)中單個(gè)成員通常擁有技能的范圍。由于問(wèn)題僅出現(xiàn)在生產(chǎn)系統(tǒng)中且僅針對(duì)特定的用戶(hù)子集，因此它們對(duì)傳統(tǒng)形式的軟件測(cè)試和模型驗(yàn)證方法是“免疫”的。

通常，真正的建模工作從模型部署到生產(chǎn)系統(tǒng)后才開(kāi)始

與很多事情不同，機(jī)器學(xué)習(xí)是開(kāi)始容易但持續(xù)難。實(shí)際上，構(gòu)建機(jī)器學(xué)習(xí)模型確實(shí)不是太困難。任何初級(jí)數(shù)據(jù)科學(xué)家或開(kāi)發(fā)人員都可以使用一套好的訓(xùn)練數(shù)據(jù)和正確的工具來(lái)完成模型的構(gòu)建?，F(xiàn)在機(jī)器學(xué)習(xí)中最難的部分實(shí)際上是部署和維護(hù)準(zhǔn)確的模型，因?yàn)檫@需要不斷使用新數(shù)據(jù)更新模型以提高其準(zhǔn)確性。在許多情況下，這些數(shù)據(jù)只有在初始模型被客戶(hù)使用后才會(huì)出現(xiàn)。

一旦用戶(hù)開(kāi)始使用機(jī)器學(xué)習(xí)模型，模型就不再使用訓(xùn)練數(shù)據(jù)，而是使用真實(shí)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。隨著越來(lái)越多的用戶(hù)開(kāi)始使用機(jī)器學(xué)習(xí)產(chǎn)品或服務(wù)，模型從用戶(hù)反饋和實(shí)際數(shù)據(jù)中學(xué)習(xí)的潛力呈指數(shù)級(jí)增長(zhǎng)。最終使企業(yè)能夠在他們獲取用戶(hù)后持續(xù)地構(gòu)建和改進(jìn)他們的模型。這與傳統(tǒng)軟件應(yīng)用不同，傳統(tǒng)軟件在部署后的主要工作是對(duì)小錯(cuò)誤進(jìn)行修復(fù)或偶爾地升級(jí)。

在許多使用案例中，受新模型影響的用戶(hù)或競(jìng)爭(zhēng)對(duì)手會(huì)改變其行為以規(guī)避預(yù)測(cè)。這種情況會(huì)出現(xiàn)在預(yù)測(cè)欺詐、多方競(jìng)爭(zhēng)（如在線廣告競(jìng)價(jià)或算法驅(qū)動(dòng)的交易）和網(wǎng)絡(luò)安全的模型中。最近的一種情況是通過(guò)扭曲輸入直接攻擊機(jī)器學(xué)習(xí)模型，從而導(dǎo)致模型對(duì)它們做出錯(cuò)誤的分類(lèi)。這使得人們?cè)絹?lái)越重視針對(duì)對(duì)抗的模型魯棒性。這類(lèi)應(yīng)用突出了機(jī)器學(xué)習(xí)模型隨著時(shí)間推移而降級(jí)的另一個(gè)原因：在真實(shí)環(huán)境中部署的模型會(huì)不可避免地改變這個(gè)環(huán)境，從而導(dǎo)致初始模型的假設(shè)變得無(wú)效。

對(duì)于企業(yè)而言，自己的成本結(jié)構(gòu)也是一個(gè)重要的考慮因素。由于大部分工作（最急迫的工作）都是在模型部署后完成的，因此迫切需要在模型投入生產(chǎn)系統(tǒng)后將最有能力的數(shù)據(jù)科學(xué)家留在項(xiàng)目中。這可能會(huì)給企業(yè)帶來(lái)沉重的負(fù)擔(dān)，有時(shí)甚至是計(jì)劃外的開(kāi)支，因此需要事先計(jì)劃好。針對(duì)這一點(diǎn)，企業(yè)應(yīng)該確保留出足夠的預(yù)算、人力和時(shí)間，并計(jì)劃好他們的軟件發(fā)布之后的很多工作。

現(xiàn)有的有助于部署、測(cè)量和保護(hù)模型的工具

所有這些問(wèn)題都源于這樣一個(gè)事實(shí)，雖然業(yè)界的軟件工程師在運(yùn)維生產(chǎn)系統(tǒng)里的應(yīng)用程序和服務(wù)方面已經(jīng)取得了很大進(jìn)步，但在運(yùn)維機(jī)器學(xué)習(xí)解決方案方面仍然缺乏經(jīng)驗(yàn)。今天的重點(diǎn)仍然是培訓(xùn)人員來(lái)建立模型，而主要的挑戰(zhàn)卻是在模型被構(gòu)建之后。

模型被構(gòu)建后，軟件工程師需要能通過(guò)某種API來(lái)訪問(wèn)它，以便在實(shí)際產(chǎn)品和服務(wù)中使用它。然后，他們必須要有辦法持續(xù)地監(jiān)控模型的準(zhǔn)確度，并能收集用戶(hù)反饋且采取行動(dòng)以改進(jìn)模型。還有一個(gè)問(wèn)題是在部署這些模型的新版本后需要并告知用戶(hù)他們應(yīng)該使用新版本的原因。對(duì)于機(jī)器學(xué)習(xí)系統(tǒng)特有的持續(xù)集成、持續(xù)部署、變更管理、監(jiān)控以及安全工具和控制也有實(shí)際的需求。

雖然部署機(jī)器學(xué)習(xí)的模型成為產(chǎn)品和服務(wù)還是一個(gè)新興的領(lǐng)域，但目前已經(jīng)有了很多的工具可用。不過(guò)這些工具和已經(jīng)被用于“傳統(tǒng)的”軟件項(xiàng)目的工具不一樣，因?yàn)樗鼈兘鉀Q的問(wèn)題不一樣。這些工具被籠統(tǒng)地稱(chēng)為數(shù)據(jù)科學(xué)平臺(tái)，雖然在2018年這些工具所提供的功能存在著巨大的差異。

這些平臺(tái)中的大多數(shù)都是基于云的或按用戶(hù)數(shù)計(jì)費(fèi)的。這可能會(huì)使得規(guī)模化或是在企業(yè)內(nèi)部構(gòu)建獨(dú)立功能的成本很高。出于這個(gè)原因，企業(yè)應(yīng)該尋找一個(gè)包含完整源代碼、沒(méi)有商業(yè)用途限制和有現(xiàn)成實(shí)施案例的機(jī)器學(xué)習(xí)平臺(tái)。對(duì)于那些希望建立自己的機(jī)器學(xué)習(xí)能力的公司來(lái)說(shuō)，對(duì)于這樣的關(guān)鍵基礎(chǔ)設(shè)施，一個(gè)有價(jià)值的選擇是：沒(méi)有供應(yīng)商鎖定或沒(méi)有外部依賴(lài)。

但是好工具只能和能用好它們的人一起工作才有用。因此，企業(yè)應(yīng)該計(jì)劃建立DataOps專(zhuān)業(yè)知識(shí)：這是一個(gè)最近才被創(chuàng)造的將DevOps原則應(yīng)用于數(shù)據(jù)科學(xué)需求的領(lǐng)域。向那些有著豐富的部署和運(yùn)維機(jī)器學(xué)習(xí)產(chǎn)品實(shí)踐經(jīng)驗(yàn)的機(jī)器學(xué)習(xí)專(zhuān)家咨詢(xún)，可以加快這一學(xué)習(xí)過(guò)程。

隨著越來(lái)越多的企業(yè)開(kāi)始熟悉機(jī)器學(xué)習(xí)，他們迫切需要了解如何才能做好轉(zhuǎn)化模型成真實(shí)、可靠、可擴(kuò)展且安全的產(chǎn)品和服務(wù)的準(zhǔn)備。很多時(shí)候，企業(yè)在實(shí)施這個(gè)轉(zhuǎn)化時(shí)會(huì)停滯不前，因?yàn)樗麄儾恢廊绾位蛘邲](méi)有為實(shí)際部署模型相關(guān)的所有因素做好計(jì)劃。然而，憑借更好的技術(shù)實(shí)踐和正確的工具，沒(méi)有什么可以阻止你成功。

David Talby

David Talby是Pacific AI的首席技術(shù)官。他正在幫助多個(gè)快速發(fā)展的公司應(yīng)用大數(shù)據(jù)和數(shù)據(jù)科學(xué)技術(shù)來(lái)解決醫(yī)療保健、生命科學(xué)和相關(guān)領(lǐng)域的實(shí)際問(wèn)題。David在構(gòu)建和運(yùn)營(yíng)互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)科學(xué)和業(yè)務(wù)平臺(tái)以及構(gòu)建世界一流的敏捷分布的團(tuán)隊(duì)方面擁有豐富的經(jīng)驗(yàn)。在加入Pacific AI前，他曾在微軟的Bing Group工作，負(fù)責(zé)Bing Shopping在美國(guó)和歐洲的業(yè)務(wù)運(yùn)營(yíng)。他還在在西雅圖和英國(guó)為亞馬遜工作。在那里他建立并管理分布的團(tuán)隊(duì)，幫助擴(kuò)展亞馬遜財(cái)務(wù)系統(tǒng)。David擁有計(jì)算機(jī)科學(xué)博士學(xué)位和計(jì)算機(jī)科學(xué)碩士與工商管理碩士學(xué)位。