耳根,我吃西红柿,我欲封天txt下载

管理機(jī)器學(xué)習(xí)中的風(fēng)險

在一個“機(jī)器學(xué)習(xí)模型正在成為關(guān)鍵任務(wù)”的世界里的一些思考

Ben Lorica, 2018年11月13日

編者注：敬請查看2019年3月25日至28日舊金山舉辦的Strata數(shù)據(jù)大會中“數(shù)據(jù)科學(xué)，機(jī)器學(xué)習(xí)和AI”議題，最惠價格將于1月11日結(jié)束。

2019年6月18-21日在北京舉行的人工智能大會議題征集已經(jīng)開始。

在這篇文章中我分享了去年9月我在紐約Strata數(shù)據(jù)會議上所發(fā)表主題演講幻燈片和筆記。?隨著數(shù)據(jù)社區(qū)開始部署更多機(jī)器學(xué)習(xí)（ML）模型，我想回顧總結(jié)一些重要的思考。

讓我們首先看一下當(dāng)前采納機(jī)器學(xué)習(xí)的情況我們最近進(jìn)行了一項(xiàng)調(diào)查，收集了超過11,000名受訪者的答案—— 這個調(diào)查的主要目的是弄清楚企業(yè)如何使用機(jī)器學(xué)習(xí)。?我們學(xué)到的很多事情中的其中一件是，許多公司仍處于部署機(jī)器學(xué)習(xí)（ML）的早期階段：

Figure1-ec159d6574366f8d1a983b8798df09b5

對于公司遲遲不予行動，保持回避的原因，我們從今年早些時候進(jìn)行的一項(xiàng)調(diào)查中發(fā)現(xiàn)，公司認(rèn)為缺乏技術(shù)人才，“技能差距”是阻礙接納機(jī)器學(xué)習(xí)的主要挑戰(zhàn)。

公司一側(cè)感興趣，意味著對“機(jī)器學(xué)習(xí)人才”的需求側(cè)是健康的。?開發(fā)人員已經(jīng)注意到，并開始了解機(jī)器學(xué)習(xí)。?在我們自己的在線培訓(xùn)平臺（擁有超過210萬用戶）中，我們發(fā)現(xiàn)機(jī)器學(xué)習(xí)主題引起了讀者的濃厚興趣。?以下是我們培訓(xùn)平臺上的熱門搜索主題關(guān)鍵字：

Figure2-3140afbf405e490ee4d2446f72286c72

除了“搜索”，值得注意的是，我們觀察到看到所有媒體格式 —— 包括書籍，博文，視頻和培訓(xùn)上，與機(jī)器學(xué)習(xí)相關(guān)內(nèi)容的消費(fèi)都有強(qiáng)勁增長。

在我繼續(xù)之前，需要著重強(qiáng)調(diào)的是，機(jī)器學(xué)習(xí)不僅僅意味著建立模型。?在將許多模型部署到產(chǎn)品和服務(wù)之前，您的公司內(nèi)部需要具備相應(yīng)的文化，流程和基礎(chǔ)架構(gòu)。?在最近的Strata Data會議上，我們就相關(guān)的文化，組織和工程主題進(jìn)行了一系列的討論。?以下是最近會議中幾個相關(guān)議題的列表：

數(shù)據(jù)集成和數(shù)據(jù)管道
數(shù)據(jù)平臺
模型生命周期管理

在過去的12-18個月中，使用大量機(jī)器學(xué)習(xí)并聘請數(shù)據(jù)科學(xué)家團(tuán)隊(duì)的公司一直在描述他們的內(nèi)部數(shù)據(jù)科學(xué)平臺（比如，參見Uber，Netflix，?Twitter和Facebook）。它們共享我在下面列出的某些功能，其中包括為多個機(jī)器學(xué)習(xí)庫和框架，筆記本工具，調(diào)度工具和協(xié)作工作提供支持。?一些公司在工具中納入了高級功能，包括數(shù)據(jù)科學(xué)家分享機(jī)器學(xué)習(xí)模型中的某些特征（Feature指特征）的方法，自動搜索潛在模型的工具，甚至一些平臺具備模型部署功能：

Figure3-5ffe9303b5af30f5d7ecb6f4b2f4a4ec

當(dāng)您跨越了原型設(shè)計(jì)階段，并且實(shí)際上開始部署機(jī)器學(xué)習(xí)模型時，隨著這些模型開始與真實(shí)用戶或設(shè)備交互，將會出現(xiàn)許多挑戰(zhàn)。?David Talby在最近的一篇文章中總結(jié)了其中的一些核心的挑戰(zhàn)：

您的模型可能會開始降低精度
需要定制模型（針對特殊的地理位置，文化情況，行業(yè)領(lǐng)域和應(yīng)用）
真正的建模在部署到生產(chǎn)之后才開始

除了優(yōu)化統(tǒng)計(jì)或量化指標(biāo)之外，還有許多重要的考慮因素。?例如，在某些特定的領(lǐng)域中 – 例如信用評分或醫(yī)療健康中 – 需要模型可以被解釋。?在某些應(yīng)用領(lǐng)域（包括自動駕駛汽車或醫(yī)療應(yīng)用），安全性和估計(jì)誤差是至關(guān)重要的。?當(dāng)我們在許多種現(xiàn)實(shí)世界的情況中部署機(jī)器學(xué)習(xí)時，僅僅優(yōu)化統(tǒng)計(jì)指標(biāo)或商業(yè)指標(biāo)是不夠的。?數(shù)據(jù)科學(xué)界越來越多地參與著兩個主題，這兩個主題正是我想在本文其余部分討論的：機(jī)器學(xué)習(xí)中的隱私和公平。

隱私和安全

鑒于用戶和監(jiān)管機(jī)構(gòu)對數(shù)據(jù)隱私的興趣日益增長，人們對能夠在保護(hù)數(shù)據(jù)隱私的同時構(gòu)建機(jī)器學(xué)習(xí)模型的工具產(chǎn)生了濃厚的興趣。?這些工具依賴于構(gòu)建它們的組件模塊，我們開始看到組合了許多組件模塊的工作系統(tǒng)。?其中一些工具是開源的，可供更廣泛的數(shù)據(jù)社區(qū)使用：

Figure4-c34610ab59e48a58c28b9ca5536ba89c

當(dāng)您想要在不共享私有數(shù)據(jù)的情況下協(xié)作構(gòu)建中心化的模型時，?聯(lián)合學(xué)習(xí)非常有用。?它已經(jīng)在谷歌的生產(chǎn)環(huán)境中被使用，但我們?nèi)匀恍枰ぞ邅肀ＷC聯(lián)合學(xué)習(xí)是廣泛可用的。
我們開始看到允許您在構(gòu)建模型的同時保障差分隱私，這是在隱私領(lǐng)域最流行、最強(qiáng)大的概念之一。?在更高的角度來看，這些方法在模型構(gòu)建過程的不同階段注入隨機(jī)噪聲。?這些新興的工具集旨在讓已經(jīng)正在使用scikit-learn和TensorFlow等庫的數(shù)據(jù)科學(xué)家可以使用。?希望數(shù)據(jù)科學(xué)家很快能夠定期構(gòu)建查分隱私模型。
有一小部分?jǐn)?shù)量持續(xù)增長的研究人員和企業(yè)家，正在研究是否可以在加密數(shù)據(jù)上構(gòu)建或使用機(jī)器學(xué)習(xí)模型。?在過去的一年中，我們已經(jīng)看到了用于快速同態(tài)加密的開源庫（HElib和Palisade），初創(chuàng)公司們正在這些庫之上構(gòu)建機(jī)器學(xué)習(xí)工具和服務(wù)。?這里的主要瓶頸是速度：許多研究人員正在積極研究硬件和軟件工具，這些工具可以加速加密數(shù)據(jù)的模型推斷（甚至模型構(gòu)建）。
安全的多方計(jì)算是該領(lǐng)域中使用的另一類很有前景的技術(shù)。

公平性

現(xiàn)在讓我們考慮一下公平性。?在過去的幾年里，許多機(jī)器學(xué)習(xí)研究人員和從業(yè)者已經(jīng)開始研究和開發(fā)有助于確保機(jī)器學(xué)習(xí)模型公平公正的工具。?就在前幾天，我搜索谷歌最近關(guān)于人工智能的新聞報(bào)道，我對涉及公平的文章數(shù)量感到驚訝。

對于本節(jié)的其余部分，我們假設(shè)某人正在建立一個分類器，并且某些變量被認(rèn)為是“受保護(hù)的屬性”（這可能包括年齡，種族，性別等等）。?事實(shí)證明，機(jī)器學(xué)習(xí)研究界已經(jīng)使用許多數(shù)學(xué)標(biāo)準(zhǔn)來定義分類器的公平性意味著什么。幸運(yùn)的是，最近斯坦福大學(xué)的一份研究報(bào)告——公平的機(jī)器學(xué)習(xí)評論——簡化了這些標(biāo)準(zhǔn)，并將這些衡量標(biāo)準(zhǔn)分為以下幾類：

Figure5-f9f1d427466b0862997cfbb3b54304f0

抗分類是指從模型或分類器中省略受保護(hù)的特征及其代理變量?。
分類平衡性意味著，一個或多個標(biāo)準(zhǔn)性能指標(biāo)（例如，假陽性和假陰性率，準(zhǔn)確度，召回率）在不同受保護(hù)特征形成的組之間是相同的。
校準(zhǔn)?：如果算法產(chǎn)生了一個“分?jǐn)?shù)”，針對不同群體相同的分?jǐn)?shù)應(yīng)該意味著同樣的事情。

然而，正如斯坦福大學(xué)的作者在他們的論文中指出的那樣，上述每種數(shù)學(xué)上的形式化定義都存在著局限性。?在公平性方面，沒有黑箱或套路可以將你的算法套用進(jìn)去，并產(chǎn)生一個清晰的診斷。不存在所謂一勞永逸的通用流程。

正因?yàn)闆]有鐵打的流程，你需要一個團(tuán)隊(duì)，讓數(shù)據(jù)管線循環(huán)包含真人。公平性的這種提法不僅對不同領(lǐng)域和問題背景是不同的，而且正如加州大學(xué)伯克利分校的研究人員最近指出的那樣，還存在著一個時間維度（“我們主張?jiān)?#8217;公平’機(jī)器學(xué)習(xí)的討論中尋求長期結(jié)果” ）。?我們需要的是能夠查詢數(shù)據(jù)并了解潛在的分布數(shù)據(jù)科學(xué)家，他們可以與有能力全面評估模型的領(lǐng)域?qū)＜乙黄鸸ぷ鳌?/p>

文化和組織

隨著我們部署更多模型，很明顯我們需要考慮優(yōu)化統(tǒng)計(jì)和業(yè)務(wù)指標(biāo)。雖然我在這篇短文中沒有涉及到它們，但很明顯，可靠性和安全性隨著發(fā)展的進(jìn)行，非常重要。?在機(jī)器學(xué)習(xí)模型必須考慮許多其他重要事項(xiàng)的世界中，您該如何建立和組織您的團(tuán)隊(duì)？

Figure6-7a18026e31d6e1fef3a0836b17b8adb8

幸運(yùn)的是，我們的數(shù)據(jù)社區(qū)成員一直在考慮這些問題。?隱私論壇的未來和Immuta最近發(fā)布了一份報(bào)告，其中提出了一些很棒的建議，這些建議是關(guān)于如何帶著風(fēng)險管理的意識處理機(jī)器學(xué)習(xí)項(xiàng)目的：

當(dāng)您從事機(jī)器學(xué)習(xí)項(xiàng)目時，您需要聘請數(shù)據(jù)工程師，數(shù)據(jù)科學(xué)家和領(lǐng)域?qū)＜摇?/li>
報(bào)告中概述的一個重要變化是，需要一組獨(dú)立于該模型構(gòu)建團(tuán)隊(duì)的數(shù)據(jù)科學(xué)家。?然后，這個“驗(yàn)證者”團(tuán)隊(duì)可以負(fù)責(zé)用可解釋性，隱私性和公平性等等來評估機(jī)器學(xué)習(xí)模型。

結(jié)束語

那么，在機(jī)器學(xué)習(xí)模型日益重要的世界中，哪些技能是被需要的呢？?如上所述，公平性審計(jì)將需要一組數(shù)據(jù)專家和領(lǐng)域?qū)＜业幕旌蠄F(tuán)隊(duì)。?事實(shí)上，?最近對NBER職位發(fā)布的分析發(fā)現(xiàn)，與其他數(shù)據(jù)分析技能相比，機(jī)器學(xué)習(xí)技能往往與領(lǐng)域知識捆綁在一起。

不過，除了您的數(shù)據(jù)專家和領(lǐng)域?qū)＜乙酝?，您還需要法律和安全專家一起補(bǔ)充您的團(tuán)隊(duì)。?展望未來，我們需要讓法律、合規(guī)、數(shù)據(jù)安全人員與數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師更緊密地合作。

Figure7-d95f79ce54e3c5c2c45017702f747833

這個結(jié)論不應(yīng)該令人震驚：我們已經(jīng)在桌面安全，網(wǎng)絡(luò)安全和移動安全進(jìn)行投資。?如果機(jī)器學(xué)習(xí)要通吃軟件行業(yè)，我們就需要努力解決人工智能和機(jī)器學(xué)習(xí)的安全問題。

Ben Lorica

Ben Lorica是O'Reilly Media, Inc. 的首席數(shù)據(jù)科學(xué)家，也是Strata數(shù)據(jù)會議和人工智能會議的日程主管。他在各種場景中應(yīng)用了商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析，這些場景包括：直銷，消費(fèi)者和市場研究，精準(zhǔn)廣告，文本挖掘和金融工程。他的背景涵蓋了投資管理公司，互聯(lián)網(wǎng)創(chuàng)業(yè)公司和金融服務(wù)公司。