91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

管理機(jī)器學(xué)習(xí)中的風(fēng)險
在一個“機(jī)器學(xué)習(xí)模型正在成為關(guān)鍵任務(wù)”的世界里的一些思考
編者注:敬請查看2019年3月25日至28日舊金山舉辦的Strata數(shù)據(jù)大會中“數(shù)據(jù)科學(xué),機(jī)器學(xué)習(xí)和AI”議題,最惠價格將于1月11日結(jié)束。

2019年6月18-21日在北京舉行的人工智能大會議題征集已經(jīng)開始。

在這篇文章中我分享了去年9月我在紐約Strata數(shù)據(jù)會議上所發(fā)表主題演講幻燈片和筆記。?隨著數(shù)據(jù)社區(qū)開始部署更多機(jī)器學(xué)習(xí)(ML)模型,我想回顧總結(jié)一些重要的思考。

讓我們首先看一下當(dāng)前采納機(jī)器學(xué)習(xí)的情況我們最近進(jìn)行了一項(xiàng)調(diào)查,收集了超過11,000名受訪者的答案—— 這個調(diào)查的主要目的是弄清楚企業(yè)如何使用機(jī)器學(xué)習(xí)。?我們學(xué)到的很多事情中的其中一件是,許多公司仍處于部署機(jī)器學(xué)習(xí)(ML)的早期階段:

Figure1-ec159d6574366f8d1a983b8798df09b5

對于公司遲遲不予行動,保持回避的原因,我們從今年早些時候進(jìn)行的一項(xiàng)調(diào)查中發(fā)現(xiàn),公司認(rèn)為缺乏技術(shù)人才,“技能差距”是阻礙接納機(jī)器學(xué)習(xí)的主要挑戰(zhàn)。

公司一側(cè)感興趣,意味著對“機(jī)器學(xué)習(xí)人才”的需求側(cè)是健康的。?開發(fā)人員已經(jīng)注意到,并開始了解機(jī)器學(xué)習(xí)。?在我們自己的在線培訓(xùn)平臺(擁有超過210萬用戶)中,我們發(fā)現(xiàn)機(jī)器學(xué)習(xí)主題引起了讀者的濃厚興趣。?以下是我們培訓(xùn)平臺上的熱門搜索主題關(guān)鍵字:

Figure2-3140afbf405e490ee4d2446f72286c72

除了“搜索”,值得注意的是,我們觀察到看到所有媒體格式 —— 包括書籍,博文,視頻和培訓(xùn)上,與機(jī)器學(xué)習(xí)相關(guān)內(nèi)容的消費(fèi)都有強(qiáng)勁增長。

在我繼續(xù)之前,需要著重強(qiáng)調(diào)的是,機(jī)器學(xué)習(xí)不僅僅意味著建立模型。?在將許多模型部署到產(chǎn)品和服務(wù)之前,您的公司內(nèi)部需要具備相應(yīng)的文化,流程和基礎(chǔ)架構(gòu)。?在最近的Strata Data會議上,我們就相關(guān)的文化,組織和工程主題進(jìn)行了一系列的討論。?以下是最近會議中幾個相關(guān)議題的列表:

在過去的12-18個月中,使用大量機(jī)器學(xué)習(xí)并聘請數(shù)據(jù)科學(xué)家團(tuán)隊(duì)的公司一直在描述他們的內(nèi)部數(shù)據(jù)科學(xué)平臺(比如,參見UberNetflix,?TwitterFacebook)。它們共享我在下面列出的某些功能,其中包括為多個機(jī)器學(xué)習(xí)庫和框架,筆記本工具,調(diào)度工具和協(xié)作工作提供支持。?一些公司在工具中納入了高級功能,包括數(shù)據(jù)科學(xué)家分享機(jī)器學(xué)習(xí)模型中的某些特征(Feature指特征)的方法,自動搜索潛在模型的工具,甚至一些平臺具備模型部署功能:

Figure3-5ffe9303b5af30f5d7ecb6f4b2f4a4ec

當(dāng)您跨越了原型設(shè)計(jì)階段,并且實(shí)際上開始部署機(jī)器學(xué)習(xí)模型時,隨著這些模型開始與真實(shí)用戶或設(shè)備交互,將會出現(xiàn)許多挑戰(zhàn)。?David Talby在最近的一篇文章中總結(jié)了其中的一些核心的挑戰(zhàn):

  • 您的模型可能會開始降低精度
  • 需要定制模型(針對特殊的地理位置,文化情況,行業(yè)領(lǐng)域和應(yīng)用)
  • 真正的建模在部署到生產(chǎn)之后才開始

除了優(yōu)化統(tǒng)計(jì)或量化指標(biāo)之外,還有許多重要的考慮因素。?例如,在某些特定的領(lǐng)域中 – 例如信用評分或醫(yī)療健康中 – 需要模型可以被解釋。?在某些應(yīng)用領(lǐng)域(包括自動駕駛汽車或醫(yī)療應(yīng)用),安全性和估計(jì)誤差是至關(guān)重要的。?當(dāng)我們在許多種現(xiàn)實(shí)世界的情況中部署機(jī)器學(xué)習(xí)時,僅僅優(yōu)化統(tǒng)計(jì)指標(biāo)或商業(yè)指標(biāo)是不夠的。?數(shù)據(jù)科學(xué)界越來越多地參與著兩個主題,這兩個主題正是我想在本文其余部分討論的:機(jī)器學(xué)習(xí)中的隱私和公平。

隱私和安全

鑒于用戶和監(jiān)管機(jī)構(gòu)對數(shù)據(jù)隱私的興趣日益增長,人們對能夠在保護(hù)數(shù)據(jù)隱私的同時構(gòu)建機(jī)器學(xué)習(xí)模型的工具產(chǎn)生了濃厚的興趣。?這些工具依賴于構(gòu)建它們的組件模塊,我們開始看到組合了許多組件模塊的工作系統(tǒng)。?其中一些工具是開源的,可供更廣泛的數(shù)據(jù)社區(qū)使用:

Figure4-c34610ab59e48a58c28b9ca5536ba89c

  • 當(dāng)您想要在不共享私有數(shù)據(jù)的情況下協(xié)作構(gòu)建中心化的模型時,?聯(lián)合學(xué)習(xí)非常有用。?它已經(jīng)在谷歌的生產(chǎn)環(huán)境中被使用,但我們?nèi)匀恍枰ぞ邅肀WC聯(lián)合學(xué)習(xí)是廣泛可用的。
  • 我們開始看到允許您在構(gòu)建模型的同時保障差分隱私,這是在隱私領(lǐng)域最流行、最強(qiáng)大的概念之一。?在更高的角度來看,這些方法在模型構(gòu)建過程的不同階段注入隨機(jī)噪聲。?這些新興的工具集旨在讓已經(jīng)正在使用scikit-learn和TensorFlow等庫的數(shù)據(jù)科學(xué)家可以使用。?希望數(shù)據(jù)科學(xué)家很快能夠定期構(gòu)建查分隱私模型。
  • 有一小部分?jǐn)?shù)量持續(xù)增長的研究人員和企業(yè)家,正在研究是否可以在加密數(shù)據(jù)上構(gòu)建或使用機(jī)器學(xué)習(xí)模型。?在過去的一年中,我們已經(jīng)看到了用于快速同態(tài)加密的開源庫(HElibPalisade),初創(chuàng)公司們正在這些庫之上構(gòu)建機(jī)器學(xué)習(xí)工具和服務(wù)。?這里的主要瓶頸是速度:許多研究人員正在積極研究硬件和軟件工具,這些工具可以加速加密數(shù)據(jù)的模型推斷(甚至模型構(gòu)建)。
  • 安全的多方計(jì)算是該領(lǐng)域中使用的另一類很有前景的技術(shù)。

公平性

現(xiàn)在讓我們考慮一下公平性。?在過去的幾年里,許多機(jī)器學(xué)習(xí)研究人員和從業(yè)者已經(jīng)開始研究和開發(fā)有助于確保機(jī)器學(xué)習(xí)模型公平公正的工具。?就在前幾天,我搜索谷歌最近關(guān)于人工智能的新聞報(bào)道,我對涉及公平的文章數(shù)量感到驚訝。

對于本節(jié)的其余部分,我們假設(shè)某人正在建立一個分類器,并且某些變量被認(rèn)為是“受保護(hù)的屬性”(這可能包括年齡,種族,性別等等)。?事實(shí)證明,機(jī)器學(xué)習(xí)研究界已經(jīng)使用許多數(shù)學(xué)標(biāo)準(zhǔn)來定義分類器的公平性意味著什么。幸運(yùn)的是,最近斯坦福大學(xué)的一份研究報(bào)告——公平的機(jī)器學(xué)習(xí)評論——簡化了這些標(biāo)準(zhǔn),并將這些衡量標(biāo)準(zhǔn)分為以下幾類:

Figure5-f9f1d427466b0862997cfbb3b54304f0

  • 抗分類是指從模型或分類器中省略受保護(hù)的特征及其代理變量?。
  • 分類平衡性意味著,一個或多個標(biāo)準(zhǔn)性能指標(biāo)(例如,假陽性和假陰性率,準(zhǔn)確度,召回率)在不同受保護(hù)特征形成的組之間是相同的。
  • 校準(zhǔn)?:如果算法產(chǎn)生了一個“分?jǐn)?shù)”,針對不同群體相同的分?jǐn)?shù)應(yīng)該意味著同樣的事情。

然而,正如斯坦福大學(xué)的作者在他們的論文中指出的那樣,上述每種數(shù)學(xué)上的形式化定義都存在著局限性。?在公平性方面,沒有黑箱或套路可以將你的算法套用進(jìn)去,并產(chǎn)生一個清晰的診斷。不存在所謂一勞永逸的通用流程。

正因?yàn)闆]有鐵打的流程,你需要一個團(tuán)隊(duì),讓數(shù)據(jù)管線循環(huán)包含真人。公平性的這種提法不僅對不同領(lǐng)域和問題背景是不同的,而且正如加州大學(xué)伯克利分校的研究人員最近指出的那樣,還存在著一個時間維度(“我們主張?jiān)?#8217;公平’機(jī)器學(xué)習(xí)的討論中尋求長期結(jié)果” )。?我們需要的是能夠查詢數(shù)據(jù)并了解潛在的分布數(shù)據(jù)科學(xué)家,他們可以與有能力全面評估模型的領(lǐng)域?qū)<乙黄鸸ぷ鳌?/p>

文化和組織

隨著我們部署更多模型,很明顯我們需要考慮優(yōu)化統(tǒng)計(jì)和業(yè)務(wù)指標(biāo)。雖然我在這篇短文中沒有涉及到它們,但很明顯,可靠性和安全性隨著發(fā)展的進(jìn)行,非常重要。?在機(jī)器學(xué)習(xí)模型必須考慮許多其他重要事項(xiàng)的世界中,您該如何建立和組織您的團(tuán)隊(duì)?

Figure6-7a18026e31d6e1fef3a0836b17b8adb8

幸運(yùn)的是,我們的數(shù)據(jù)社區(qū)成員一直在考慮這些問題。?隱私論壇的未來和Immuta最近發(fā)布了一份報(bào)告,其中提出了一些很棒的建議,這些建議是關(guān)于如何帶著風(fēng)險管理的意識處理機(jī)器學(xué)習(xí)項(xiàng)目的:

  • 當(dāng)您從事機(jī)器學(xué)習(xí)項(xiàng)目時,您需要聘請數(shù)據(jù)工程師,數(shù)據(jù)科學(xué)家和領(lǐng)域?qū)<摇?/li>
  • 報(bào)告中概述的一個重要變化是,需要一組獨(dú)立于該模型構(gòu)建團(tuán)隊(duì)的數(shù)據(jù)科學(xué)家。?然后,這個“驗(yàn)證者”團(tuán)隊(duì)可以負(fù)責(zé)用可解釋性,隱私性和公平性等等來評估機(jī)器學(xué)習(xí)模型。

結(jié)束語

那么,在機(jī)器學(xué)習(xí)模型日益重要的世界中,哪些技能是被需要的呢??如上所述,公平性審計(jì)將需要一組數(shù)據(jù)專家和領(lǐng)域?qū)<业幕旌蠄F(tuán)隊(duì)。?事實(shí)上,?最近對NBER職位發(fā)布的分析發(fā)現(xiàn),與其他數(shù)據(jù)分析技能相比,機(jī)器學(xué)習(xí)技能往往與領(lǐng)域知識捆綁在一起。

不過,除了您的數(shù)據(jù)專家和領(lǐng)域?qū)<乙酝?,您還需要法律和安全專家一起補(bǔ)充您的團(tuán)隊(duì)。?展望未來,我們需要讓法律、合規(guī)、數(shù)據(jù)安全人員與數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師更緊密地合作。

Figure7-d95f79ce54e3c5c2c45017702f747833

這個結(jié)論不應(yīng)該令人震驚:我們已經(jīng)在桌面安全,網(wǎng)絡(luò)安全和移動安全進(jìn)行投資。?如果機(jī)器學(xué)習(xí)要通吃軟件行業(yè),我們就需要努力解決人工智能和機(jī)器學(xué)習(xí)的安全問題。

相關(guān)內(nèi)容:

Ben Lorica

Ben Lorica是O'Reilly Media, Inc. 的首席數(shù)據(jù)科學(xué)家,也是Strata數(shù)據(jù)會議和人工智能會議的日程主管。 他在各種場景中應(yīng)用了商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析,這些場景包括:直銷,消費(fèi)者和市場研究,精準(zhǔn)廣告,文本挖掘和金融工程。 他的背景涵蓋了投資管理公司,互聯(lián)網(wǎng)創(chuàng)業(yè)公司和金融服務(wù)公司。

The Flying Wallendas 7-Man Pyramid, 2005 (source: Porterlu on Wikimedia Commons)