91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

檢驗機器學(xué)習(xí)可解釋性的技巧
測試你的工具,使用多種工具,以及在各種可解釋性技術(shù)中尋求一致性的重要性。
編者注:此文摘錄自Patrick Hall和Navdeep Gill的報告“機器學(xué)習(xí)解釋性簡介”,您可以閱讀O'Reilly學(xué)習(xí)平臺上的完整報告 。

2019年6月18-21日在北京舉行的人工智能大會議題征集已經(jīng)開始。

解釋機器學(xué)習(xí)模型是目前數(shù)據(jù)科學(xué)界一個相當(dāng)熱門的話題。 機器學(xué)習(xí)模型需要可被解釋,以便先進的預(yù)測建模技術(shù)被更廣泛地采納,防止社會歧視性預(yù)測,防止對決策系統(tǒng)的惡意攻擊,因為機器學(xué)習(xí)模型能夠簡單直接地影響我們的工作和生活。 與應(yīng)用機器學(xué)習(xí)領(lǐng)域中的其他人一樣,我和H2O.ai的同事在過去18個月左右的時間里一直在開發(fā)機器學(xué)習(xí)的可解釋性軟件。

我們可以在今年早些時候的O’Reilly報告中,對可解釋性領(lǐng)域的應(yīng)用問題進行總結(jié)。 接下來是該報告的摘錄,以及一些新的額外閱讀材料。 本文將重點介紹一點重要的,但似乎不太經(jīng)常被討論的可解釋性問題:機器學(xué)習(xí)可解釋性技術(shù)的近似性質(zhì),以及如何檢驗對模型的解釋。

為什么我們需要測試可解釋性技術(shù)?

最嚴肅的數(shù)據(jù)科學(xué)從業(yè)者理解這一點:機器學(xué)習(xí)可以在競爭激烈的受監(jiān)管行業(yè)中,產(chǎn)生更準確的模型并最終獲得財務(wù)收益……前提是它更容易解釋。 那么為什么不是每個人都試試可解釋的機器學(xué)習(xí)呢?簡單回答之:從根本上說,這很難,這是一個非常新的研究領(lǐng)域。 機器學(xué)習(xí)可解釋性中兩個最棘手的問題是:1)大多數(shù)流行的機器學(xué)習(xí)模型具有組合、重組輸入變量的趨勢,以及 2)被稱為“ 良好模型的多樣性 ”的現(xiàn)象。這兩個問題從某種意義上,共同構(gòu)成了絕大部分機器學(xué)習(xí)可解釋性技術(shù)。

機器學(xué)習(xí)模型對變量進行組合,但我們需要基于單個變量的解釋

流行的機器學(xué)習(xí)模型可以比傳統(tǒng)的線性模型生成更準確的預(yù)測的主要機制是,它學(xué)習(xí)到了輸入變量之間的高階交互作用。 圖1顯示了簡單的人工神經(jīng)網(wǎng)絡(luò)(ANN)的簡單圖示。 我們可以看到原始輸入變量x1?x5被組合在網(wǎng)絡(luò)的第一個隱層中,得到神經(jīng)元h11?h14 ,它們在網(wǎng)絡(luò)的第二層隱層中重新組合,構(gòu)成了神經(jīng)元h21?h23,其在網(wǎng)絡(luò)的第三層隱層再次被重組,構(gòu)成了在最終做出預(yù)測之前所需要的神經(jīng)元h31和h32。

Figure1-0a69202757b8bc4aaff8c6d993c4629c

圖1.人工神經(jīng)網(wǎng)絡(luò)的圖示。 感謝由H2O.ai提供的圖片

雖然學(xué)習(xí)如何權(quán)衡輸入變量的復(fù)雜組合能夠帶來更準確的預(yù)測,但它使解釋機器學(xué)習(xí)模型變得真的很困難。 絕大多數(shù)人,和一些非常嚴謹?shù)谋O(jiān)管法規(guī),都偏好于那些可被解釋的預(yù)測模型生成的決策,是由原始輸入變量所帶來的,而不是輸入變量的任意高階組合、縮放、加權(quán)組合所帶來的。

如果您申請一張信用卡被拒絕,貸款人通常不會說這是因為您的負債/收入比率、儲蓄賬戶余額、郵政編碼、打網(wǎng)球傾向、信用記錄長度以及信用評分的加權(quán)/縮放組合的反正切值等于0.57。 就算這可能是模型決定拒絕您的方式,貸方通常也需要打散這個決策,并嘗試用簡單的術(shù)語,每次僅使用一個原始輸入變量,并且僅使用重要的原始變量向您進行解釋。例如,陳述您的債務(wù)/收入比率太高,信用評分太低,而信用記錄太短。 對于機器學(xué)習(xí)模型而言,這種分解過程通常只是近似的,并不真正代表機器學(xué)習(xí)模型實際就是這么進行預(yù)測的。 這也是我們應(yīng)該使用幾種不同類型的可解釋性技術(shù)來相互校驗、為什么我們應(yīng)該對機器學(xué)習(xí)可解釋性技術(shù)進行檢驗的一個主要原因。

好模型的多樣性

2001年開創(chuàng)性的論文中加州大學(xué)伯克利分校的教授Leo Breiman讓這樣一句話變得流行起來:“好模型的多樣性?!边@句話意味著對于同一組輸入變量和預(yù)測目標(biāo),復(fù)雜的機器學(xué)習(xí)算法可以產(chǎn)生多個精確的模型,這些模型內(nèi)部結(jié)構(gòu)類似,但不完全相同。 (一些信用評分將這種現(xiàn)象稱為“模型局部性”。)

圖2是非凸面誤差率曲面的形象描述,其表征了一個機器學(xué)習(xí)算法的誤差函數(shù),這個算法具有兩個輸入- 比如客戶的收入和客戶的利率 – 以及輸出,例如同一客戶的貸款違約概率。 這種沒有明顯全局最小值的非凸錯誤率曲面,意味著復(fù)雜的機器學(xué)習(xí)算法可以學(xué)到許多不同的方式來組合客戶的收入和客戶的利率,從而做出關(guān)于何時可能違約的準確判斷。每一種不同的權(quán)重構(gòu)建了一個不同的判斷貸款違約的函數(shù),每一個這樣的函數(shù)都有著不同的解釋。所有這些都是解釋模型的障礙,因為來自非常相似的模型的非常類似的預(yù)測,仍然可以有不同的解釋。 由于這種系統(tǒng)的不穩(wěn)定性,我們應(yīng)該使用幾種可解釋性技術(shù)來檢驗單個模型的數(shù)種解釋,我們應(yīng)該在多種建模和解釋技術(shù)中尋求具有一致性的結(jié)果,并且我們應(yīng)該檢驗我們的解釋性技術(shù)。

Figure2-a1682e601f8aef28353b296644fa7874

圖2.機器學(xué)習(xí)模型錯誤率曲面的圖示。 感謝由H2O.ai提供的圖片

我們?nèi)绾螜z驗可解釋性技術(shù)?

由于對機器學(xué)習(xí)解釋的近似性質(zhì),能夠引發(fā)且經(jīng)常導(dǎo)致對模型解釋性本身的質(zhì)疑, 因此我們需要檢驗解釋的準確性。 不要煩惱 —— 這當(dāng)然是可行的!最初, 研究人員提出了檢驗機器學(xué)習(xí)模型解釋的方法,通過模型的容量,幫助人們識別建模錯誤,發(fā)現(xiàn)新事實,減少模型預(yù)測中的社會學(xué)歧視,或使人類能夠根據(jù)輸入數(shù)據(jù)值正確地確定模型預(yù)測的結(jié)果。 人類的確認,可能是機器學(xué)習(xí)可解釋性的最高門檻,但最近的研究強調(diào)了對先入為主,對簡單性的傾向偏好,以及人類評估中的其他偏見等一系列問題的潛在擔(dān)憂 。 鑒于專業(yè)的人工評估研究對于大多數(shù)商業(yè)數(shù)據(jù)科學(xué)或機器學(xué)習(xí)小組來說可能永遠是不切實際的,我們在這里(也可能是其他地方)提出了幾種其他用于檢驗?zāi)P徒忉尩淖詣踊椒ǎ何覀兛梢允褂镁哂幸阎獢?shù)字統(tǒng)計特征的模擬數(shù)據(jù)來對解釋進行檢驗; 我們可以針對同一個數(shù)據(jù)集,將新的解釋與舊的、可靠的解釋進行比較; 我們可以檢驗解釋是否具備穩(wěn)定性。 使用模擬數(shù)據(jù)來對解釋進行檢驗,對于我們在H2O的工作中顯得卓有成效,因此我們將在本文中深入研究該方法的更多細節(jié)。

在完全隨機的、一組輸入變量和一個預(yù)測目標(biāo)之間完全沒有聯(lián)系的數(shù)據(jù)上訓(xùn)練得到的模型,不應(yīng)該對任何輸入變量賦予很強的權(quán)重,也不該產(chǎn)生具有說服力的本地解釋。 圖3顯示了全局變量重要性,由三個不同的工具計算: XGBoost, treeinterpretershap,用于檢驗在隨機數(shù)據(jù)上訓(xùn)練的XGBoost GBM二分類模型。 從這三種相互確認的方法中,我們可以相當(dāng)確定XGBoost模型沒有過度擬合隨機信號,給予任何一個變量遠超過另一個變量的權(quán)重,我們可以看到全局解釋性大致互相符合,也符合我們已知的隨機生成的訓(xùn)練數(shù)據(jù)的情況。

Figure3-3144fad49385ed8a0238e1e992d07ff1

圖3.在隨機數(shù)據(jù)上訓(xùn)練的XGBoost模型的全局變量重要性。 感謝由H2O.ai提供的圖片

我們也可以用同樣的方式檢驗變量的局部重要性。 給定在隨機數(shù)據(jù)上訓(xùn)練的相同XGBoost模型,對于代表中位數(shù)預(yù)測的但行數(shù)據(jù),我們可以預(yù)期沒有哪個變量對模型預(yù)測做出很大貢獻,并且小的局部貢獻大致隨機分布在一定的正負貢獻。 圖4使用了LIME,treeinterpreter和shap方法向我們展示了這個結(jié)果,并且應(yīng)該有助于增強對模型和解釋的信任。 現(xiàn)在我們從局部的角度看,XGBoost沒有在隨機數(shù)據(jù)上發(fā)生過擬合,解釋工具基本可以相互確認,并且和訓(xùn)練數(shù)據(jù)中的已知的信號隨機性相符合。

figure_4-2-593a45817445e8204f41fa89670782d4

圖4.對隨機數(shù)據(jù)訓(xùn)練的XGBoost模型的局部變量重要性。 感謝由H2O.ai提供的圖片

我們可以使用具有已知信號生成函數(shù)的模擬數(shù)據(jù)來檢驗一個事實,即“解釋已經(jīng)準確表達了那個已知函數(shù)”。 圖5顯示了,對于在已知信號生成函數(shù)上訓(xùn)練的XGBoost GBM二元分類器模型,XGBoost,treeinterpreter和shap工具給出的全局變量重要性,其中e是一個小的隨機誤差項:

num1?num4+|num8|?num92+e

在圖5中,我們可以看到,雖然這三個工具沒有按照完全相同的順序?qū)χ匾淖兞窟M行排序,但模型明確知道,信號生成函數(shù)中的四個變量比我們生成的訓(xùn)練數(shù)據(jù)中的其他變量更重要。 這些解釋,在我們的模擬數(shù)據(jù)實驗中展示了已知的基本事實,因此這歌結(jié)果應(yīng)該增加我們對建模和解釋方法的信任度。

Figure5-f699bfac8bcac97975286a460836fae0

圖5.在已知信號生成函數(shù)上訓(xùn)練的XGBoost模型的全局變量重要性。 變量num1,num4,num8和num9應(yīng)該很重要。 感謝由H2O.ai提供的圖片

圖6展示的例子里,使用相同的XGBoost模型和模擬訓(xùn)練數(shù)據(jù)進行局部解釋。 在這里,我們看到一些有趣的情形:雖然所有解釋性技術(shù)都將num9,num8和num4視為重要,但它們也把噪音變量num2包括進來了。 如果只有一種解釋性技術(shù)發(fā)現(xiàn)num2具有局部重要性,那么那種解釋技術(shù)的有效性需要被質(zhì)疑。但由于所有三種可解釋性工具都將num2視為具有局部重要性,因此更有可能是模型本身認為num2是重要的。 這是可解釋性技術(shù)能夠幫助進行模型調(diào)錯的一個例子。

盡管使用了驗證集和L1和L2正則化,我們的XGBoost模型學(xué)到了一個不重要的變量num2在其預(yù)測的中位數(shù)范圍內(nèi)是重要的。 也許需要更多的訓(xùn)練數(shù)據(jù),更多的驗證數(shù)據(jù),交叉驗證,更多或不同的正則化,或者其他措施能夠挽救這個問題。 這里的關(guān)鍵是,局部解釋技術(shù)是發(fā)現(xiàn)這個問題所必需的技術(shù),并且所有局部技術(shù)一致地給出了“該模型賦予num2太多權(quán)重”的結(jié)果。 此外,對于中位數(shù)預(yù)測,正如我們預(yù)期的那樣,treeinterpreter和Shapley給出數(shù)值大致相當(dāng)?shù)木植空摍?quán)重。不過,LIME對所有重要變量都給出了負的局部權(quán)重。 LIME在這種情況下失效了嗎? 不見得。 我們必須記住,LIME的解釋有一個線性截距項的偏移。通過一點深入挖掘,我們可以看到,對于一個GBM給出0.3預(yù)測的樣本,LIME的模型截距項為0.7。 基于此信息,LIME可能會認為num1,num4,num8和num9是重要的,但給予了它們負的局部權(quán)重。

figure_6-2-cbb63403b52a08159e57327c1b51cd79

圖6.在已知信號生成函數(shù)上訓(xùn)練的XGBoost模型的局部變量重要性。 變量num1,num4,num8和num9理應(yīng)是很重要的。 感謝由H2O.ai提供的圖片

我們已經(jīng)展示了幾種解釋行為基本正確的情況,但我們有時會發(fā)現(xiàn)解釋失效了,并且在生產(chǎn)環(huán)境應(yīng)用上捕獲和調(diào)試這些失效要比在模擬數(shù)據(jù)上更難。查看我們的Github倉庫以參考某些失效的情況,我們討論過的一些檢驗的細節(jié),以及使用開源建模和模擬數(shù)據(jù)解釋包來檢驗解釋的更多例子。

除了針對模擬數(shù)據(jù)進行測試外,我們還采用了一些其他程序的方法來檢驗機器學(xué)習(xí)解釋,您可能會發(fā)現(xiàn)這些解釋也很有幫助。

隨著預(yù)測精度變化,解釋的穩(wěn)定性

如果對于一個簡單線性模型,之前存在一個已知的準確解釋,我們可以將它們當(dāng)成一個參照,用于檢查一個功能相近,有希望精度更高,但是更復(fù)雜的模型。您可以執(zhí)行檢驗,查看模型在其預(yù)測的解釋偏離已知標(biāo)準之前的仍然具有的準確程度。

在數(shù)據(jù)擾動下,解釋的穩(wěn)定性

對于輸入數(shù)據(jù)的微小變化,可靠的解釋應(yīng)該不會發(fā)生巨大變化。 您可以在解釋值允許的范圍內(nèi),自動化地設(shè)置和檢驗輸入數(shù)據(jù)擾動程度的閾值。

結(jié)論

我們在這總結(jié)一些重點:檢驗?zāi)慕忉尮ぞ?,使用多種類型的工具來解釋您的機器學(xué)習(xí)模型,并在不同的解釋方法中尋找一致性的結(jié)果。 此外,請記住,并非所有解釋方法和工具都相同。 有些是基于嚴肅的理論,并且謹慎和嚴謹?shù)貙嵤?有些就不是這樣。 根據(jù)我們過去18個月左右的經(jīng)驗,Shapley給出的解釋確實是超越其他方案的一種很好的解釋方法,特別是在使用基于樹的建模技術(shù)時。 LIME似乎是其他類型機器學(xué)習(xí)模型的最佳選擇,不過有時候它表現(xiàn)的有些奇怪。本文中討論的Shapley,LIME和treeinterpreter只是當(dāng)今許多可解釋技術(shù)中的一小部分。 還有許多其他可解釋性方法和工具,它們各有利弊;還存在著許多類型的可解釋模型,以及關(guān)于機器學(xué)習(xí)可解釋性具有自己獨特需求的問題和領(lǐng)域。 我們的長報告中更多地介紹了相關(guān)主題和內(nèi)容 ,因此如果這篇文章有用,請務(wù)必查看長報告。

機器學(xué)習(xí):快速簡單的定義獲取機器學(xué)習(xí)的基本概述,然后通過推薦的資源進行深入了解。

Patrick Hall

Patrick Hall是H2O.ai的數(shù)據(jù)科學(xué)產(chǎn)品高級總監(jiān),主要負責(zé)模型可解釋性和模型管理。 帕特里克目前還是喬治華盛頓大學(xué)決策科學(xué)系的兼職教授,在那里他教授數(shù)據(jù)挖掘和機器學(xué)習(xí)的研究生課程。 在加入H2O.ai之前,Patrick曾在SAS Institute擔(dān)任全球客戶溝通職位和研發(fā)職位。

Navdeep Gill

Navdeep Gill是H2O.ai的軟件工程師和數(shù)據(jù)科學(xué)家,專注于模型可解釋性,機器學(xué)習(xí)的GPU加速,以及機器學(xué)習(xí)自動化。 他畢業(yè)于加州州立大學(xué)東灣分校,獲得計算統(tǒng)計學(xué)碩士學(xué)位,統(tǒng)計學(xué)學(xué)士學(xué)位和心理學(xué)學(xué)士學(xué)位(輔修數(shù)學(xué))。 在他的教育經(jīng)歷期間,他對機器學(xué)習(xí),時間序列分析,統(tǒng)計計算,數(shù)據(jù)挖掘和數(shù)據(jù)可視化產(chǎn)生了興趣。 可以通過Twitter 賬號@Navdeep_Gill_ 與Navdeep聯(lián)系。

Lingyao Meng

Lingyao Meng在H2O.ai進行了機器學(xué)習(xí)可解釋性的研究。 Lingyao于2017年畢業(yè)于喬治華盛頓大學(xué)商業(yè)分析碩士項目,于2015年獲得格林內(nèi)爾大學(xué)數(shù)學(xué)學(xué)士學(xué)位。

齒輪(來源: Pixabay)