欢乐颂第一季,好看的课外书

檢驗機器學(xué)習(xí)可解釋性的技巧

測試你的工具，使用多種工具，以及在各種可解釋性技術(shù)中尋求一致性的重要性。

2018年6月26日

編者注：此文摘錄自Patrick Hall和Navdeep Gill的報告“機器學(xué)習(xí)解釋性簡介”，您可以閱讀O'Reilly學(xué)習(xí)平臺上的完整報告。

2019年6月18-21日在北京舉行的人工智能大會議題征集已經(jīng)開始。

解釋機器學(xué)習(xí)模型是目前數(shù)據(jù)科學(xué)界一個相當(dāng)熱門的話題。機器學(xué)習(xí)模型需要可被解釋，以便先進的預(yù)測建模技術(shù)被更廣泛地采納，防止社會歧視性預(yù)測，防止對決策系統(tǒng)的惡意攻擊，因為機器學(xué)習(xí)模型能夠簡單直接地影響我們的工作和生活。與應(yīng)用機器學(xué)習(xí)領(lǐng)域中的其他人一樣，我和H2O.ai的同事在過去18個月左右的時間里一直在開發(fā)機器學(xué)習(xí)的可解釋性軟件。

我們可以在今年早些時候的O’Reilly報告中，對可解釋性領(lǐng)域的應(yīng)用問題進行總結(jié)。接下來是該報告的摘錄，以及一些新的額外閱讀材料。本文將重點介紹一點重要的，但似乎不太經(jīng)常被討論的可解釋性問題：機器學(xué)習(xí)可解釋性技術(shù)的近似性質(zhì)，以及如何檢驗對模型的解釋。

為什么我們需要測試可解釋性技術(shù)？

最嚴肅的數(shù)據(jù)科學(xué)從業(yè)者理解這一點：機器學(xué)習(xí)可以在競爭激烈的受監(jiān)管行業(yè)中，產(chǎn)生更準確的模型并最終獲得財務(wù)收益……前提是它更容易解釋。那么為什么不是每個人都試試可解釋的機器學(xué)習(xí)呢？簡單回答之：從根本上說，這很難，這是一個非常新的研究領(lǐng)域。機器學(xué)習(xí)可解釋性中兩個最棘手的問題是：1）大多數(shù)流行的機器學(xué)習(xí)模型具有組合、重組輸入變量的趨勢，以及 2）被稱為“ 良好模型的多樣性 ”的現(xiàn)象。這兩個問題從某種意義上，共同構(gòu)成了絕大部分機器學(xué)習(xí)可解釋性技術(shù)。

機器學(xué)習(xí)模型對變量進行組合，但我們需要基于單個變量的解釋

流行的機器學(xué)習(xí)模型可以比傳統(tǒng)的線性模型生成更準確的預(yù)測的主要機制是，它學(xué)習(xí)到了輸入變量之間的高階交互作用。圖1顯示了簡單的人工神經(jīng)網(wǎng)絡(luò)（ANN）的簡單圖示。我們可以看到原始輸入變量x1?x5被組合在網(wǎng)絡(luò)的第一個隱層中，得到神經(jīng)元h11?h14 ，它們在網(wǎng)絡(luò)的第二層隱層中重新組合，構(gòu)成了神經(jīng)元h21?h23，其在網(wǎng)絡(luò)的第三層隱層再次被重組，構(gòu)成了在最終做出預(yù)測之前所需要的神經(jīng)元h31和h32。

Figure1-0a69202757b8bc4aaff8c6d993c4629c

圖1.人工神經(jīng)網(wǎng)絡(luò)的圖示。 感謝由H2O.ai提供的圖片

雖然學(xué)習(xí)如何權(quán)衡輸入變量的復(fù)雜組合能夠帶來更準確的預(yù)測，但它使解釋機器學(xué)習(xí)模型變得真的很困難。絕大多數(shù)人，和一些非常嚴謹?shù)谋O(jiān)管法規(guī)，都偏好于那些可被解釋的預(yù)測模型生成的決策，是由原始輸入變量所帶來的，而不是輸入變量的任意高階組合、縮放、加權(quán)組合所帶來的。

如果您申請一張信用卡被拒絕，貸款人通常不會說這是因為您的負債/收入比率、儲蓄賬戶余額、郵政編碼、打網(wǎng)球傾向、信用記錄長度以及信用評分的加權(quán)/縮放組合的反正切值等于0.57。就算這可能是模型決定拒絕您的方式，貸方通常也需要打散這個決策，并嘗試用簡單的術(shù)語，每次僅使用一個原始輸入變量，并且僅使用重要的原始變量向您進行解釋。例如，陳述您的債務(wù)/收入比率太高，信用評分太低，而信用記錄太短。對于機器學(xué)習(xí)模型而言，這種分解過程通常只是近似的，并不真正代表機器學(xué)習(xí)模型實際就是這么進行預(yù)測的。這也是我們應(yīng)該使用幾種不同類型的可解釋性技術(shù)來相互校驗、為什么我們應(yīng)該對機器學(xué)習(xí)可解釋性技術(shù)進行檢驗的一個主要原因。

好模型的多樣性

在2001年開創(chuàng)性的論文中加州大學(xué)伯克利分校的教授Leo Breiman讓這樣一句話變得流行起來：“好模型的多樣性?！边@句話意味著對于同一組輸入變量和預(yù)測目標(biāo)，復(fù)雜的機器學(xué)習(xí)算法可以產(chǎn)生多個精確的模型，這些模型內(nèi)部結(jié)構(gòu)類似，但不完全相同。（一些信用評分將這種現(xiàn)象稱為“模型局部性”。）

圖2是非凸面誤差率曲面的形象描述，其表征了一個機器學(xué)習(xí)算法的誤差函數(shù)，這個算法具有兩個輸入- 比如客戶的收入和客戶的利率 – 以及輸出，例如同一客戶的貸款違約概率。這種沒有明顯全局最小值的非凸錯誤率曲面，意味著復(fù)雜的機器學(xué)習(xí)算法可以學(xué)到許多不同的方式來組合客戶的收入和客戶的利率，從而做出關(guān)于何時可能違約的準確判斷。每一種不同的權(quán)重構(gòu)建了一個不同的判斷貸款違約的函數(shù)，每一個這樣的函數(shù)都有著不同的解釋。所有這些都是解釋模型的障礙，因為來自非常相似的模型的非常類似的預(yù)測，仍然可以有不同的解釋。由于這種系統(tǒng)的不穩(wěn)定性，我們應(yīng)該使用幾種可解釋性技術(shù)來檢驗單個模型的數(shù)種解釋，我們應(yīng)該在多種建模和解釋技術(shù)中尋求具有一致性的結(jié)果，并且我們應(yīng)該檢驗我們的解釋性技術(shù)。

Figure2-a1682e601f8aef28353b296644fa7874

圖2.機器學(xué)習(xí)模型錯誤率曲面的圖示。 感謝由H2O.ai提供的圖片

我們?nèi)绾螜z驗可解釋性技術(shù)？

由于對機器學(xué)習(xí)解釋的近似性質(zhì)，能夠引發(fā)且經(jīng)常導(dǎo)致對模型解釋性本身的質(zhì)疑，因此我們需要檢驗解釋的準確性。不要煩惱 —— 這當(dāng)然是可行的！最初，研究人員提出了檢驗機器學(xué)習(xí)模型解釋的方法，通過模型的容量，幫助人們識別建模錯誤，發(fā)現(xiàn)新事實，減少模型預(yù)測中的社會學(xué)歧視，或使人類能夠根據(jù)輸入數(shù)據(jù)值正確地確定模型預(yù)測的結(jié)果。人類的確認，可能是機器學(xué)習(xí)可解釋性的最高門檻，但最近的研究強調(diào)了對先入為主，對簡單性的傾向偏好，以及人類評估中的其他偏見等一系列問題的潛在擔(dān)憂。鑒于專業(yè)的人工評估研究對于大多數(shù)商業(yè)數(shù)據(jù)科學(xué)或機器學(xué)習(xí)小組來說可能永遠是不切實際的，我們在這里（也可能是其他地方）提出了幾種其他用于檢驗?zāi)Ｐ徒忉尩淖詣踊椒ǎ何覀兛梢允褂镁哂幸阎獢?shù)字統(tǒng)計特征的模擬數(shù)據(jù)來對解釋進行檢驗; 我們可以針對同一個數(shù)據(jù)集，將新的解釋與舊的、可靠的解釋進行比較; 我們可以檢驗解釋是否具備穩(wěn)定性。使用模擬數(shù)據(jù)來對解釋進行檢驗，對于我們在H2O的工作中顯得卓有成效，因此我們將在本文中深入研究該方法的更多細節(jié)。

在完全隨機的、一組輸入變量和一個預(yù)測目標(biāo)之間完全沒有聯(lián)系的數(shù)據(jù)上訓(xùn)練得到的模型，不應(yīng)該對任何輸入變量賦予很強的權(quán)重，也不該產(chǎn)生具有說服力的本地解釋。圖3顯示了全局變量重要性，由三個不同的工具計算： XGBoost， treeinterpreter和shap，用于檢驗在隨機數(shù)據(jù)上訓(xùn)練的XGBoost GBM二分類模型。從這三種相互確認的方法中，我們可以相當(dāng)確定XGBoost模型沒有過度擬合隨機信號，給予任何一個變量遠超過另一個變量的權(quán)重，我們可以看到全局解釋性大致互相符合，也符合我們已知的隨機生成的訓(xùn)練數(shù)據(jù)的情況。

Figure3-3144fad49385ed8a0238e1e992d07ff1

圖3.在隨機數(shù)據(jù)上訓(xùn)練的XGBoost模型的全局變量重要性。 感謝由H2O.ai提供的圖片

我們也可以用同樣的方式檢驗變量的局部重要性。給定在隨機數(shù)據(jù)上訓(xùn)練的相同XGBoost模型，對于代表中位數(shù)預(yù)測的但行數(shù)據(jù)，我們可以預(yù)期沒有哪個變量對模型預(yù)測做出很大貢獻，并且小的局部貢獻大致隨機分布在一定的正負貢獻。圖4使用了LIME，treeinterpreter和shap方法向我們展示了這個結(jié)果，并且應(yīng)該有助于增強對模型和解釋的信任。現(xiàn)在我們從局部的角度看，XGBoost沒有在隨機數(shù)據(jù)上發(fā)生過擬合，解釋工具基本可以相互確認，并且和訓(xùn)練數(shù)據(jù)中的已知的信號隨機性相符合。

figure_4-2-593a45817445e8204f41fa89670782d4

圖4.對隨機數(shù)據(jù)訓(xùn)練的XGBoost模型的局部變量重要性。 感謝由H2O.ai提供的圖片

我們可以使用具有已知信號生成函數(shù)的模擬數(shù)據(jù)來檢驗一個事實，即“解釋已經(jīng)準確表達了那個已知函數(shù)”。圖5顯示了，對于在已知信號生成函數(shù)上訓(xùn)練的XGBoost GBM二元分類器模型，XGBoost，treeinterpreter和shap工具給出的全局變量重要性，其中e是一個小的隨機誤差項：

num1?num4+|num8|?num92+e

在圖5中，我們可以看到，雖然這三個工具沒有按照完全相同的順序?qū)χ匾淖兞窟M行排序，但模型明確知道，信號生成函數(shù)中的四個變量比我們生成的訓(xùn)練數(shù)據(jù)中的其他變量更重要。這些解釋，在我們的模擬數(shù)據(jù)實驗中展示了已知的基本事實，因此這歌結(jié)果應(yīng)該增加我們對建模和解釋方法的信任度。

Figure5-f699bfac8bcac97975286a460836fae0

圖5.在已知信號生成函數(shù)上訓(xùn)練的XGBoost模型的全局變量重要性。 變量num1，num4，num8和num9應(yīng)該很重要。 感謝由H2O.ai提供的圖片

圖6展示的例子里，使用相同的XGBoost模型和模擬訓(xùn)練數(shù)據(jù)進行局部解釋。在這里，我們看到一些有趣的情形：雖然所有解釋性技術(shù)都將num9，num8和num4視為重要，但它們也把噪音變量num2包括進來了。如果只有一種解釋性技術(shù)發(fā)現(xiàn)num2具有局部重要性，那么那種解釋技術(shù)的有效性需要被質(zhì)疑。但由于所有三種可解釋性工具都將num2視為具有局部重要性，因此更有可能是模型本身認為num2是重要的。這是可解釋性技術(shù)能夠幫助進行模型調(diào)錯的一個例子。

盡管使用了驗證集和L1和L2正則化，我們的XGBoost模型學(xué)到了一個不重要的變量num2在其預(yù)測的中位數(shù)范圍內(nèi)是重要的。也許需要更多的訓(xùn)練數(shù)據(jù)，更多的驗證數(shù)據(jù)，交叉驗證，更多或不同的正則化，或者其他措施能夠挽救這個問題。這里的關(guān)鍵是，局部解釋技術(shù)是發(fā)現(xiàn)這個問題所必需的技術(shù)，并且所有局部技術(shù)一致地給出了“該模型賦予num2太多權(quán)重”的結(jié)果。此外，對于中位數(shù)預(yù)測，正如我們預(yù)期的那樣，treeinterpreter和Shapley給出數(shù)值大致相當(dāng)?shù)木植空摍?quán)重。不過，LIME對所有重要變量都給出了負的局部權(quán)重。 LIME在這種情況下失效了嗎？不見得。我們必須記住，LIME的解釋有一個線性截距項的偏移。通過一點深入挖掘，我們可以看到，對于一個GBM給出0.3預(yù)測的樣本，LIME的模型截距項為0.7。基于此信息，LIME可能會認為num1，num4，num8和num9是重要的，但給予了它們負的局部權(quán)重。

figure_6-2-cbb63403b52a08159e57327c1b51cd79

圖6.在已知信號生成函數(shù)上訓(xùn)練的XGBoost模型的局部變量重要性。 變量num1，num4，num8和num9理應(yīng)是很重要的。 感謝由H2O.ai提供的圖片

我們已經(jīng)展示了幾種解釋行為基本正確的情況，但我們有時會發(fā)現(xiàn)解釋失效了，并且在生產(chǎn)環(huán)境應(yīng)用上捕獲和調(diào)試這些失效要比在模擬數(shù)據(jù)上更難。查看我們的Github倉庫以參考某些失效的情況，我們討論過的一些檢驗的細節(jié)，以及使用開源建模和模擬數(shù)據(jù)解釋包來檢驗解釋的更多例子。

除了針對模擬數(shù)據(jù)進行測試外，我們還采用了一些其他程序的方法來檢驗機器學(xué)習(xí)解釋，您可能會發(fā)現(xiàn)這些解釋也很有幫助。

隨著預(yù)測精度變化，解釋的穩(wěn)定性

如果對于一個簡單線性模型，之前存在一個已知的準確解釋，我們可以將它們當(dāng)成一個參照，用于檢查一個功能相近，有希望精度更高，但是更復(fù)雜的模型。您可以執(zhí)行檢驗，查看模型在其預(yù)測的解釋偏離已知標(biāo)準之前的仍然具有的準確程度。

在數(shù)據(jù)擾動下，解釋的穩(wěn)定性

對于輸入數(shù)據(jù)的微小變化，可靠的解釋應(yīng)該不會發(fā)生巨大變化。您可以在解釋值允許的范圍內(nèi)，自動化地設(shè)置和檢驗輸入數(shù)據(jù)擾動程度的閾值。

結(jié)論

我們在這總結(jié)一些重點：檢驗?zāi)慕忉尮ぞ?，使用多種類型的工具來解釋您的機器學(xué)習(xí)模型，并在不同的解釋方法中尋找一致性的結(jié)果。此外，請記住，并非所有解釋方法和工具都相同。有些是基于嚴肅的理論，并且謹慎和嚴謹?shù)貙嵤?有些就不是這樣。根據(jù)我們過去18個月左右的經(jīng)驗，Shapley給出的解釋確實是超越其他方案的一種很好的解釋方法，特別是在使用基于樹的建模技術(shù)時。 LIME似乎是其他類型機器學(xué)習(xí)模型的最佳選擇，不過有時候它表現(xiàn)的有些奇怪。本文中討論的Shapley，LIME和treeinterpreter只是當(dāng)今許多可解釋技術(shù)中的一小部分。還有許多其他可解釋性方法和工具，它們各有利弊；還存在著許多類型的可解釋模型，以及關(guān)于機器學(xué)習(xí)可解釋性具有自己獨特需求的問題和領(lǐng)域。我們的長報告中更多地介紹了相關(guān)主題和內(nèi)容，因此如果這篇文章有用，請務(wù)必查看長報告。

機器學(xué)習(xí)：快速簡單的定義：獲取機器學(xué)習(xí)的基本概述，然后通過推薦的資源進行深入了解。

Patrick Hall

Patrick Hall是H2O.ai的數(shù)據(jù)科學(xué)產(chǎn)品高級總監(jiān)，主要負責(zé)模型可解釋性和模型管理。帕特里克目前還是喬治華盛頓大學(xué)決策科學(xué)系的兼職教授，在那里他教授數(shù)據(jù)挖掘和機器學(xué)習(xí)的研究生課程。在加入H2O.ai之前，Patrick曾在SAS Institute擔(dān)任全球客戶溝通職位和研發(fā)職位。

Navdeep Gill

Navdeep Gill是H2O.ai的軟件工程師和數(shù)據(jù)科學(xué)家，專注于模型可解釋性，機器學(xué)習(xí)的GPU加速，以及機器學(xué)習(xí)自動化。他畢業(yè)于加州州立大學(xué)東灣分校，獲得計算統(tǒng)計學(xué)碩士學(xué)位，統(tǒng)計學(xué)學(xué)士學(xué)位和心理學(xué)學(xué)士學(xué)位（輔修數(shù)學(xué)）。在他的教育經(jīng)歷期間，他對機器學(xué)習(xí)，時間序列分析，統(tǒng)計計算，數(shù)據(jù)挖掘和數(shù)據(jù)可視化產(chǎn)生了興趣。可以通過Twitter 賬號@Navdeep_Gill_ 與Navdeep聯(lián)系。

Lingyao Meng