如何发布网络小说,玄幻小说改编的电视剧,盗墓笔记全集

三個(gè)值得添加到您的數(shù)據(jù)科學(xué)工具包中的想法

一些能解決過(guò)擬合、超參數(shù)調(diào)優(yōu)和模型可解釋性的技術(shù)

本·羅瑞卡（Ben Lorica）, 2016年7月27日

我總是在關(guān)注和尋找可以改進(jìn)我如何解決數(shù)據(jù)分析項(xiàng)目的好想法。尤其喜歡可以轉(zhuǎn)化為我可以重復(fù)使用的工具的那些方法。大部分時(shí)候，我都是通過(guò)自己反復(fù)嘗試或者咨詢其他從業(yè)人員來(lái)發(fā)現(xiàn)這些工具。我與學(xué)術(shù)界和學(xué)術(shù)研究也有著密切聯(lián)系，我經(jīng)常發(fā)一些推文推薦我偶然看到并為之入迷、深感興趣的學(xué)術(shù)論文。通常情況下，學(xué)術(shù)研究的結(jié)果不會(huì)馬上轉(zhuǎn)化為我所能用的，但是我最近偶然從幾個(gè)研究中發(fā)現(xiàn)一些想法，值得與大家分享。

我在這篇文章中闡述的想法解決了一些經(jīng)常出現(xiàn)的問(wèn)題。在我看來(lái)，這些想法也強(qiáng)化了數(shù)據(jù)科學(xué)中包含的數(shù)據(jù)管道的概念，而不僅僅是機(jī)器學(xué)習(xí)算法。這些想法也應(yīng)該能給試圖構(gòu)建人工智能應(yīng)用的工程師們帶來(lái)啟示。

使用可重用的保留數(shù)據(jù)法來(lái)避免在交互式數(shù)據(jù)分析中出現(xiàn)過(guò)擬合

過(guò)擬合在統(tǒng)計(jì)和機(jī)器學(xué)習(xí)領(lǐng)域是一個(gè)眾所周知的問(wèn)題。像保留部分?jǐn)?shù)據(jù)做驗(yàn)證法、自助法以及交叉驗(yàn)證法等技術(shù)被用來(lái)在靜態(tài)數(shù)據(jù)分析中避免過(guò)擬合。被廣泛應(yīng)用的保留部分?jǐn)?shù)據(jù)做驗(yàn)證法將整個(gè)數(shù)據(jù)集劃分成兩個(gè)獨(dú)立集合。但是從業(yè)人員（包括我自己）經(jīng)常在應(yīng)用經(jīng)典的保持法的時(shí)候忘記重要的一點(diǎn)：理論上相應(yīng)的保留數(shù)據(jù)集只能被使用一次（如圖一所示）：

image00-f58e9c98edc51fcfa986ee1339c0863a

圖一：靜態(tài)數(shù)據(jù)分析，由本·駱易家提供

而事實(shí)上，目前大部分?jǐn)?shù)據(jù)科學(xué)項(xiàng)目本身都是交互式的。數(shù)據(jù)科學(xué)家反復(fù)迭代多次并且基于之前的結(jié)果修正他們的方法或者算法。很多情況下同一個(gè)保留數(shù)據(jù)集被頻繁多次地使用，這將會(huì)導(dǎo)致過(guò)擬合（如圖二所示）：

image01-a9dbac34d4db9ad4f5a6e891ca158c24

圖二 交互式數(shù)據(jù)分析，由本·駱易家提供

為了解決這一問(wèn)題，有一個(gè)研究團(tuán)隊(duì)通過(guò)借鑒差分隱私的思想設(shè)計(jì)出了可重用的保留數(shù)據(jù)做驗(yàn)證方法。通過(guò)解決過(guò)擬合問(wèn)題，他們的方法可以增加數(shù)據(jù)產(chǎn)品的可靠性，特別是在有更多的智能的應(yīng)用被部署的關(guān)鍵場(chǎng)合里。好消息是他們得出的解決方案對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō)是開(kāi)放的，而且并不要求對(duì)差分隱私這一概念的理解。在圣何塞鐵桿數(shù)據(jù)科學(xué)會(huì)議上的一次演講中，谷歌的莫里茲·哈特（其中一名研究人員）描述了他們提出的閾值保留數(shù)據(jù)法，下面是其對(duì)應(yīng)的Python代碼：

from numpy import *

def Thresholdout(sample, holdout, q):

# function q is what you’re “testing” – e.g., model loss

sample_mean = mean([q(x)? for x in sample])

holdout_mean = mean([q(x)? for x in holdout])

sigma = 1.0 / sqrt(len(sample))

threshold = 3.0*sigma

if (abs(sample_mean – holdout_mean)

< random.normal(threshold, sigma) ):

# q does not overfit: your “training estimate” is good

return sample_mean

else:

# q overfits (you may have overfit using your training data)

return holdout_mean + random.normal(0, sigma)

他們的閾值保留數(shù)據(jù)法和其他方法的細(xì)節(jié)可以在這篇論文和哈特的博客文章中找到。我也推薦最近的一篇關(guān)于盲樣分析的論文——一個(gè)相關(guān)的數(shù)據(jù)攝動(dòng)法在物理學(xué)中的應(yīng)用，可能很快會(huì)在其他學(xué)科也得到應(yīng)用。

使用隨機(jī)搜索進(jìn)行黑盒參數(shù)調(diào)優(yōu)

大部分?jǐn)?shù)據(jù)科學(xué)項(xiàng)目涉及到數(shù)據(jù)管道，其中包含了一些需要恰當(dāng)調(diào)整的“旋鈕”（超參數(shù)），通常需要反復(fù)試驗(yàn)來(lái)完成調(diào)優(yōu)。這些超參數(shù)通常伴隨著特定的機(jī)器學(xué)習(xí)方法（網(wǎng)絡(luò)深度和架構(gòu)、窗口大小等），但是它們也涉及到影響數(shù)據(jù)準(zhǔn)備及其他數(shù)據(jù)管道中的步驟的多個(gè)方面。

隨著機(jī)器學(xué)習(xí)管道相關(guān)應(yīng)用日漸增多，超參數(shù)調(diào)優(yōu)成為許多研究論文（甚至是商業(yè)產(chǎn)品）的主題。許多結(jié)果是基于貝葉斯優(yōu)化和其相關(guān)技術(shù)。

在職的數(shù)據(jù)科學(xué)家不需要急著去學(xué)習(xí)貝葉斯優(yōu)化。最近加州大學(xué)伯克利分校的本·雷希特的博客（這篇和這篇）中強(qiáng)調(diào)：研究表明當(dāng)進(jìn)行黑盒參數(shù)調(diào)優(yōu)時(shí)，簡(jiǎn)單的隨機(jī)搜索實(shí)際上與更高級(jí)的方法相比是十分有競(jìng)爭(zhēng)力的。并且他們正在努力提高某些特定工作里的隨機(jī)搜索的速度。

通過(guò)局部近似來(lái)解釋你的黑盒模型

在某些領(lǐng)域（包括健康、消費(fèi)金融以及安全），模型解釋是常見(jiàn)的需求。而目前黑盒模型風(fēng)靡全球——包括深度學(xué)習(xí)以及其他算法甚至是模型組合定義。隨著人工智能受到關(guān)注，指出黑盒技術(shù)僅可以被部署到某些應(yīng)用領(lǐng)域是十分重要的，這些領(lǐng)域必須已經(jīng)開(kāi)發(fā)出可以使得模型更加具有解釋性的工具。

最近，來(lái)自馬爾·科圖略·里貝羅和其同事們的一篇論文提出了一種可以使得這種模型更加容易解釋的方法。在這篇論文中提出的想法是使用一系列可解釋的局部可信近似值：這是一些可解釋的局部模型，可以近似原始模型在將被預(yù)測(cè)的實(shí)例附近是如何行為的。研究人員觀察到，盡管一個(gè)模型可能過(guò)于復(fù)雜以至于不能夠全局的解釋，但是提供一個(gè)局部可信的解釋通常來(lái)說(shuō)已經(jīng)足夠。

最近的一個(gè)演講描述了研究人員提供的該方法的實(shí)用工具。論文的一位共同作者卡洛斯·賈斯特林演示了一個(gè)相關(guān)方法的實(shí)現(xiàn)，幫助調(diào)試一個(gè)計(jì)算機(jī)視覺(jué)應(yīng)用中的深度神經(jīng)網(wǎng)絡(luò)。

卡洛斯·賈斯特林將在2016年9月26日至29日在紐約舉辦的Strata + Hadoop世界大會(huì)上做一個(gè)名為“為什么我該相信你？解釋機(jī)器學(xué)習(xí)模型的預(yù)測(cè)結(jié)果”的演講。

相關(guān)資源如下：

局部可解釋的模型無(wú)關(guān)解釋的介紹
六個(gè)我為什么喜歡KeystoneML框架的原因——對(duì)話本·雷希特
GraphLab的演化史——對(duì)話卡洛斯·賈斯特林
深度學(xué)習(xí)——Strata + Hadoop世界大會(huì)演講集合

本·羅瑞卡（Ben Lorica）

本· 羅瑞卡是O'Reilly的首席數(shù)據(jù)科學(xué)家和關(guān)于數(shù)據(jù)方面的內(nèi)容策略主管。在多個(gè)領(lǐng)域里（包括直銷(xiāo)市場(chǎng)、消費(fèi)者和市場(chǎng)研究、精準(zhǔn)廣告、文本挖掘和金融工程），他曾經(jīng)進(jìn)行了商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析的工作。他曾效力于投資管理公司、互聯(lián)網(wǎng)創(chuàng)業(yè)企業(yè)和金融服務(wù)公司。