琅琊榜海宴小说,斗破苍穹续集,遮天

企業(yè)如何在機器學(xué)習(xí)時代前行

想成為“機器學(xué)習(xí)型企業(yè)”，你需要工具和流程來克服數(shù)據(jù)、工程和模型方面的挑戰(zhàn)

Ben Lorica, 2017年10月24日

編者注：想了解更多關(guān)于機器學(xué)習(xí)型企業(yè)的信息，可以查看2018年3月5日至8日的Strata數(shù)據(jù)圣何塞大會上的機器學(xué)習(xí)議題。
更多人工智能內(nèi)容請關(guān)注2018年4月10-13日人工智能北京大會。

在過去的幾年間，數(shù)據(jù)社區(qū)已經(jīng)在關(guān)注收集和整理數(shù)據(jù)，為此目的構(gòu)建基礎(chǔ)設(shè)施，并使用數(shù)據(jù)來改善決策制定?，F(xiàn)在我們看到，在很多垂直領(lǐng)域，對于高級分析和機器學(xué)習(xí)的興趣高漲。

在本博文里，我會分享和解釋我在今年9月的Strata數(shù)據(jù)紐約大會上的演講，以此來為那些希望增加機器學(xué)習(xí)能力的企業(yè)提供一些建議。這些信息來自于和業(yè)界從業(yè)人員、研究人員和企業(yè)家的對話，他已經(jīng)把機器學(xué)習(xí)應(yīng)用在非常多的不同領(lǐng)域的問題里。

Slide_1-3138c15411725989fb14d4387fecd650

和其他的技術(shù)與方法類似，一個成功的機器學(xué)習(xí)項目是從找到一個正確的應(yīng)用場景開始的。機器學(xué)習(xí)有非常多可能的應(yīng)用，例如推薦系統(tǒng)和降低客戶流失等。一個有用的機器學(xué)習(xí)應(yīng)用的分類如下：

能增強決策制定的應(yīng)用
能帶來業(yè)務(wù)運營改進的應(yīng)用
能產(chǎn)生收入的應(yīng)用
能預(yù)測或者防止欺詐或風(fēng)險的應(yīng)用

Slide_2-516036212921430a3537ecbad7dd9270

為了能成為“機器學(xué)習(xí)型企業(yè)”，讓你自己了解開始部署模型時將會面臨的困難是非常有益處的。如果你去咨詢那些機器學(xué)習(xí)的先行者，通常會得到如下三個東西：

數(shù)據(jù)：目前大部分應(yīng)用個都依賴于監(jiān)督學(xué)習(xí)。因此一切都要從擁有高質(zhì)量的標注（訓(xùn)練）數(shù)據(jù)集開始。
工程化：你怎么能把一個原型變成生產(chǎn)系統(tǒng)？你如何在模型部署上線之后監(jiān)控它的表現(xiàn)？
模型：現(xiàn)在的機器學(xué)習(xí)庫已經(jīng)能把模型和數(shù)據(jù)適配變得很容易，那還有什么挑戰(zhàn)？

在文章下面的內(nèi)容里，我會逐個講述這些挑戰(zhàn)。

Slide_3-8ebabd837b1515136e963dcb98b7b9ec

在構(gòu)建標注數(shù)據(jù)集來訓(xùn)練你的機器學(xué)習(xí)模型時，重要的一點就是使用你已經(jīng)能找到的數(shù)據(jù)。新的數(shù)據(jù)源在持續(xù)地出現(xiàn)，數(shù)據(jù)集成是大部分公司都在做的工作。你目前在數(shù)據(jù)基礎(chǔ)設(shè)施上的投入可能已經(jīng)給你足夠的數(shù)據(jù)來開始了。你也可以使用公共（開源）的數(shù)據(jù)來增強你現(xiàn)有的數(shù)據(jù)集，或是去從第三方購買數(shù)據(jù)來增強。

Slide_4-f04fa82322794749b07e1ec769b7f765

好消息是機器學(xué)習(xí)社區(qū)已經(jīng)意識到訓(xùn)練數(shù)據(jù)是一個主要的瓶頸。研究人員已經(jīng)在研究一些能用比較少的訓(xùn)練數(shù)據(jù)開始的技術(shù)（弱監(jiān)督），以及可以讓你把一個問題里獲得的知識用于另外的場景（遷移學(xué)習(xí)）。

Slide_5-ed2b5f5f6d3cb64b14d09e98d28be234

隨著數(shù)據(jù)重要性的增加，已有一些創(chuàng)業(yè)公司和企業(yè)在探索數(shù)據(jù)交易。數(shù)據(jù)交易讓企業(yè)間相互分享一些數(shù)據(jù)成為可能，同時還能保證私密性和隱秘性。目前已經(jīng)有一些研究成果來開發(fā)安全機器學(xué)習(xí)算法。對一些應(yīng)用，如消費金融業(yè)里的欺詐檢查，能在保證隱私和安全的情況下，分享私密數(shù)據(jù)可能被證明是有價值的。

Slide_6-88d203871226fe429148d19a4e51817e

今年早些時候，我們注意到企業(yè)已經(jīng)開始定位一個新的角色，它專門把機器學(xué)習(xí)的模型進行生產(chǎn)化部署，并監(jiān)控部署后的表現(xiàn)。但是這個機器學(xué)習(xí)工程師的角色就真的必要嗎？

Slide_7-8e440d193faa0c736353f6acb36d2058

對越來越多的公司來講，答案是肯定，這樣的專業(yè)技能是必須的。如果要列出一個能生產(chǎn)化并監(jiān)督模型必須了解的事情的清單，最后你會看到一堆工具和技術(shù)的列表。更具體的細節(jié)，建議你看看我之前的一篇博文《應(yīng)用數(shù)據(jù)科學(xué)的現(xiàn)狀》。

Slide_8-2bbe3c499dff8f8fa89ff447a55a6482

機器學(xué)習(xí)研究的發(fā)展速度是很快的?？梢怨降卣f，大部分企業(yè)是無法跟上研究出新技術(shù)和工具的速度。思考一下這個思維試驗：想象一下未來五年，所有的研究進展都暫停（絕不可能，但是請允許我幽默一下）。我堅定地認為依然有足夠的工具能讓企業(yè)忙活一陣子來學(xué)習(xí)。

Slide_9-ff3dc29ad8d9b79a1e3d14c2c874dfb3

用深度學(xué)習(xí)這一已經(jīng)成功地應(yīng)用于計算機視覺和語音的技術(shù)作例子。絕大部分的企業(yè)依然處于應(yīng)用深度學(xué)習(xí)的早期階段，不管是把它用于企業(yè)已經(jīng)熟悉的數(shù)據(jù)（文本、時間序列數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)）或是使用它來代替現(xiàn)有的模型（包括他們現(xiàn)有的推薦系統(tǒng)）。我認為在未來的幾年里會看到很多使用深度神經(jīng)網(wǎng)絡(luò)（DNN）的有趣案例。

Slide_10-3d4274d6e739a17cfd5de0fca4d2fe77

深度學(xué)習(xí)帶來了所有令人激動的東西，但也因此我們時常會忘記還有很多有趣的新數(shù)據(jù)應(yīng)用并不依賴于神經(jīng)網(wǎng)絡(luò)。請選擇適合你的技術(shù)和業(yè)務(wù)需求的那些技術(shù)。

隨著模型被推入邊緣設(shè)備，我對近期在聯(lián)合與協(xié)作學(xué)習(xí)方面的研究進展非常感興趣。展望AI，可獲得的在線和持續(xù)學(xué)習(xí)的工具將會變得非常重要。

Slide_11-86c6a670335da6e9b8823fc0b14ff1b1

數(shù)據(jù)社區(qū)正在開始明白對于模型而言，遠遠不僅僅只是優(yōu)化一個定量或是業(yè)務(wù)指標那么簡單。模型足夠魯棒從而能應(yīng)對對抗攻擊嗎？對特定的應(yīng)用模型來說，可解釋與可理解是必須的嗎？

公平：你是否理解你的訓(xùn)練數(shù)據(jù)的分布？如果不是的話，請意識到過去的歧視將很有可能導(dǎo)致未來的歧視。
透明：隨著機器學(xué)習(xí)變得無處不在，用戶正越來越想知道企業(yè)在對什么指標進行優(yōu)化，并想對此發(fā)表意見。

Slide_12-d236a3bb5bcee9cf5ce84719d2bd0d9b

盡管機器學(xué)習(xí)領(lǐng)域在近幾年已經(jīng)取得了很多進步，但是依然有很多研究人員和理論家不知道的東西。我們尚處在“試錯”的階段。深度學(xué)習(xí)可能是降低了特征工程的必要，但是在構(gòu)建深度神經(jīng)網(wǎng)絡(luò)時依然有很多需要決定的東西（包括網(wǎng)絡(luò)架構(gòu)和非常多的超參數(shù)）。

Slide_13-a377d3d8ce1d6ccbd837c1d973011a59

可以把模型的構(gòu)建看成是對機器學(xué)習(xí)算法空間的探索。企業(yè)需要能以有原則和高效的形式來進行探索。這意味著企業(yè)要維護可再生的管道、保存試驗里的元數(shù)據(jù)、擁有協(xié)作的工具和利用最新的研究成果。

Slide_14-07f3cb8f246892fc8b8c9842cf398456

那么，企業(yè)正在構(gòu)建的什么東西可以讓這一探索成為可能？大部分機器學(xué)習(xí)都要求有標注（訓(xùn)練）數(shù)據(jù)，因此任何數(shù)據(jù)平臺開始都要有魯棒的數(shù)據(jù)管道，能夠把數(shù)據(jù)導(dǎo)入存儲系統(tǒng)，讓數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師可以使用。數(shù)據(jù)集成不是一件無足輕重的事情，是所有的企業(yè)都要做并會持續(xù)做的工作。

企業(yè)也正在賦能數(shù)據(jù)科學(xué)家來分享特征和能產(chǎn)生這些特征的數(shù)據(jù)管道。為了給你一個關(guān)于特征的重要性的概念，看看這個事實：大部分企業(yè)都能很容易地告訴你它們用了什么算法；但是他們卻很難描述哪些特征對模型最有用。

領(lǐng)先的企業(yè)讓他們的數(shù)據(jù)科學(xué)家使用多種機器學(xué)習(xí)庫。強迫你的數(shù)據(jù)科學(xué)家只使用一到兩個“保佑”過的庫時很瘋狂的。因為數(shù)據(jù)科學(xué)家們要能做實驗，這可能就意味著讓他們能使用多種庫。

已經(jīng)出現(xiàn)了一些公司，他們能提供生產(chǎn)化部署機器學(xué)習(xí)模型的工具，并可以在部署后監(jiān)控模型。一些企業(yè)也在利用開源技術(shù)來開發(fā)自己的部署和監(jiān)控工具。如果你在尋找一個開源的工具來部署和監(jiān)控模型，可以看看加州大學(xué)伯克利分校RISE實驗室的新項目——Clipper。它可以讓你很容易地部署用多種流行的機器學(xué)習(xí)庫編寫的模型。更為重要的是，Clipper團隊最近加入了模型的監(jiān)控部分。（一些企業(yè)將會在2018年3月的Strata數(shù)據(jù)圣何塞大會上介紹他們部署和監(jiān)控模型的方法。）

想成為“機器學(xué)習(xí)型企業(yè)”，你需要工具和流程來克服數(shù)據(jù)、工程和模型方面的挑戰(zhàn)。很多企業(yè)僅僅是剛開始在他們的產(chǎn)品里使用和部署機器學(xué)習(xí)。工具正在被持續(xù)地改進，最佳實踐也開始出現(xiàn)。

This article originally appeared in English: "How companies can navigate the age of machine learning".

Ben Lorica

Ben Lorica是O'Reilly Media公司的首席數(shù)據(jù)科學(xué)家和數(shù)據(jù)內(nèi)容策略總監(jiān)，他還是Strata數(shù)據(jù)大會和O'Reilly人工智能大會的項目主管。他將商務(wù)智能、數(shù)據(jù)挖掘、機器學(xué)習(xí)和統(tǒng)計分析應(yīng)用到了各種領(lǐng)域，包括直接營銷、消費者和市場研究、精確廣告投放、文本挖掘以及金融工程。他曾在投資管理公司、互聯(lián)網(wǎng)創(chuàng)業(yè)公司以及金融服務(wù)業(yè)任職。

Guillaume Brouscon, Compass card (source: Berkeley.edu on Wikimedia Commons)

91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

Ben Lorica

為什么Java、Python會進入程序員最怕編程語言榜單

2020年技術(shù)領(lǐng)導(dǎo)人需要關(guān)注的5大關(guān)鍵領(lǐng)域

無服務(wù)器計算中的兩個缺失鏈條：有狀態(tài)計算和放置位置控制

在企業(yè)里管理機器學(xué)習(xí)：來自銀行和醫(yī)療行業(yè)的經(jīng)驗?