古风名字,琅琊榜海宴小说

對高質(zhì)量數(shù)據(jù)的追求

用于數(shù)據(jù)集成、清理和數(shù)據(jù)生成的機(jī)器學(xué)習(xí)解決方案開始出現(xiàn)。

2019年6月18日

編者注：Ihab Ilyas 將在2019年10月14日至17日于倫敦舉行的O’Reilly人工智能會議上發(fā)言。

“人工智能始于’好’數(shù)據(jù)”這種說法，得到了數(shù)據(jù)科學(xué)家、分析師和企業(yè)主的廣泛認(rèn)同。我們?yōu)轭A(yù)測、分類和各種分析任務(wù)構(gòu)建復(fù)雜人工智能模型的能力有了顯著提高，并且有大量(相當(dāng)容易使用的)工具允許數(shù)據(jù)科學(xué)家和分析師在幾天內(nèi)實現(xiàn)一個復(fù)雜模型。隨著建模變得更加容易，高質(zhì)量數(shù)據(jù)的問題變得比以往任何時候都更加明顯。O’Reilly最近的一項調(diào)查發(fā)現(xiàn)，那些擁有成熟人工智能實踐的人(成熟的衡量標(biāo)準(zhǔn)是，他們的模型存在于生產(chǎn)系統(tǒng)中多久了)將“缺乏數(shù)據(jù)或數(shù)據(jù)質(zhì)量問題”作為阻礙進(jìn)一步利用人工智能技術(shù)的主要瓶頸。

image1-b039cca370f108b6653f4e1bb5175d91

盡管在構(gòu)建健壯模型方面取得了進(jìn)展，但現(xiàn)實中，有噪音的數(shù)據(jù)和不完整的數(shù)據(jù)仍然一個有效端到端解決方案的最大障礙。在結(jié)構(gòu)化企業(yè)數(shù)據(jù)中，這個問題甚至更加突出。這些數(shù)據(jù)集通常是孤立的、不完整的和極其稀疏的。此外，領(lǐng)域知識通常沒有被編碼在數(shù)據(jù)中(也沒有被完全記錄)，然而這些信息是這些數(shù)據(jù)不可分割的一部分（參考Forbes的這篇文章）。如果您還考慮到數(shù)據(jù)稀疏性的規(guī)模以及領(lǐng)域知識的需求的話，那么您將面臨數(shù)據(jù)質(zhì)量問題的大風(fēng)暴。

在這篇博文中，我們闡明了為機(jī)器學(xué)習(xí)模型生成數(shù)據(jù)的各種努力?？偟膩碚f，有兩條主要的工作路線來實現(xiàn)這個目標(biāo):(1)清理你擁有的數(shù)據(jù)，和(2)生成更多的數(shù)據(jù)來幫助訓(xùn)練需要的模型。這兩個方向都見證了在有效使用機(jī)器學(xué)習(xí)模型方面的新進(jìn)展，這些進(jìn)展基于學(xué)術(shù)界的數(shù)個新成果。

數(shù)據(jù)集成和清理

處理數(shù)據(jù)質(zhì)量的最大陷阱之一是對所有數(shù)據(jù)問題用相同方式處理。學(xué)術(shù)研究在描述不同類別的數(shù)據(jù)質(zhì)量問題時更加慎重。我們看到兩大類問題，它們具有不同程度的復(fù)雜性，并且經(jīng)常要求不同的方法和工具來解決它們。由于他們在大多數(shù)數(shù)據(jù)科學(xué)項目上花費了大量的時間，我們在這篇文章中強調(diào)了這兩類主要的數(shù)據(jù)質(zhì)量問題:

1. 數(shù)據(jù)統(tǒng)一和集成

2. 錯誤檢測和自動修復(fù)/插補

數(shù)據(jù)統(tǒng)一和集成

即使用于大規(guī)模消息接收、消息傳遞、消息隊列和流處理的開源工具正在興起，孤立數(shù)據(jù)、數(shù)據(jù)集被困在各種業(yè)務(wù)單元的柵欄后面這一狀況，也是任何大型企業(yè)的正常狀態(tài)。數(shù)據(jù)統(tǒng)一或集成是指將這些數(shù)據(jù)整合到一個統(tǒng)一的數(shù)據(jù)環(huán)境中的一組活動。模式匹配和映射、記錄鏈接、重復(fù)數(shù)據(jù)消除，以及各種監(jiān)控活動是數(shù)據(jù)集成解決方案執(zhí)行的任務(wù)類型。機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步提供了一種可擴(kuò)展和高效的方式來取代傳統(tǒng)的自上而下、基于規(guī)則的系統(tǒng)，這些系統(tǒng)在當(dāng)今的大數(shù)據(jù)環(huán)境中通常會導(dǎo)致巨大的成本和非常低的成功率。自下而上的解決方案采用了人工引導(dǎo)的機(jī)器學(xué)習(xí)管線(如Tamr、Paxata或Informatica。在這里需要完全披露利益相關(guān)的信息是，Ihab Ilyas是Tamr的聯(lián)合創(chuàng)始人之一)，它們展示了如何利用可用的規(guī)則和人工專業(yè)知識來訓(xùn)練可擴(kuò)展的集成模型，這些模型可以處理數(shù)千個數(shù)據(jù)源和大量數(shù)據(jù)。在先前的一篇文章中，我們討論了使用機(jī)器學(xué)習(xí)解決這類問題的一些挑戰(zhàn)和促進(jìn)因素。

這類數(shù)據(jù)統(tǒng)一問題在解決方案的復(fù)雜性方面有其自身的特點:(1)問題復(fù)雜程度是輸入數(shù)據(jù)大小的平方級別(因為我們需要將所有的東西與其他的東西進(jìn)行比較)，以及(2)主要的機(jī)器學(xué)習(xí)任務(wù)已經(jīng)被較好的而理解了，并且主要是確定兩個“東西”是否相同。這些特性對解決方案的設(shè)計有相當(dāng)大的影響。例如，如果我們不能窮舉所有需要檢查的樣本對，那么尋找重復(fù)或匹配模式的復(fù)雜復(fù)雜模型是我們最后才需要關(guān)心的問題。數(shù)據(jù)統(tǒng)一問題的有效解決方案往往是一項嚴(yán)肅的工程工作，旨在:(1)最大可能削減候選空間；(2)與專家有效互動，提供訓(xùn)練數(shù)據(jù)，并驗證機(jī)器決策；和(3)保持豐富的數(shù)據(jù)血緣關(guān)系和源頭，以跟蹤審計、修改或復(fù)用決策，供將來的用例使用。由于機(jī)器學(xué)習(xí)任務(wù)的性質(zhì)(在這里主要是二分類問題)和數(shù)據(jù)結(jié)構(gòu)的豐富性，大多數(shù)成功的模型往往是好的、經(jīng)典的“淺”模型，例如借助簡單的(幫助處理字符串?dāng)?shù)據(jù)的)NLP模型，構(gòu)建起來的隨機(jī)森林。有關(guān)詳細(xì)信息，請參見這篇關(guān)于數(shù)據(jù)集成狀態(tài)的文章。

錯誤檢測、錯誤修復(fù)和數(shù)值填補

孤立的或集成的數(shù)據(jù)經(jīng)常是有噪音的或缺失的，有時甚至圍繞一個事實互相矛盾。數(shù)據(jù)清理是一類注重發(fā)現(xiàn)和（希望）修復(fù)此類錯誤的數(shù)據(jù)質(zhì)量工作。像數(shù)據(jù)集成一樣，數(shù)據(jù)清理實踐通常是通過密集的人工工作或基于特定規(guī)則的單點解決方案來執(zhí)行的。然而，這類問題有不同的復(fù)雜性和特性，它們都會影響解決方案的設(shè)計：核心機(jī)器學(xué)習(xí)任務(wù)通常比匹配任務(wù)復(fù)雜得多，并且需要構(gòu)建理解“數(shù)據(jù)是如何生成的”和“錯誤是如何引入的”的模型，以便能夠逆向該過程，來發(fā)現(xiàn)和修復(fù)錯誤。

雖然數(shù)據(jù)清理長期以來一直是學(xué)術(shù)界的一個研究課題，但它經(jīng)常被視為一個理論邏輯問題。這可能解釋了為什么工業(yè)上沒有采用任何解決方案。好消息是，來自學(xué)術(shù)界的研究人員最近設(shè)法利用大量的工作，并將其與可伸縮的統(tǒng)計推斷能力相結(jié)合，用于數(shù)據(jù)清理。開源的全新概率性數(shù)據(jù)清理框架HoloClean是目前最先進(jìn)的基于機(jī)器學(xué)習(xí)的自動錯誤檢測和修復(fù)系統(tǒng)。HoloClean采用了眾所周知的“噪聲信道”模型來解釋數(shù)據(jù)是如何產(chǎn)生的，以及數(shù)據(jù)是如何被“污染”的。然后，它利用所有已知的領(lǐng)域知識(如可用的規(guī)則)、數(shù)據(jù)中的統(tǒng)計信息和可用的可信來源來構(gòu)建復(fù)雜的數(shù)據(jù)生成和錯誤模型。然后，這些模型被用來發(fā)現(xiàn)錯誤，并提出“最有可能”的替換值。

關(guān)心可擴(kuò)展性，是數(shù)據(jù)清理和數(shù)據(jù)集成的一個共同點：構(gòu)建這樣復(fù)雜的模型需要通過一系列操作為整個數(shù)據(jù)集”提取特征“——例如，計算違反規(guī)則的行為、計算共現(xiàn)事件、或構(gòu)建語言模型。因此，機(jī)器學(xué)習(xí)的數(shù)據(jù)清洗解決方案需要在避免操作復(fù)雜性方面有所創(chuàng)新。例如，HoloClean 使用技術(shù)來修剪數(shù)據(jù)庫單元值，并對底層模型應(yīng)用恰當(dāng)?shù)乃沙?，以實現(xiàn)所需的可擴(kuò)展性。舊的研究工具在如何處理各種類型的錯誤，以及如何組合不同數(shù)據(jù)質(zhì)量的輸入(例如，業(yè)務(wù)和質(zhì)量規(guī)則、策略、數(shù)據(jù)中的統(tǒng)計信號等)方面苦苦掙扎。)。全新框架從兩個基本方面推進(jìn)了這一技術(shù)的發(fā)展:(1)將數(shù)據(jù)的邏輯規(guī)則和統(tǒng)計分布結(jié)合成一個連貫的概率模型；以及(2)通過一系列系統(tǒng)和模型優(yōu)化來擴(kuò)展學(xué)習(xí)和推理過程，這使得它能夠部署在輿情調(diào)查機(jī)構(gòu)和大型商業(yè)企業(yè)中。

數(shù)據(jù)編程

通過質(zhì)量統(tǒng)一和/或數(shù)據(jù)清理，來提高可用數(shù)據(jù)的質(zhì)量，無疑是利用企業(yè)數(shù)據(jù)資產(chǎn)的一個重要且有前途的方法。然而，對更多數(shù)據(jù)的追求還沒有結(jié)束，原因有兩個:

1. 用于數(shù)據(jù)清理和質(zhì)量統(tǒng)一的機(jī)器學(xué)習(xí)模型通常需要訓(xùn)練數(shù)據(jù)，以及有可能出現(xiàn)的錯誤樣本，或者符合條件的數(shù)據(jù)記錄。這些例子完全依賴于人類打標(biāo)簽是不可能的；隨著機(jī)器學(xué)習(xí)模型變得越來越復(fù)雜，底層數(shù)據(jù)源變得越來越大，對更多數(shù)據(jù)的需求也在增加，其規(guī)模是人類專家無法達(dá)到的。

2. 即使我們通過質(zhì)量統(tǒng)一和數(shù)據(jù)清理提高了可用數(shù)據(jù)的質(zhì)量，也可能不足以支持更復(fù)雜的分析和預(yù)測模型(通常是構(gòu)建了深度學(xué)習(xí)模型)。

解決這兩個問題的一個重要范式，是數(shù)據(jù)編程的概念。簡而言之，數(shù)據(jù)編程技術(shù)提供了“制造”數(shù)據(jù)的方法，我們可以將這些數(shù)據(jù)提供給各種學(xué)習(xí)和預(yù)測任務(wù)(它甚至可以用于機(jī)器學(xué)習(xí)數(shù)據(jù)質(zhì)量解決方案)。實際上，“數(shù)據(jù)編程”統(tǒng)一了一類用于訓(xùn)練數(shù)據(jù)集程序化創(chuàng)建的技術(shù)。在這類工具中，像Snorkel這樣的框架展示了如何讓開發(fā)人員和數(shù)據(jù)科學(xué)家專注于編寫打標(biāo)簽函數(shù)，以編程方式標(biāo)記數(shù)據(jù)，然后對標(biāo)簽中的噪聲進(jìn)行建模，以有效地訓(xùn)練高質(zhì)量的模型。雖然使用數(shù)據(jù)編程來訓(xùn)練高質(zhì)量的分析模型的邏輯很清楚，不過我們還發(fā)現(xiàn)，它用于前述提到的“在數(shù)據(jù)統(tǒng)一和數(shù)據(jù)清理的機(jī)器學(xué)習(xí)模型中內(nèi)部使用” 會很有趣。例如，像Tamr這樣的工具利用客戶編寫的遺留規(guī)則來(以編程方式)生成大量標(biāo)記的數(shù)據(jù)，為其匹配的機(jī)器學(xué)習(xí)管線提供動力。在最近的一篇論文中，HoloClean項目展示了如何使用“數(shù)據(jù)增強”，靠一個小小的隨機(jī)數(shù)，來產(chǎn)生許多“正樣本” ，并驅(qū)動其自動錯誤檢測模型。

市場驗證

我們在此展示的尋求高質(zhì)量數(shù)據(jù)的解決方案已經(jīng)在今天的市場上得到很好的驗證。

大量財富1000強企業(yè)已經(jīng)部署了數(shù)據(jù)統(tǒng)一的機(jī)器學(xué)習(xí)解決方案，如Tamr和Informatica。
自動數(shù)據(jù)清理解決方案(如全HoloClean)已經(jīng)被多個金融服務(wù)機(jī)構(gòu)和各國人口普查局采用。
正如越來越多的Snorkel用戶所建議的，數(shù)據(jù)編程解決方案正開始改變數(shù)據(jù)科學(xué)家提供機(jī)器學(xué)習(xí)模型的方式。

隨著我們在理解集成、清理和自動數(shù)據(jù)生成等各種問題之間的差異方面變得越來越成熟，我們有機(jī)會看到，在處理企業(yè)中有價值的數(shù)據(jù)資產(chǎn)方面，究竟能有怎樣的真正改進(jìn)。

機(jī)器學(xué)習(xí)應(yīng)用依賴于三個主要組件:模型、數(shù)據(jù)和計算。許多文章是關(guān)于新的突破性模型的，其中許多是由研究人員創(chuàng)建的，他們不僅發(fā)表論文，還會開源在流行的的庫中編寫的代碼。此外，自動化機(jī)器學(xué)習(xí)的最新進(jìn)展產(chǎn)生了許多工具，可以(部分地)對模型選擇和超參數(shù)調(diào)整進(jìn)行自動化。因此，許多前沿模型現(xiàn)在可供數(shù)據(jù)科學(xué)家使用。類似地，云平臺讓開發(fā)人員更容易訪問計算和硬件。

模型越來越成為商品。正如我們在上面的調(diào)查結(jié)果中所指出的，現(xiàn)實中，缺乏高質(zhì)量的訓(xùn)練數(shù)據(jù)仍然是大多數(shù)機(jī)器學(xué)習(xí)項目的主要瓶頸。我們相信機(jī)器學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家將繼續(xù)花大部分時間創(chuàng)建和完善訓(xùn)練數(shù)據(jù)。幸運的是，幫助正在向我們走來：正如我們在這篇文章中所描述的，我們終于開始看到一類直接針對高質(zhì)量訓(xùn)練數(shù)據(jù)需求的技術(shù)。