“人工智能始于’好’數(shù)據(jù)”這種說法,得到了數(shù)據(jù)科學(xué)家、分析師和企業(yè)主的廣泛認(rèn)同。我們?yōu)轭A(yù)測、分類和各種分析任務(wù)構(gòu)建復(fù)雜人工智能模型的能力有了顯著提高,并且有大量(相當(dāng)容易使用的)工具允許數(shù)據(jù)科學(xué)家和分析師在幾天內(nèi)實現(xiàn)一個復(fù)雜模型。隨著建模變得更加容易,高質(zhì)量數(shù)據(jù)的問題變得比以往任何時候都更加明顯。O’Reilly最近的一項調(diào)查發(fā)現(xiàn),那些擁有成熟人工智能實踐的人(成熟的衡量標(biāo)準(zhǔn)是,他們的模型存在于生產(chǎn)系統(tǒng)中多久了)將“缺乏數(shù)據(jù)或數(shù)據(jù)質(zhì)量問題”作為阻礙進(jìn)一步利用人工智能技術(shù)的主要瓶頸。

盡管在構(gòu)建健壯模型方面取得了進(jìn)展,但現(xiàn)實中,有噪音的數(shù)據(jù)和不完整的數(shù)據(jù)仍然一個有效端到端解決方案的最大障礙。在結(jié)構(gòu)化企業(yè)數(shù)據(jù)中,這個問題甚至更加突出。這些數(shù)據(jù)集通常是孤立的、不完整的和極其稀疏的。此外,領(lǐng)域知識通常沒有被編碼在數(shù)據(jù)中(也沒有被完全記錄),然而這些信息是這些數(shù)據(jù)不可分割的一部分(參考Forbes的這篇文章)。如果您還考慮到數(shù)據(jù)稀疏性的規(guī)模以及領(lǐng)域知識的需求的話,那么您將面臨數(shù)據(jù)質(zhì)量問題的大風(fēng)暴。
在這篇博文中,我們闡明了為機(jī)器學(xué)習(xí)模型生成數(shù)據(jù)的各種努力??偟膩碚f,有兩條主要的工作路線來實現(xiàn)這個目標(biāo):(1)清理你擁有的數(shù)據(jù),和(2)生成更多的數(shù)據(jù)來幫助訓(xùn)練需要的模型。這兩個方向都見證了在有效使用機(jī)器學(xué)習(xí)模型方面的新進(jìn)展,這些進(jìn)展基于學(xué)術(shù)界的數(shù)個新成果。
數(shù)據(jù)集成和清理
處理數(shù)據(jù)質(zhì)量的最大陷阱之一是對所有數(shù)據(jù)問題用相同方式處理。學(xué)術(shù)研究在描述不同類別的數(shù)據(jù)質(zhì)量問題時更加慎重。我們看到兩大類問題,它們具有不同程度的復(fù)雜性,并且經(jīng)常要求不同的方法和工具來解決它們。由于他們在大多數(shù)數(shù)據(jù)科學(xué)項目上花費了大量的時間,我們在這篇文章中強調(diào)了這兩類主要的數(shù)據(jù)質(zhì)量問題:
1. 數(shù)據(jù)統(tǒng)一和集成
2. 錯誤檢測和自動修復(fù)/插補
數(shù)據(jù)統(tǒng)一和集成
即使用于大規(guī)模消息接收、消息傳遞、消息隊列和流處理的開源工具正在興起,孤立數(shù)據(jù)、數(shù)據(jù)集被困在各種業(yè)務(wù)單元的柵欄后面這一狀況,也是任何大型企業(yè)的正常狀態(tài)。數(shù)據(jù)統(tǒng)一或集成是指將這些數(shù)據(jù)整合到一個統(tǒng)一的數(shù)據(jù)環(huán)境中的一組活動。模式匹配和映射、記錄鏈接、重復(fù)數(shù)據(jù)消除,以及各種監(jiān)控活動是數(shù)據(jù)集成解決方案執(zhí)行的任務(wù)類型。機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步提供了一種可擴(kuò)展和高效的方式來取代傳統(tǒng)的自上而下、基于規(guī)則的系統(tǒng),這些系統(tǒng)在當(dāng)今的大數(shù)據(jù)環(huán)境中通常會導(dǎo)致巨大的成本和非常低的成功率。自下而上的解決方案采用了人工引導(dǎo)的機(jī)器學(xué)習(xí)管線(如Tamr、Paxata或Informatica。在這里需要完全披露利益相關(guān)的信息是,Ihab Ilyas是Tamr的聯(lián)合創(chuàng)始人之一),它們展示了如何利用可用的規(guī)則和人工專業(yè)知識來訓(xùn)練可擴(kuò)展的集成模型,這些模型可以處理數(shù)千個數(shù)據(jù)源和大量數(shù)據(jù)。在先前的一篇文章中,我們討論了使用機(jī)器學(xué)習(xí)解決這類問題的一些挑戰(zhàn)和促進(jìn)因素。
這類數(shù)據(jù)統(tǒng)一問題在解決方案的復(fù)雜性方面有其自身的特點:(1)問題復(fù)雜程度是輸入數(shù)據(jù)大小的平方級別(因為我們需要將所有的東西與其他的東西進(jìn)行比較),以及(2)主要的機(jī)器學(xué)習(xí)任務(wù)已經(jīng)被較好的而理解了,并且主要是確定兩個“東西”是否相同。這些特性對解決方案的設(shè)計有相當(dāng)大的影響。例如,如果我們不能窮舉所有需要檢查的樣本對,那么尋找重復(fù)或匹配模式的復(fù)雜復(fù)雜模型是我們最后才需要關(guān)心的問題。數(shù)據(jù)統(tǒng)一問題的有效解決方案往往是一項嚴(yán)肅的工程工作,旨在:(1)最大可能削減候選空間;(2)與專家有效互動,提供訓(xùn)練數(shù)據(jù),并驗證機(jī)器決策;和(3)保持豐富的數(shù)據(jù)血緣關(guān)系和源頭,以跟蹤審計、修改或復(fù)用決策,供將來的用例使用。由于機(jī)器學(xué)習(xí)任務(wù)的性質(zhì)(在這里主要是二分類問題)和數(shù)據(jù)結(jié)構(gòu)的豐富性,大多數(shù)成功的模型往往是好的、經(jīng)典的“淺”模型,例如借助簡單的(幫助處理字符串?dāng)?shù)據(jù)的)NLP模型,構(gòu)建起來的隨機(jī)森林。有關(guān)詳細(xì)信息,請參見這篇關(guān)于數(shù)據(jù)集成狀態(tài)的文章。
錯誤檢測、錯誤修復(fù)和數(shù)值填補
孤立的或集成的數(shù)據(jù)經(jīng)常是有噪音的或缺失的,有時甚至圍繞一個事實互相矛盾。數(shù)據(jù)清理是一類注重發(fā)現(xiàn)和(希望)修復(fù)此類錯誤的數(shù)據(jù)質(zhì)量工作。像數(shù)據(jù)集成一樣,數(shù)據(jù)清理實踐通常是通過密集的人工工作或基于特定規(guī)則的單點解決方案來執(zhí)行的。然而,這類問題有不同的復(fù)雜性和特性,它們都會影響解決方案的設(shè)計:核心機(jī)器學(xué)習(xí)任務(wù)通常比匹配任務(wù)復(fù)雜得多,并且需要構(gòu)建理解“數(shù)據(jù)是如何生成的”和“錯誤是如何引入的”的模型,以便能夠逆向該過程,來發(fā)現(xiàn)和修復(fù)錯誤。
雖然數(shù)據(jù)清理長期以來一直是學(xué)術(shù)界的一個研究課題,但它經(jīng)常被視為一個理論邏輯問題。這可能解釋了為什么工業(yè)上沒有采用任何解決方案。好消息是,來自學(xué)術(shù)界的研究人員最近設(shè)法利用大量的工作,并將其與可伸縮的統(tǒng)計推斷能力相結(jié)合,用于數(shù)據(jù)清理。開源的全新概率性數(shù)據(jù)清理框架HoloClean是目前最先進(jìn)的基于機(jī)器學(xué)習(xí)的自動錯誤檢測和修復(fù)系統(tǒng)。HoloClean采用了眾所周知的“噪聲信道”模型來解釋數(shù)據(jù)是如何產(chǎn)生的,以及數(shù)據(jù)是如何被“污染”的。然后,它利用所有已知的領(lǐng)域知識(如可用的規(guī)則)、數(shù)據(jù)中的統(tǒng)計信息和可用的可信來源來構(gòu)建復(fù)雜的數(shù)據(jù)生成和錯誤模型。然后,這些模型被用來發(fā)現(xiàn)錯誤,并提出“最有可能”的替換值。
關(guān)心可擴(kuò)展性,是數(shù)據(jù)清理和數(shù)據(jù)集成的一個共同點:構(gòu)建這樣復(fù)雜的模型需要通過一系列操作為整個數(shù)據(jù)集”提取特征“——例如,計算違反規(guī)則的行為、計算共現(xiàn)事件、或構(gòu)建語言模型。因此,機(jī)器學(xué)習(xí)的數(shù)據(jù)清洗解決方案需要在避免操作復(fù)雜性方面有所創(chuàng)新。例如,HoloClean 使用技術(shù)來修剪數(shù)據(jù)庫單元值,并對底層模型應(yīng)用恰當(dāng)?shù)乃沙?,以實現(xiàn)所需的可擴(kuò)展性。舊的研究工具在如何處理各種類型的錯誤,以及如何組合不同數(shù)據(jù)質(zhì)量的輸入(例如,業(yè)務(wù)和質(zhì)量規(guī)則、策略、數(shù)據(jù)中的統(tǒng)計信號等)方面苦苦掙扎。)。全新框架從兩個基本方面推進(jìn)了這一技術(shù)的發(fā)展:(1)將數(shù)據(jù)的邏輯規(guī)則和統(tǒng)計分布結(jié)合成一個連貫的概率模型;以及(2)通過一系列系統(tǒng)和模型優(yōu)化來擴(kuò)展學(xué)習(xí)和推理過程,這使得它能夠部署在輿情調(diào)查機(jī)構(gòu)和大型商業(yè)企業(yè)中。
數(shù)據(jù)編程
通過質(zhì)量統(tǒng)一和/或數(shù)據(jù)清理,來提高可用數(shù)據(jù)的質(zhì)量,無疑是利用企業(yè)數(shù)據(jù)資產(chǎn)的一個重要且有前途的方法。然而,對更多數(shù)據(jù)的追求還沒有結(jié)束,原因有兩個:
1. 用于數(shù)據(jù)清理和質(zhì)量統(tǒng)一的機(jī)器學(xué)習(xí)模型通常需要訓(xùn)練數(shù)據(jù),以及有可能出現(xiàn)的錯誤樣本,或者符合條件的數(shù)據(jù)記錄。這些例子完全依賴于人類打標(biāo)簽是不可能的;隨著機(jī)器學(xué)習(xí)模型變得越來越復(fù)雜,底層數(shù)據(jù)源變得越來越大,對更多數(shù)據(jù)的需求也在增加,其規(guī)模是人類專家無法達(dá)到的。
2. 即使我們通過質(zhì)量統(tǒng)一和數(shù)據(jù)清理提高了可用數(shù)據(jù)的質(zhì)量,也可能不足以支持更復(fù)雜的分析和預(yù)測模型(通常是構(gòu)建了深度學(xué)習(xí)模型)。
解決這兩個問題的一個重要范式,是數(shù)據(jù)編程的概念。簡而言之,數(shù)據(jù)編程技術(shù)提供了“制造”數(shù)據(jù)的方法,我們可以將這些數(shù)據(jù)提供給各種學(xué)習(xí)和預(yù)測任務(wù)(它甚至可以用于機(jī)器學(xué)習(xí)數(shù)據(jù)質(zhì)量解決方案)。實際上,“數(shù)據(jù)編程”統(tǒng)一了一類用于訓(xùn)練數(shù)據(jù)集程序化創(chuàng)建的技術(shù)。在這類工具中,像Snorkel這樣的框架展示了如何讓開發(fā)人員和數(shù)據(jù)科學(xué)家專注于編寫打標(biāo)簽函數(shù),以編程方式標(biāo)記數(shù)據(jù),然后對標(biāo)簽中的噪聲進(jìn)行建模,以有效地訓(xùn)練高質(zhì)量的模型。雖然使用數(shù)據(jù)編程來訓(xùn)練高質(zhì)量的分析模型的邏輯很清楚,不過我們還發(fā)現(xiàn),它用于前述提到的“在數(shù)據(jù)統(tǒng)一和數(shù)據(jù)清理的機(jī)器學(xué)習(xí)模型中內(nèi)部使用” 會很有趣。例如,像Tamr這樣的工具利用客戶編寫的遺留規(guī)則來(以編程方式)生成大量標(biāo)記的數(shù)據(jù),為其匹配的機(jī)器學(xué)習(xí)管線提供動力。在最近的一篇論文中,HoloClean項目展示了如何使用“數(shù)據(jù)增強”,靠一個小小的隨機(jī)數(shù),來產(chǎn)生許多“正樣本” ,并驅(qū)動其自動錯誤檢測模型。
市場驗證
我們在此展示的尋求高質(zhì)量數(shù)據(jù)的解決方案已經(jīng)在今天的市場上得到很好的驗證。
- 大量財富1000強企業(yè)已經(jīng)部署了數(shù)據(jù)統(tǒng)一的機(jī)器學(xué)習(xí)解決方案,如Tamr和Informatica。
- 自動數(shù)據(jù)清理解決方案(如全HoloClean)已經(jīng)被多個金融服務(wù)機(jī)構(gòu)和各國人口普查局采用。
- 正如越來越多的Snorkel用戶所建議的,數(shù)據(jù)編程解決方案正開始改變數(shù)據(jù)科學(xué)家提供機(jī)器學(xué)習(xí)模型的方式。
隨著我們在理解集成、清理和自動數(shù)據(jù)生成等各種問題之間的差異方面變得越來越成熟,我們有機(jī)會看到,在處理企業(yè)中有價值的數(shù)據(jù)資產(chǎn)方面,究竟能有怎樣的真正改進(jìn)。
機(jī)器學(xué)習(xí)應(yīng)用依賴于三個主要組件:模型、數(shù)據(jù)和計算。許多文章是關(guān)于新的突破性模型的,其中許多是由研究人員創(chuàng)建的,他們不僅發(fā)表論文,還會開源在流行的的庫中編寫的代碼。此外,自動化機(jī)器學(xué)習(xí)的最新進(jìn)展產(chǎn)生了許多工具,可以(部分地)對模型選擇和超參數(shù)調(diào)整進(jìn)行自動化。因此,許多前沿模型現(xiàn)在可供數(shù)據(jù)科學(xué)家使用。類似地,云平臺讓開發(fā)人員更容易訪問計算和硬件。
模型越來越成為商品。正如我們在上面的調(diào)查結(jié)果中所指出的,現(xiàn)實中,缺乏高質(zhì)量的訓(xùn)練數(shù)據(jù)仍然是大多數(shù)機(jī)器學(xué)習(xí)項目的主要瓶頸。我們相信機(jī)器學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家將繼續(xù)花大部分時間創(chuàng)建和完善訓(xùn)練數(shù)據(jù)。幸運的是,幫助正在向我們走來:正如我們在這篇文章中所描述的,我們終于開始看到一類直接針對高質(zhì)量訓(xùn)練數(shù)據(jù)需求的技術(shù)。
相關(guān)內(nèi)容:
- 機(jī)器學(xué)習(xí)對數(shù)據(jù)統(tǒng)一的三個促進(jìn)因素:信任、傳統(tǒng)和可擴(kuò)展性
- “軟件2.0和Snorkel”
- Ihab Ilyas 談“為什么數(shù)據(jù)準(zhǔn)備框架依賴于Human-In-The-Loop”
- Alex Ratner談“快速創(chuàng)建大型訓(xùn)練數(shù)據(jù)集”
- Jeff Jonas談“觸手可得的實時命名實體解析技術(shù)”
- “數(shù)據(jù)隱私和機(jī)器學(xué)習(xí)時代下的數(shù)據(jù)收集和數(shù)據(jù)市場”
?



