91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

對高質(zhì)量數(shù)據(jù)的追求
用于數(shù)據(jù)集成、清理和數(shù)據(jù)生成的機(jī)器學(xué)習(xí)解決方案開始出現(xiàn)。

“人工智能始于’好’數(shù)據(jù)”這種說法,得到了數(shù)據(jù)科學(xué)家、分析師和企業(yè)主的廣泛認(rèn)同。我們?yōu)轭A(yù)測、分類和各種分析任務(wù)構(gòu)建復(fù)雜人工智能模型的能力有了顯著提高,并且有大量(相當(dāng)容易使用的)工具允許數(shù)據(jù)科學(xué)家和分析師在幾天內(nèi)實現(xiàn)一個復(fù)雜模型。隨著建模變得更加容易,高質(zhì)量數(shù)據(jù)的問題變得比以往任何時候都更加明顯。O’Reilly最近的一項調(diào)查發(fā)現(xiàn),那些擁有成熟人工智能實踐的人(成熟的衡量標(biāo)準(zhǔn)是,他們的模型存在于生產(chǎn)系統(tǒng)中多久了)將“缺乏數(shù)據(jù)或數(shù)據(jù)質(zhì)量問題”作為阻礙進(jìn)一步利用人工智能技術(shù)的主要瓶頸。

image1-b039cca370f108b6653f4e1bb5175d91

盡管在構(gòu)建健壯模型方面取得了進(jìn)展,但現(xiàn)實中,有噪音的數(shù)據(jù)和不完整的數(shù)據(jù)仍然一個有效端到端解決方案的最大障礙。在結(jié)構(gòu)化企業(yè)數(shù)據(jù)中,這個問題甚至更加突出。這些數(shù)據(jù)集通常是孤立的、不完整的和極其稀疏的。此外,領(lǐng)域知識通常沒有被編碼在數(shù)據(jù)中(也沒有被完全記錄),然而這些信息是這些數(shù)據(jù)不可分割的一部分(參考Forbes的這篇文章)。如果您還考慮到數(shù)據(jù)稀疏性的規(guī)模以及領(lǐng)域知識的需求的話,那么您將面臨數(shù)據(jù)質(zhì)量問題的大風(fēng)暴。

在這篇博文中,我們闡明了為機(jī)器學(xué)習(xí)模型生成數(shù)據(jù)的各種努力??偟膩碚f,有兩條主要的工作路線來實現(xiàn)這個目標(biāo):(1)清理你擁有的數(shù)據(jù),和(2)生成更多的數(shù)據(jù)來幫助訓(xùn)練需要的模型。這兩個方向都見證了在有效使用機(jī)器學(xué)習(xí)模型方面的新進(jìn)展,這些進(jìn)展基于學(xué)術(shù)界的數(shù)個新成果。

數(shù)據(jù)集成和清理

處理數(shù)據(jù)質(zhì)量的最大陷阱之一是對所有數(shù)據(jù)問題用相同方式處理。學(xué)術(shù)研究在描述不同類別的數(shù)據(jù)質(zhì)量問題時更加慎重。我們看到兩大類問題,它們具有不同程度的復(fù)雜性,并且經(jīng)常要求不同的方法和工具來解決它們。由于他們在大多數(shù)數(shù)據(jù)科學(xué)項目上花費了大量的時間,我們在這篇文章中強調(diào)了這兩類主要的數(shù)據(jù)質(zhì)量問題:

1. 數(shù)據(jù)統(tǒng)一和集成

2. 錯誤檢測和自動修復(fù)/插補

數(shù)據(jù)統(tǒng)一和集成

即使用于大規(guī)模消息接收、消息傳遞、消息隊列和流處理的開源工具正在興起,孤立數(shù)據(jù)、數(shù)據(jù)集被困在各種業(yè)務(wù)單元的柵欄后面這一狀況,也是任何大型企業(yè)的正常狀態(tài)。數(shù)據(jù)統(tǒng)一或集成是指將這些數(shù)據(jù)整合到一個統(tǒng)一的數(shù)據(jù)環(huán)境中的一組活動。模式匹配和映射、記錄鏈接、重復(fù)數(shù)據(jù)消除,以及各種監(jiān)控活動是數(shù)據(jù)集成解決方案執(zhí)行的任務(wù)類型。機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步提供了一種可擴(kuò)展和高效的方式來取代傳統(tǒng)的自上而下、基于規(guī)則的系統(tǒng),這些系統(tǒng)在當(dāng)今的大數(shù)據(jù)環(huán)境中通常會導(dǎo)致巨大的成本和非常低的成功率。自下而上的解決方案采用了人工引導(dǎo)的機(jī)器學(xué)習(xí)管線(如Tamr、Paxata或Informatica。在這里需要完全披露利益相關(guān)的信息是,Ihab Ilyas是Tamr的聯(lián)合創(chuàng)始人之一),它們展示了如何利用可用的規(guī)則和人工專業(yè)知識來訓(xùn)練可擴(kuò)展的集成模型,這些模型可以處理數(shù)千個數(shù)據(jù)源和大量數(shù)據(jù)。在先前的一篇文章中,我們討論了使用機(jī)器學(xué)習(xí)解決這類問題的一些挑戰(zhàn)和促進(jìn)因素。

這類數(shù)據(jù)統(tǒng)一問題在解決方案的復(fù)雜性方面有其自身的特點:(1)問題復(fù)雜程度是輸入數(shù)據(jù)大小的平方級別(因為我們需要將所有的東西與其他的東西進(jìn)行比較),以及(2)主要的機(jī)器學(xué)習(xí)任務(wù)已經(jīng)被較好的而理解了,并且主要是確定兩個“東西”是否相同。這些特性對解決方案的設(shè)計有相當(dāng)大的影響。例如,如果我們不能窮舉所有需要檢查的樣本對,那么尋找重復(fù)或匹配模式的復(fù)雜復(fù)雜模型是我們最后才需要關(guān)心的問題。數(shù)據(jù)統(tǒng)一問題的有效解決方案往往是一項嚴(yán)肅的工程工作,旨在:(1)最大可能削減候選空間;(2)與專家有效互動,提供訓(xùn)練數(shù)據(jù),并驗證機(jī)器決策;和(3)保持豐富的數(shù)據(jù)血緣關(guān)系和源頭,以跟蹤審計、修改或復(fù)用決策,供將來的用例使用。由于機(jī)器學(xué)習(xí)任務(wù)的性質(zhì)(在這里主要是二分類問題)和數(shù)據(jù)結(jié)構(gòu)的豐富性,大多數(shù)成功的模型往往是好的、經(jīng)典的“淺”模型,例如借助簡單的(幫助處理字符串?dāng)?shù)據(jù)的)NLP模型,構(gòu)建起來的隨機(jī)森林。有關(guān)詳細(xì)信息,請參見這篇關(guān)于數(shù)據(jù)集成狀態(tài)的文章。

錯誤檢測、錯誤修復(fù)和數(shù)值填補

孤立的或集成的數(shù)據(jù)經(jīng)常是有噪音的或缺失的,有時甚至圍繞一個事實互相矛盾。數(shù)據(jù)清理是一類注重發(fā)現(xiàn)和(希望)修復(fù)此類錯誤的數(shù)據(jù)質(zhì)量工作。像數(shù)據(jù)集成一樣,數(shù)據(jù)清理實踐通常是通過密集的人工工作或基于特定規(guī)則的單點解決方案來執(zhí)行的。然而,這類問題有不同的復(fù)雜性和特性,它們都會影響解決方案的設(shè)計:核心機(jī)器學(xué)習(xí)任務(wù)通常比匹配任務(wù)復(fù)雜得多,并且需要構(gòu)建理解“數(shù)據(jù)是如何生成的”和“錯誤是如何引入的”的模型,以便能夠逆向該過程,來發(fā)現(xiàn)和修復(fù)錯誤。

雖然數(shù)據(jù)清理長期以來一直是學(xué)術(shù)界的一個研究課題,但它經(jīng)常被視為一個理論邏輯問題。這可能解釋了為什么工業(yè)上沒有采用任何解決方案。好消息是,來自學(xué)術(shù)界的研究人員最近設(shè)法利用大量的工作,并將其與可伸縮的統(tǒng)計推斷能力相結(jié)合,用于數(shù)據(jù)清理。開源的全新概率性數(shù)據(jù)清理框架HoloClean是目前最先進(jìn)的基于機(jī)器學(xué)習(xí)的自動錯誤檢測和修復(fù)系統(tǒng)。HoloClean采用了眾所周知的“噪聲信道”模型來解釋數(shù)據(jù)是如何產(chǎn)生的,以及數(shù)據(jù)是如何被“污染”的。然后,它利用所有已知的領(lǐng)域知識(如可用的規(guī)則)、數(shù)據(jù)中的統(tǒng)計信息和可用的可信來源來構(gòu)建復(fù)雜的數(shù)據(jù)生成和錯誤模型。然后,這些模型被用來發(fā)現(xiàn)錯誤,并提出“最有可能”的替換值。

關(guān)心可擴(kuò)展性,是數(shù)據(jù)清理和數(shù)據(jù)集成的一個共同點:構(gòu)建這樣復(fù)雜的模型需要通過一系列操作為整個數(shù)據(jù)集”提取特征“——例如,計算違反規(guī)則的行為、計算共現(xiàn)事件、或構(gòu)建語言模型。因此,機(jī)器學(xué)習(xí)的數(shù)據(jù)清洗解決方案需要在避免操作復(fù)雜性方面有所創(chuàng)新。例如,HoloClean 使用技術(shù)來修剪數(shù)據(jù)庫單元值,并對底層模型應(yīng)用恰當(dāng)?shù)乃沙?,以實現(xiàn)所需的可擴(kuò)展性。舊的研究工具在如何處理各種類型的錯誤,以及如何組合不同數(shù)據(jù)質(zhì)量的輸入(例如,業(yè)務(wù)和質(zhì)量規(guī)則、策略、數(shù)據(jù)中的統(tǒng)計信號等)方面苦苦掙扎。)。全新框架從兩個基本方面推進(jìn)了這一技術(shù)的發(fā)展:(1)將數(shù)據(jù)的邏輯規(guī)則和統(tǒng)計分布結(jié)合成一個連貫的概率模型;以及(2)通過一系列系統(tǒng)和模型優(yōu)化來擴(kuò)展學(xué)習(xí)和推理過程,這使得它能夠部署在輿情調(diào)查機(jī)構(gòu)和大型商業(yè)企業(yè)中。

數(shù)據(jù)編程

通過質(zhì)量統(tǒng)一和/或數(shù)據(jù)清理,來提高可用數(shù)據(jù)的質(zhì)量,無疑是利用企業(yè)數(shù)據(jù)資產(chǎn)的一個重要且有前途的方法。然而,對更多數(shù)據(jù)的追求還沒有結(jié)束,原因有兩個:

1. 用于數(shù)據(jù)清理和質(zhì)量統(tǒng)一的機(jī)器學(xué)習(xí)模型通常需要訓(xùn)練數(shù)據(jù),以及有可能出現(xiàn)的錯誤樣本,或者符合條件的數(shù)據(jù)記錄。這些例子完全依賴于人類打標(biāo)簽是不可能的;隨著機(jī)器學(xué)習(xí)模型變得越來越復(fù)雜,底層數(shù)據(jù)源變得越來越大,對更多數(shù)據(jù)的需求也在增加,其規(guī)模是人類專家無法達(dá)到的。

2. 即使我們通過質(zhì)量統(tǒng)一和數(shù)據(jù)清理提高了可用數(shù)據(jù)的質(zhì)量,也可能不足以支持更復(fù)雜的分析和預(yù)測模型(通常是構(gòu)建了深度學(xué)習(xí)模型)。

解決這兩個問題的一個重要范式,是數(shù)據(jù)編程的概念。簡而言之,數(shù)據(jù)編程技術(shù)提供了“制造”數(shù)據(jù)的方法,我們可以將這些數(shù)據(jù)提供給各種學(xué)習(xí)和預(yù)測任務(wù)(它甚至可以用于機(jī)器學(xué)習(xí)數(shù)據(jù)質(zhì)量解決方案)。實際上,“數(shù)據(jù)編程”統(tǒng)一了一類用于訓(xùn)練數(shù)據(jù)集程序化創(chuàng)建的技術(shù)。在這類工具中,像Snorkel這樣的框架展示了如何讓開發(fā)人員和數(shù)據(jù)科學(xué)家專注于編寫打標(biāo)簽函數(shù),以編程方式標(biāo)記數(shù)據(jù),然后對標(biāo)簽中的噪聲進(jìn)行建模,以有效地訓(xùn)練高質(zhì)量的模型。雖然使用數(shù)據(jù)編程來訓(xùn)練高質(zhì)量的分析模型的邏輯很清楚,不過我們還發(fā)現(xiàn),它用于前述提到的“在數(shù)據(jù)統(tǒng)一和數(shù)據(jù)清理的機(jī)器學(xué)習(xí)模型中內(nèi)部使用” 會很有趣。例如,像Tamr這樣的工具利用客戶編寫的遺留規(guī)則來(以編程方式)生成大量標(biāo)記的數(shù)據(jù),為其匹配的機(jī)器學(xué)習(xí)管線提供動力。在最近的一篇論文中,HoloClean項目展示了如何使用“數(shù)據(jù)增強”,靠一個小小的隨機(jī)數(shù),來產(chǎn)生許多“正樣本” ,并驅(qū)動其自動錯誤檢測模型。

市場驗證

我們在此展示的尋求高質(zhì)量數(shù)據(jù)的解決方案已經(jīng)在今天的市場上得到很好的驗證。

  • 大量財富1000強企業(yè)已經(jīng)部署了數(shù)據(jù)統(tǒng)一的機(jī)器學(xué)習(xí)解決方案,如Tamr和Informatica。
  • 自動數(shù)據(jù)清理解決方案(如全HoloClean)已經(jīng)被多個金融服務(wù)機(jī)構(gòu)和各國人口普查局采用。
  • 正如越來越多的Snorkel用戶所建議的,數(shù)據(jù)編程解決方案正開始改變數(shù)據(jù)科學(xué)家提供機(jī)器學(xué)習(xí)模型的方式。

隨著我們在理解集成、清理和自動數(shù)據(jù)生成等各種問題之間的差異方面變得越來越成熟,我們有機(jī)會看到,在處理企業(yè)中有價值的數(shù)據(jù)資產(chǎn)方面,究竟能有怎樣的真正改進(jìn)。

機(jī)器學(xué)習(xí)應(yīng)用依賴于三個主要組件:模型、數(shù)據(jù)和計算。許多文章是關(guān)于新的突破性模型的,其中許多是由研究人員創(chuàng)建的,他們不僅發(fā)表論文,還會開源在流行的的庫中編寫的代碼。此外,自動化機(jī)器學(xué)習(xí)的最新進(jìn)展產(chǎn)生了許多工具,可以(部分地)對模型選擇和超參數(shù)調(diào)整進(jìn)行自動化。因此,許多前沿模型現(xiàn)在可供數(shù)據(jù)科學(xué)家使用。類似地,云平臺讓開發(fā)人員更容易訪問計算和硬件。

模型越來越成為商品。正如我們在上面的調(diào)查結(jié)果中所指出的,現(xiàn)實中,缺乏高質(zhì)量的訓(xùn)練數(shù)據(jù)仍然是大多數(shù)機(jī)器學(xué)習(xí)項目的主要瓶頸。我們相信機(jī)器學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家將繼續(xù)花大部分時間創(chuàng)建和完善訓(xùn)練數(shù)據(jù)。幸運的是,幫助正在向我們走來:正如我們在這篇文章中所描述的,我們終于開始看到一類直接針對高質(zhì)量訓(xùn)練數(shù)據(jù)需求的技術(shù)。

相關(guān)內(nèi)容:

?

Ihab Ilyas

Ihab Ilyas是Cheriton計算機(jī)科學(xué)學(xué)院的教授,也是滑鐵盧大學(xué)湯森路透-NSERC數(shù)據(jù)質(zhì)量方向的首席研究員。他的主要研究集中在大數(shù)據(jù)和數(shù)據(jù)庫系統(tǒng)領(lǐng)域,特別關(guān)注數(shù)據(jù)質(zhì)量和集成、管理不確定數(shù)據(jù)、數(shù)據(jù)管理的機(jī)器學(xué)習(xí)和信息提取。Ihab還是Tamr的聯(lián)合創(chuàng)始人,Tamr是一家專注于大規(guī)模數(shù)據(jù)集成的初創(chuàng)公司。他是安大略省研究先驅(qū)獎的獲得者,Cheriton學(xué)院教授,NSERC發(fā)現(xiàn)加速獎獲得者,Google教授獎獲獎?wù)?,以及ACM的特邀科學(xué)家。Ihab當(dāng)選為VLDB捐贈基金董事會成員,當(dāng)選SIGMOD的副主席,ACM通訊-數(shù)據(jù)庫系統(tǒng)(TODS)的副主編。他在Purdue大學(xué)West Lafayette分校獲得了計算機(jī)科學(xué)博士學(xué)位。

Ben Lorica

Ben Lorica是O’Reilly Media公司的首席數(shù)據(jù)科學(xué)家,同時也是O’Reilly Strata數(shù)據(jù)會議和人工智能會議的內(nèi)容日程主管。他曾在多種場景下應(yīng)用商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計分析技術(shù),這些場景包括直銷、消費者與市場研究、定向廣告、文本挖掘和金融工程。他的背景包括在投資管理公司、互聯(lián)網(wǎng)初創(chuàng)企業(yè)和金融服務(wù)公司就職。