人工智能的倡導(dǎo)者與以人為中心的方法的支持者之間的爭(zhēng)論其實(shí)是一個(gè)錯(cuò)誤的二分法。機(jī)器當(dāng)然可以幫助人們解決面對(duì)的問(wèn)題,但是它們很少能單獨(dú)完成任務(wù)。為了更有效,機(jī)器必須向人類學(xué)習(xí)與人相關(guān)的知識(shí)。創(chuàng)建和實(shí)現(xiàn)準(zhǔn)確的人工智能系統(tǒng)要求人的知識(shí)的輸入。
這并不意味著我們不能從自動(dòng)化和人工智能上得到應(yīng)有的效率優(yōu)勢(shì)。人類的輸入并不需要很多的時(shí)間及精力的投入就可以收集到。換句話說(shuō),讓機(jī)器不通過(guò)直接詢問(wèn)人類問(wèn)題,但進(jìn)而回答與人類有關(guān)的問(wèn)題是可能的。比如,谷歌通過(guò)觀察人們點(diǎn)擊哪些頁(yè)面來(lái)學(xué)習(xí)哪些網(wǎng)頁(yè)是人們喜歡的。當(dāng)將這些作為PageRank算法的輸入的鏈接推薦時(shí),這些在線信息的產(chǎn)生者不是有意與谷歌電腦交互,他們是與人類觀眾交流。谷歌只是簡(jiǎn)單地進(jìn)行“偷聽(tīng)”,就像寶寶通過(guò)反復(fù)的聽(tīng)到許多成年進(jìn)行的對(duì)話來(lái)學(xué)習(xí)她的語(yǔ)言。學(xué)習(xí)人們的自然模式和被動(dòng)信號(hào)是計(jì)算機(jī)獲取有用的知識(shí)的最有效的途徑之一。
智能“竊聽(tīng)”計(jì)算機(jī)的角色
在一個(gè)組織中,有大量的消息來(lái)源,可以讓一個(gè)智能竊聽(tīng)計(jì)算機(jī)能夠?qū)W習(xí)數(shù)據(jù)分析師如何與他們的數(shù)據(jù)庫(kù)進(jìn)行交互,以及它們應(yīng)該怎么做:
查詢?nèi)罩?/h5>
許多查詢“對(duì)話”都會(huì)被存儲(chǔ)在查詢?nèi)罩局小R粋€(gè)查詢?nèi)罩局械囊粭l記錄可能展示了用戶Jdoe寫了一個(gè)查詢用來(lái)從一個(gè)客戶表與一個(gè)事務(wù)表的連接中選取一些列,并通過(guò)時(shí)間進(jìn)行過(guò)濾。這一事件暗示了Jdoe可能知道并且對(duì)那兩個(gè)表感興趣,以及那些表可以以此種方式進(jìn)行連接。如果許多不同的用戶針對(duì)這些表中的一個(gè)進(jìn)行查詢時(shí),那表示那個(gè)表在組織中十分重要。這類信息對(duì)于一個(gè)需要加緊熟悉數(shù)據(jù)環(huán)境的新員工以及需要優(yōu)先排序數(shù)據(jù)文檔的處理是有用的。如果Jdoe針對(duì)事務(wù)表寫了格外多的查詢,那么這意味著她可能是這方面的專家。并且如果許多在事務(wù)表上執(zhí)行的查詢包含數(shù)據(jù)過(guò)濾器(并且如果所有不需要幾百小時(shí)來(lái)運(yùn)行的查詢會(huì)經(jīng)常被取消),這就是一個(gè)明顯的信號(hào),說(shuō)明未來(lái)的查詢應(yīng)該包含這個(gè)過(guò)濾器。日志包含了豐富的知識(shí),說(shuō)明重要的是什么,對(duì)誰(shuí)重要,誰(shuí)是專家,以及數(shù)據(jù)應(yīng)該怎樣優(yōu)化地被過(guò)濾、連接和使用。但前提是你知道如何閱讀這些信號(hào)。
商業(yè)智能工具
另外一種人們與他們的數(shù)據(jù)進(jìn)行對(duì)話的記錄可以在商業(yè)智能工具中發(fā)現(xiàn)。如果我在Tableau的工作簿中制作了一個(gè)圖表,其中y軸叫做“收入”,并且我使用事務(wù)表中的數(shù)量列的總和來(lái)計(jì)算該值,我就有效地提供了我對(duì)收入的定義。一個(gè)計(jì)算機(jī)能夠?qū)⑦@個(gè)定義與其他標(biāo)記為“收入”的軸進(jìn)行對(duì)比,并且應(yīng)用各種技術(shù)來(lái)評(píng)估這些定義在邏輯上是否等價(jià)。
數(shù)據(jù)血緣繼承
在沒(méi)有許多人類輸入的情況下,計(jì)算機(jī)可以繪制出一個(gè)組織中所有數(shù)據(jù)資產(chǎn)的來(lái)源和出處圖,從基本表到產(chǎn)生的報(bào)告,以及之間的ETL腳本和SQL創(chuàng)建語(yǔ)句。那個(gè)圖可以用來(lái)放大人類的效用。例如,由于腐敗變質(zhì)是順流而下的,一個(gè)重要的來(lái)源表報(bào)告的數(shù)據(jù)質(zhì)量問(wèn)題能夠成為一個(gè)數(shù)據(jù)質(zhì)量告警向下傳播到上千個(gè)表和報(bào)告指標(biāo)上。
自然語(yǔ)言語(yǔ)料庫(kù)
難以理解的字段名能夠代表數(shù)據(jù)分析部門面臨的一個(gè)主要挑戰(zhàn)。例如Cmply_bin中的bin代表的是什么?inis_bin?或者?bin_nbr里又是什么意思?通過(guò)在內(nèi)部維基或者商業(yè)智能工具中掃描已完成的文檔,計(jì)算機(jī)可以構(gòu)建一個(gè)語(yǔ)言模型,包含可能的候選項(xiàng):“bin”在A/B測(cè)試中是桶的同義詞,或者也可以是單詞“binary”的縮寫,也可以是“Buy it Now”的首字母縮寫。在學(xué)習(xí)“成人”(與嬰兒的比喻對(duì)應(yīng))的語(yǔ)法之后,計(jì)算機(jī)可以生成一個(gè)消歧引擎,基于詞的排列搭配和上下文線索。拼寫規(guī)則和自然語(yǔ)言處理技術(shù)都可以對(duì)已有的組織文檔中存在的語(yǔ)料庫(kù)進(jìn)行處理。
數(shù)據(jù)的值
數(shù)據(jù)的值本身也可以提供豐富的信號(hào)。某些文檔中的九位字符串看上去可能是社保號(hào)碼,特別是那些名字為soc_sec_num,?ssn或者scl_scrty_nbr的字段。通過(guò)上面所述的數(shù)據(jù)的傳承和連接,這些值可以追溯到其他有不太明顯的標(biāo)簽的字段。因此,放置在其中一個(gè)包含敏感信息的字段上的標(biāo)志可以傳播到其余部分,提高了整個(gè)數(shù)據(jù)集的安全性。
有知識(shí)的人類訓(xùn)練師的角色
對(duì)于所有的文檔來(lái)說(shuō),從一個(gè)可能敏感的信息的分類到一個(gè)字段名的英語(yǔ)翻譯,再到一個(gè)計(jì)算(如求和)或一個(gè)度量指標(biāo)(如收入)的映射,計(jì)算機(jī)可以提供具有相當(dāng)置信度的猜測(cè),之后具有相關(guān)知識(shí)的人可以進(jìn)行確認(rèn)。這種確認(rèn)不僅僅是另一個(gè)人對(duì)其進(jìn)行標(biāo)注從而增加可信度,更是在教計(jì)算機(jī),使得它對(duì)自己未來(lái)的猜測(cè)更為自信。
許多現(xiàn)代的數(shù)據(jù)驅(qū)動(dòng)的組織都在積極地生成數(shù)據(jù)目錄,這是一種綜合性的存儲(chǔ),包括一個(gè)組織中的所有的數(shù)據(jù)資產(chǎn),它們的質(zhì)量和來(lái)源,以及它們應(yīng)該如何使用。只通過(guò)人力來(lái)試圖建立這種工件在有限的資源下是很難完成的。而完全自動(dòng)化的項(xiàng)目(例如讓計(jì)算機(jī)自行抓取數(shù)據(jù),不需要人為輸入)通常會(huì)帶來(lái)不準(zhǔn)確和可信度不高的結(jié)果。
結(jié)論
人類在查詢?nèi)罩尽I工具、維基、譜系、數(shù)據(jù)值這些場(chǎng)景里,以及它們之間的各種連接時(shí)留下了大量的隱藏信號(hào)。通過(guò)從中提煉出知識(shí),計(jì)算機(jī)可以學(xué)習(xí)一個(gè)數(shù)據(jù)環(huán)境,它是如何工作的,以及它過(guò)去是如何工作和應(yīng)該如何工作等等重要信息,并由此自動(dòng)化地填充一個(gè)數(shù)據(jù)目錄分類。通過(guò)具有相關(guān)知識(shí)的人的顯式反饋,計(jì)算機(jī)可以提高數(shù)據(jù)目錄分類的廣度和精度。
計(jì)算機(jī)猜測(cè),專家確認(rèn),而后計(jì)算機(jī)再學(xué)習(xí),更好的猜測(cè),人類受益。當(dāng)人與計(jì)算機(jī)進(jìn)行協(xié)作,我們?nèi)祟惖男枰ㄙM(fèi)的力氣可以被最小化,而我們得到的收益被最大化。這在人和計(jì)算機(jī)的世界都是最好不過(guò)的結(jié)果。
Aaron Kalb
Aaron Kalb的職業(yè)生涯致力于改進(jìn)人機(jī)交互,特別是通過(guò)自然語(yǔ)言接口。在以符號(hào)系統(tǒng)學(xué)士和碩士學(xué)位畢業(yè)離開(kāi)斯坦福之后,他在蘋果公司從事iOS和Siri的相關(guān)工作(做工程、研究和設(shè)計(jì)先進(jìn)的開(kāi)發(fā)組-Advanced Development Group)。Aaron是Alation公司的共同創(chuàng)始人,他目前擔(dān)任產(chǎn)品主管。Alation提供了第一個(gè)企業(yè)數(shù)據(jù)目錄,由機(jī)器學(xué)習(xí)與人協(xié)作相結(jié)合來(lái)進(jìn)行生成和更新,這目前正幫助像eBay和Safeway這樣的組織來(lái)做更多的數(shù)據(jù)驅(qū)動(dòng)的決策。

