當(dāng)我在世界經(jīng)濟(jì)論壇上閱讀文章《這就是為什么中國(guó)在人工智能方面具有優(yōu)勢(shì)》時(shí),讓我感到震驚的不是中國(guó)在人工智能方面是否有優(yōu)勢(shì),真正令我震驚的是文中認(rèn)為人工智能發(fā)展所需要的五個(gè)基本構(gòu)建模塊:
- 海量數(shù)據(jù)
- 自動(dòng)數(shù)據(jù)標(biāo)注系統(tǒng)
- 頂尖科學(xué)家
- 定義清晰的行業(yè)需求
- 高效的計(jì)算能力
這讓我思考,這些因素對(duì)于建立一個(gè)堅(jiān)實(shí)的人工智能基礎(chǔ)至關(guān)重要嗎?這些領(lǐng)域做的好是否會(huì)給人工智能項(xiàng)目帶來(lái)優(yōu)勢(shì)?總體來(lái)說(shuō)我的答案是:有一點(diǎn),但是具有誤導(dǎo)性。讓我來(lái)一個(gè)一個(gè)分析一下:
- 海量的數(shù)據(jù)。恕我直言,這是人工智能里分散注意力的東西。太多人相信“誰(shuí)有的數(shù)據(jù)最多誰(shuí)就贏”。數(shù)據(jù)絕對(duì)是有價(jià)值的,但數(shù)量本身不會(huì)帶來(lái)價(jià)值。數(shù)據(jù)量很大,可能是有通用的或冗余的數(shù)據(jù)。因此,海量的數(shù)據(jù)只有在區(qū)分對(duì)待使用后才有價(jià)值,確切地說(shuō),你才可能從這些數(shù)據(jù)中獲得更好的結(jié)果。同時(shí),定義大數(shù)據(jù)有三個(gè)V:多樣性(Variety)、速度(Velocity)和準(zhǔn)確性(Veracity)。多樣性和速度都不需要“海量”。至于準(zhǔn)確性,你懂得,“海量的”垃圾數(shù)據(jù)是沒(méi)有價(jià)值的。最后,我想補(bǔ)充一點(diǎn)。海量的數(shù)據(jù)可能會(huì)迅速導(dǎo)致暴政流行(即數(shù)據(jù)獲多的就會(huì)贏的那些例子)。但我們都有一些例子表明信息里的金塊才是關(guān)鍵,有時(shí)小數(shù)據(jù)就可以贏。底線:大數(shù)據(jù)是一個(gè)構(gòu)建基礎(chǔ);但是“海量的數(shù)據(jù)”這個(gè)概念則是誤導(dǎo)。
- 自動(dòng)數(shù)據(jù)標(biāo)注系統(tǒng)。自動(dòng)化的標(biāo)注系統(tǒng)本身就是人工智能。如果我們把它作為一個(gè)構(gòu)建模塊,就會(huì)陷入無(wú)限循環(huán)的困境。底線:自動(dòng)數(shù)據(jù)標(biāo)注系統(tǒng)是子組件,而不是構(gòu)建模塊。
- 頂尖的科學(xué)家。首先,沒(méi)有科研,這一切就沒(méi)有可能,沒(méi)有!從HT到Bengio(s)、LeCun、Ng、Hinton等人(都是頂尖科學(xué)家)。世界經(jīng)濟(jì)論壇的文章呼吁科學(xué)家和工程師的組合,但是更多的是用一種瀑布式方法去和基于需求的比對(duì)。問(wèn)題必須是,你想要構(gòu)建什么?以及對(duì)你來(lái)說(shuō),自己創(chuàng)建算法還是使用他人構(gòu)思或創(chuàng)造的算法?你需要為你的業(yè)務(wù)做出決定——是科學(xué)重要,還是落地實(shí)現(xiàn)更重要?這兩個(gè)是不同的模塊,兩者都很重要。而且,你可能對(duì)問(wèn)題的不同部分有不同的答案。底線:頂尖科學(xué)家和/或經(jīng)驗(yàn)豐富的工程師創(chuàng)建模塊,但不是模塊本身。
- 定義清晰的行業(yè)需求。需求是我們讓人工智能會(huì)失敗的地方。我最近作為行業(yè)里有影響力的人受邀參加英特爾的AI Day。技術(shù)議題相當(dāng)豐富。但商業(yè)議題——很棒——其實(shí)商業(yè)議題參與者門可羅雀。我們作為技術(shù)專家,對(duì)技術(shù)進(jìn)步感到興奮。但我們忘記了我們需要這些進(jìn)步的原因。我們沉醉于我們的技術(shù)。我會(huì)反對(duì)行業(yè)的需求,更傾向于業(yè)務(wù)需求。雖然業(yè)務(wù)需求會(huì)和行業(yè)需求有重疊,但關(guān)鍵是把人工智能專注在你的業(yè)務(wù)、你的客戶、你的運(yùn)營(yíng)上。底線:清晰定義的業(yè)務(wù)需求是構(gòu)建模塊; 清晰定義的行業(yè)需求是誤導(dǎo)。
- 高效的計(jì)算能力。盡管我甚至不確定我是否要點(diǎn)評(píng)這一條,但我還是要駁斥一下這一觀點(diǎn),就這樣。高效的計(jì)算能力是地基或是我要在上面進(jìn)行建設(shè)的地方,而不是建筑物。這是常識(shí)的核心。為什么我認(rèn)為這是一個(gè)值得點(diǎn)評(píng)一下的問(wèn)題?是因?yàn)樗葎e的點(diǎn)更不好區(qū)分。或者可以這么看,對(duì)于大多數(shù)應(yīng)用而言,把它看成一個(gè)可以商品化的東西。底線:高效的計(jì)算能力是地基,而不是構(gòu)建模塊,因此這一點(diǎn)是誤導(dǎo)。
我提出以下三個(gè)人工智能開(kāi)發(fā)的關(guān)鍵組成部分,我稱之為雞蛋、雞和培根:
- 雞蛋。數(shù)據(jù)是雞蛋。我們還沒(méi)有看到一個(gè)客戶是沒(méi)有足夠的數(shù)據(jù)來(lái)開(kāi)始使用人工智能為自己或他們的客戶做得更好。通過(guò)客戶對(duì)數(shù)據(jù)想法,我們觀察到的兩個(gè)最大的挑戰(zhàn)是:
? 數(shù)據(jù)孤島。企業(yè)會(huì)圍繞著數(shù)據(jù)制定瘋狂和不切實(shí)際的規(guī)劃,但各個(gè)部門對(duì)于“他們自己”的數(shù)據(jù)卻像封建領(lǐng)主一樣行事。
? 非結(jié)構(gòu)化數(shù)據(jù)。Gartner估計(jì),企業(yè)數(shù)據(jù)的80%是非結(jié)構(gòu)化的。根據(jù)我們的經(jīng)驗(yàn),這些數(shù)據(jù)是尚未被開(kāi)發(fā)的資源,可以帶來(lái)價(jià)值。
你的重點(diǎn)不應(yīng)該放在數(shù)據(jù)量上,而應(yīng)該放在可被用來(lái)解決有明確定義的問(wèn)題的可用數(shù)據(jù)上。實(shí)際上,在測(cè)試時(shí)盡可能使用最少量的數(shù)據(jù)。這樣你和你的團(tuán)隊(duì)就有更好的機(jī)會(huì)在早期發(fā)現(xiàn)數(shù)據(jù)里的問(wèn)題和依賴關(guān)系。底線:專注于自己獨(dú)特的業(yè)務(wù)問(wèn)題的數(shù)據(jù)質(zhì)量,而不是數(shù)量。
- 雞。算法是雞。我經(jīng)常在TensorFlow Playground中展示算法和數(shù)據(jù)之間相互作用的可執(zhí)行的例子。根據(jù)自己的目標(biāo)和可用數(shù)據(jù),你需要選擇不同的算法。根據(jù)可用的算法,你可能需要尋找不同的數(shù)據(jù)。因此,雞和雞蛋的悖論可供參考。底線:你不能把數(shù)據(jù)和算法分開(kāi);它們互相依賴。
- 培根。什么是業(yè)務(wù)里的培根?那就是更好的業(yè)務(wù)成果。這必須是最先思考和最后交付的內(nèi)容。必須要根據(jù)需要的結(jié)果來(lái)定義項(xiàng)目,然后進(jìn)行測(cè)量以確保能達(dá)到結(jié)果。精煉結(jié)果,再重復(fù)進(jìn)行。我在新加坡的Strata + Hadoop World大會(huì)做了如何“雇傭”人工智能的演講。第一步就是撰寫職位描述——工作要求是什么?之后,需要根據(jù)你定義的需求來(lái)評(píng)估工作是否完成。底線:不要忘了培根!
這些構(gòu)建模塊高度相互依賴。類似于樂(lè)高積木,它們有許多不同的組合方式,但仍然需要被設(shè)計(jì)成可以契合起來(lái)。是的,你可以用“人工智能會(huì)給我們帶來(lái)更多培根”來(lái)結(jié)束你的爭(zhēng)論。
相關(guān)資源:
Jana Eggers
Jana Eggers是數(shù)學(xué)和計(jì)算機(jī)極客,但選擇商業(yè)路線來(lái)作為自己的職業(yè)路徑。今天她是Nara Logics的CEO。Nara Logics是一家受神經(jīng)科學(xué)啟發(fā)的人工智能公司,為企業(yè)提供支持推薦和決策的平臺(tái)。Jana的職業(yè)生涯從只有3個(gè)人的小公司開(kāi)始,發(fā)展到在有50000名員工的企業(yè)里工作。作為美國(guó)航空公司的一部分,她開(kāi)設(shè)了歐洲物流軟件辦事處。并于1996年進(jìn)入互聯(lián)網(wǎng)行業(yè),在Lycos創(chuàng)立了Intuit公司的創(chuàng)新實(shí)驗(yàn)室,幫助了Spreadshirt完成大規(guī)模的定制化。她還曾在洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室研究導(dǎo)電聚合物。她非常喜歡和團(tuán)隊(duì)一起定義和交付客戶喜愛(ài)的產(chǎn)品、算法和智能,并鼓舞團(tuán)隊(duì)去做超越自我的事情。

