有声小说,古风名字

已改進(jìn)的工具生態(tài)系統(tǒng)正在助推人工智能落地

我們現(xiàn)在正處在人工智能技術(shù)的落地階段

Ben Lorica, 2019年6月11日

編者注：想把當(dāng)前大部分的人工智能技術(shù)和解決方案運(yùn)用到你的業(yè)務(wù)中？抓緊注冊(cè)，了解如何利用人工智能到你當(dāng)前的工作中。

在這篇文章中我分享了 Roger Chen和我在2019年人工智能大會(huì)紐約站上發(fā)表的主題演講中的幻燈片和備注。在這個(gè)簡短的總結(jié)中，我重點(diǎn)介紹我們針對(duì)企業(yè)中人工智能落地這一主題的調(diào)查問卷的結(jié)果，并介紹了近期人工智能的新趨勢。在過去的十年中，人工智能和機(jī)器學(xué)習(xí)已經(jīng)成為非?；钴S的研究領(lǐng)域。在2018年arxiv.org 平均每天新上傳大約100篇機(jī)器學(xué)習(xí)相關(guān)的論文。過去幾年里所有的研究都表明，可以公平地講我們現(xiàn)在已經(jīng)進(jìn)入了很多人工智能技術(shù)的落地階段。企業(yè)開始將研究成果和和相應(yīng)的實(shí)現(xiàn)轉(zhuǎn)化為產(chǎn)品和服務(wù)。

商業(yè)行為和興趣的一個(gè)早期標(biāo)志就是專利申請(qǐng)的數(shù)量。我很幸運(yùn)能夠?yàn)槭澜缰R(shí)產(chǎn)權(quán)局（WIPO）近期的一份研究報(bào)告做出貢獻(xiàn)。該研究報(bào)告研究了人工智能和機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域的全球?qū)＠暾?qǐng)的情況。他們的主要發(fā)現(xiàn)之一就是專利申請(qǐng)數(shù)量的迅速增長。事實(shí)上，專利申請(qǐng)與論文發(fā)表數(shù)量的比例表明專利申請(qǐng)的增長速度比論文的增速要高。

Figure1-99dc7a06b497d2ea4f65863eb84a31ae

圖1. 2019年WIPO的研究表明，人工智能專利申請(qǐng)的增長速度超過了論文發(fā)表的增速。資料來源：Ben Lorica

如果查看更細(xì)的領(lǐng)域，WIPO研究發(fā)現(xiàn)，49％的人工智能相關(guān)專利（超過167000件）中提到了計(jì)算機(jī)視覺。此外，計(jì)算機(jī)視覺專利申請(qǐng)的數(shù)量以每年平均24％的速度增長，僅2016年就有21000多項(xiàng)相關(guān)專利被提交申請(qǐng)。

Figure2-673c031486c3f53dcdefc55595470de6

圖2 2019 WIPO研究里按領(lǐng)域劃分的專利申請(qǐng)的細(xì)節(jié)。資料來源：Ben Lorica

對(duì)于自然語言的研究人員來說2018年以來是非常富有成果的。每隔幾個(gè)月就會(huì)出現(xiàn)新的深度學(xué)習(xí)模型，這些模型在許多不同的自然語言任務(wù)和基準(zhǔn)中打破了原有的記錄。

Figure3-f52d29cf440e6310da7e8994e52877a8

圖3 近期自然語言處理模型領(lǐng)域的進(jìn)步。資料來源：Ben Lorica

這些研究的大部分都是公開的，并給出了開源代碼和預(yù)訓(xùn)練的模型。雖然人工智能和機(jī)器學(xué)習(xí)在文本中的應(yīng)用并不新鮮，但其中一些模型的準(zhǔn)確性引起了從業(yè)者和企業(yè)的興趣。我們?nèi)斯ぶ悄艽髸?huì)中一些最受歡迎的培訓(xùn)、教程和議題就是專注于文本和自然語言應(yīng)用的。需要重點(diǎn)強(qiáng)調(diào)的是，根據(jù)你的應(yīng)用或場景，你可能需要重新調(diào)優(yōu)這些語言模型。

我們看到深度學(xué)習(xí)工具在被持續(xù)地改進(jìn)。我們的調(diào)查顯示TensorFlow和PyTorch仍然是最受歡迎的框架庫。也出現(xiàn)了一些新的開源工具，如Ludwig和Analytics Zoo。它們主要面向希望開始使用深度學(xué)習(xí)的非專業(yè)人士。我們還看到來自像Weights＆Bias和Determined AI這樣的創(chuàng)業(yè)公司開發(fā)出來的工具（信息披露：我是Determined AI的顧問），以及像Nauta這樣的開源工具。這些工具專門為那些擁有不斷擴(kuò)張的深度學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家團(tuán)隊(duì)的公司而設(shè)計(jì)。這些工具可優(yōu)化計(jì)算資源，自動(dòng)化模型構(gòu)建的各個(gè)階段，并幫助用戶跟蹤和管理各種嘗試。

我們調(diào)查了超過1300名受訪者。其中的22％表示他們開始使用強(qiáng)化學(xué)習(xí)（RL），這是一種與近期有名的“自學(xué)習(xí)”系統(tǒng)相關(guān)的機(jī)器學(xué)習(xí)的形式。出現(xiàn)這個(gè)現(xiàn)象的原因有如下幾點(diǎn)。我們開始看到更多可用于強(qiáng)化學(xué)習(xí)的開源的、專有的和SaaS版的工具。更重要的是，像Netflix這樣的公司開始分享強(qiáng)化學(xué)習(xí)的案例。同時(shí)，過去一年里有各種專注于強(qiáng)化學(xué)習(xí)的新工具上線。例如，Danny Lange和他在Unity的團(tuán)隊(duì)發(fā)布了一套工具，使研究人員和開發(fā)人員能夠“快速有效地在新一代機(jī)器人、游戲和其他領(lǐng)域里測試新的人工智能算法?！?/p>

讓我們更仔細(xì)地看看這些工具中的一個(gè)。在人工智能大會(huì)上，我們提供了一個(gè)關(guān)于開源計(jì)算框架Ray的培訓(xùn)教程。Ray是由加州大學(xué)伯克利分校RISE實(shí)驗(yàn)室的團(tuán)隊(duì)開發(fā)的。

Figure4_2-5f01acc70b7fb60410501b87f1bb9a5f

圖4 使用RLlib進(jìn)行強(qiáng)化學(xué)習(xí)是Ray流行的使用案例之一。資料來源：Ben Lorica

正如我在之前一篇博文中提到的，Ray已經(jīng)在多個(gè)方面有了增長：用戶數(shù)量、貢獻(xiàn)者數(shù)量和使用案例數(shù)量。Ray對(duì)無狀態(tài)和有狀態(tài)計(jì)算的支持以及對(duì)調(diào)度的細(xì)粒度控制允許用戶在其上實(shí)現(xiàn)各種服務(wù)和應(yīng)用，其中就包括強(qiáng)化學(xué)習(xí)。Ray-RLlib之上的強(qiáng)化學(xué)習(xí)庫為不同類型的強(qiáng)化學(xué)習(xí)訓(xùn)練提供了統(tǒng)一的API，并且它的所有算法都是分布式的。強(qiáng)化學(xué)習(xí)用戶和研究人員已經(jīng)從使用RLlib中受益。

硬件發(fā)展方面也有令人振奮的消息。去年我們開始跟蹤一些創(chuàng)業(yè)公司，它們?yōu)樵谶吘壴O(shè)備和數(shù)據(jù)中心設(shè)備上進(jìn)行訓(xùn)練和推斷的人工智能專門設(shè)計(jì)硬件。我們已經(jīng)看到專門用于推斷的硬件（甚至還有Google云平臺(tái)上專門用于訓(xùn)練的設(shè)備——TPU）。在今年下半年第三、四季度，我們預(yù)計(jì)會(huì)有更多的公司發(fā)布它們的硬件，這將大大加快訓(xùn)練和推斷的速度，同時(shí)提高能源使用效率。鑒于我們正處于高度依賴經(jīng)驗(yàn)的機(jī)器學(xué)習(xí)和人工智能的時(shí)期，可以在降低成本的同時(shí)大大加快訓(xùn)練時(shí)間的工具將能帶來更多的實(shí)驗(yàn)進(jìn)而導(dǎo)致可能的突破。

在我們的調(diào)查中發(fā)現(xiàn)超過60％的公司計(jì)劃將部分IT預(yù)算投入人工智能。但投資水平取決于公司已經(jīng)擁有的人工智能經(jīng)驗(yàn)。正如在圖5中所看到的那樣，那些擁有成熟實(shí)踐經(jīng)驗(yàn)的企業(yè)計(jì)劃將相當(dāng)大一部分IT預(yù)算投入到人工智能中去。人工智能領(lǐng)導(dǎo)者和落后者之間的差距很可能會(huì)進(jìn)一步擴(kuò)大。

Figure5-831ed3fd0b3ec501fe68fa42ae08e533

圖5 計(jì)劃對(duì)人工智能的投入水平取決于企業(yè)的成熟度。資料來源：Ben Lorica

那么，是什么阻礙人工智能被采用？根據(jù)我們的調(diào)查，答案取決于公司的成熟度。

Figure6-a1c993a15e853380f881be0061bc2eea

圖6 阻礙人工智能被采用的關(guān)鍵瓶頸。資料來源：Ben Lorica

那些剛開始涉足這個(gè)領(lǐng)域的人很難找到人工智能的應(yīng)用案例或解釋它的重要性。此外，我們離通用人工智能還很遙遠(yuǎn)。我們正處于這些技術(shù)必須通過精調(diào)和準(zhǔn)確定位才能得到好的使用的階段。另外，許多人工智能系統(tǒng)需要通過增強(qiáng)領(lǐng)域?qū)＜也拍馨l(fā)揮它的作用。因此，這些技術(shù)需要在組織的各個(gè)層面進(jìn)行培訓(xùn)，而不僅僅是技術(shù)團(tuán)隊(duì)。管理者必須了解當(dāng)前人工智能技術(shù)的功能和局限性，并了解其他公司如何使用它。以機(jī)器人過程自動(dòng)化（RPA）為例，這是企業(yè)的熱門話題。真正最接近工作的人（“自下而上的方法”）才能夠最好地識(shí)別RPA最適合的任務(wù)。

另一方面，那些擁有成熟人工智能實(shí)踐的組織則面臨著缺乏數(shù)據(jù)和熟練的技術(shù)人員的困難。讓我們更仔細(xì)地看一下圖7中的技能差距。

Figure7-32b524413998cb22b29d82febed10a77

圖7 人工智能里的技能差距。資料來源：Ben Lorica

技能要求也取決于成熟程度。擁有更成熟的人工智能實(shí)踐經(jīng)驗(yàn)的公司在尋找應(yīng)用案例方面遇到的麻煩更少，對(duì)數(shù)據(jù)科學(xué)家的需要也低。但是，對(duì)數(shù)據(jù)和基礎(chǔ)設(shè)施工程師的需求跨越了不同的企業(yè)。重要的是要記住，今天的大部分人工智能任務(wù)仍然需要大量的訓(xùn)練數(shù)據(jù)和大量的計(jì)算資源來訓(xùn)練大型的模型。我最近寫一篇文章，其中介紹了關(guān)于機(jī)器學(xué)習(xí)和人工智能想成功所需的必要的基礎(chǔ)技術(shù)。

隨著人工智能技術(shù)在企業(yè)內(nèi)部被使用，我們需要更好的機(jī)器學(xué)習(xí)模型開發(fā)、治理和運(yùn)維工具。我們已經(jīng)開始看到可以自動(dòng)化機(jī)器學(xué)習(xí)管道的多個(gè)階段的工具。它們能幫助管理機(jī)器學(xué)習(xí)模型的開發(fā)過程，以及搜索可能的神經(jīng)網(wǎng)絡(luò)架構(gòu)。鑒于機(jī)器學(xué)習(xí)和人工智能的熱度，我們預(yù)見相關(guān)領(lǐng)域的工具將能夠得到改善并被廣泛采用。

Figure8-dc0ea9f7f11121ef26121d28ae8b563d

圖8 自動(dòng)化和模型開發(fā)工具正在越來越流行。資料來源：Ben Lorica

隨著企業(yè)對(duì)人工智能的興趣日益增加，現(xiàn)在是為機(jī)器學(xué)習(xí)開發(fā)工具的絕好時(shí)機(jī)。當(dāng)我們?cè)儐柺茉L者“您計(jì)劃在未來12個(gè)月內(nèi)將哪些工具納入您的機(jī)器學(xué)習(xí)工作流程？”時(shí)，我們發(fā)現(xiàn)：

48%的受訪者希望有模型可視化的工具。
43%的受訪者需要自動(dòng)化模型搜索和超參數(shù)調(diào)優(yōu)的工具。

企業(yè)正在意識(shí)到機(jī)器學(xué)習(xí)和人工智能不僅僅是優(yōu)化業(yè)務(wù)或統(tǒng)計(jì)指標(biāo)這么簡單。在過去的一年里，我試圖在“風(fēng)險(xiǎn)管理”（這是許多企業(yè)已經(jīng)熟悉的術(shù)語和實(shí)踐領(lǐng)域）的框架下總結(jié)一些這方面需要考慮的事項(xiàng)。研究人員和企業(yè)已經(jīng)開始發(fā)布工具和框架來解釋他們用來開發(fā)“負(fù)責(zé)任的人工智能”的各種技術(shù)。當(dāng)我們?cè)儐柺茉L者 “您在機(jī)器學(xué)習(xí)模型構(gòu)建和部署期間檢查了哪些風(fēng)險(xiǎn)？” 時(shí)，我們發(fā)現(xiàn)：

45%受訪者評(píng)估了模型的可說明性和可解釋性。
41%受訪者表示它們針對(duì)公平性和歧視進(jìn)行了測試。
35%受訪者檢查了隱私方面。
34%的受訪者查看了安全和可靠性的問題。
27%的受訪者針對(duì)脆弱性進(jìn)行了測試。

下面聊聊數(shù)據(jù)安全的話題。在人工智能時(shí)代，有些情況下數(shù)據(jù)的完整性與數(shù)據(jù)的安全性同樣重要，因?yàn)槿斯ぶ悄芟到y(tǒng)高度依賴于訓(xùn)練用的數(shù)據(jù)。構(gòu)建能夠跟蹤數(shù)據(jù)管理和血緣的基礎(chǔ)架構(gòu)非常重要，不僅是對(duì)于安全和質(zhì)量保證審計(jì)而言，而且是對(duì)于遵守現(xiàn)有和將來的法規(guī)也是如此。

Figure9-e75480de3b7332157b93f4009cc23661

圖9 人工智能時(shí)代的數(shù)據(jù)隱私和安全。資料來源：Ben Lorica

我們正處于機(jī)器學(xué)習(xí)和人工智能的落地階段。過去十幾年里已經(jīng)產(chǎn)生了大量的研究成果，現(xiàn)在我們開始看到針對(duì)企業(yè)和開發(fā)人員的各種可獲取的工具的出現(xiàn)。但我們?nèi)蕴幱谌斯ぶ悄苈涞氐脑缙陔A段，在工具方面的多個(gè)領(lǐng)域仍有很多工作要做。因此，許多初創(chuàng)公司、大企業(yè)和研究人員正在努力改進(jìn)機(jī)器學(xué)習(xí)和人工智能的工具生態(tài)系統(tǒng)。在接下來的12個(gè)月中，我預(yù)計(jì)在簡化機(jī)器學(xué)習(xí)開發(fā)、治理和運(yùn)維等方面的工具將取得很多進(jìn)展。

Ben Lorica

Ben Lorica是O’Reilly Media公司的首席數(shù)據(jù)科學(xué)家，同時(shí)也是Strata數(shù)據(jù)會(huì)議和O’Reilly人工智能會(huì)議的內(nèi)容日程主管。他曾在多種場景下應(yīng)用商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析技術(shù)，這些場景包括直銷、消費(fèi)者與市場研究、定向廣告、文本挖掘和金融工程。他的背景包括在投資管理公司、互聯(lián)網(wǎng)初創(chuàng)企業(yè)和金融服務(wù)公司就職。