隨著企業(yè)開始進行人工智能技術的探索,三個特定的領域引起了很多關注:計算機視覺、自然語言應用和語音技術。世界知識產權局(WIPO)最近的一份報告發(fā)現(xiàn),這三個領域的專利占了人工智能相關專利的大部分:計算機視覺占49%,自然語言處理(NLP)占14%,語音技術占13%。

圖1 世界知識產權局2019年的研究顯示了幾個關鍵領域的專利發(fā)表情況。圖片來源:Ben Lorica
企業(yè)里有很多非結構化和半結構化的文本數(shù)據(jù),而很多公司已經擁有了NLP和文本分析的經驗。雖然比較少的公司擁有收集和存儲圖像或視頻的基礎設施,但計算機視覺是許多公司開始探索的領域。深度學習和其他技術的興起促使初創(chuàng)公司商業(yè)化了一些計算機視覺的應用,包括安防和合規(guī)、媒體和廣告以及內容生成。
一些企業(yè)也在探索話音和語音的應用。自然語言和語音模型的最新進步提升了準確性,從而開辟出了一些新的應用。在企業(yè)語音應用方面,呼叫中心、銷售和客戶支持以及個人助理等應用處于領先地位。在消費者應用方面,語音搜索、智能音箱和數(shù)字助理正越來越普及。雖然遠非完美,但目前這一代話音和語音應用已經足夠得好,從而推動了語音應用的爆炸性增長。語音技術的潛力的一個早期線索是語音驅動的搜索的增長。Comscore估計,到2020年,大約一半的在線搜索將使用語音。Gartner建議企業(yè)重新設計其網站,以支持視覺和語音搜索。此外,從2018年到2019年,智能音箱預計將增長82%以上。到今年年底,此類設備的安裝數(shù)將超過2億臺。
圖2 語音交互的類型。圖片來源:Yishay Carmiel和Ben Lorica
音頻內容數(shù)據(jù)也正在呈現(xiàn)爆炸式的增長。這就需要使用語音技術進行搜索和挖掘,從而能解鎖這些新內容。例如,根據(jù)《紐約時報》最近的一篇文章,在美國“每個月中大概有三分之一的人會至少收聽一次播客”。播客節(jié)目的增長并不僅限于美國,包括中國在內的世界各地的播客量都在增加。
語音和對話應用是有挑戰(zhàn)性的
在文本和NLP或計算機視覺領域里,程序員可以簡單地開發(fā)出一個應用。但語音應用(不是簡單的語音命令)對許多企業(yè)來說仍然具有挑戰(zhàn)性??谡Z比書面文字有更多的“噪音”。例如,在閱讀了許多播客腳本后,我們可以證明語音對話的腳本仍然需要大量的編輯工作。即使你可以獲得最好的轉錄(語音到文本)技術,你也通常也會看到一個包含暫停、填充、重啟、插話(在對話的場景里)和不合語法結構的句子的腳本數(shù)據(jù)。腳本還可能包含需要改進的段落,因為有人可能“在開腦洞”或難以準確地表達特定的觀點。此外,由轉錄產生的腳本可能無有在正確的位置打標點或進行大寫處理。因此,在許多應用中,腳本的后處理就需要人類編輯參與。
在計算機視覺(現(xiàn)在是NLP)中,我們已經處于數(shù)據(jù)至少與算法同等重要的階段。 具體而言,預先訓練的模型已經在計算機視覺和NLP的若干任務中提供了最好的性能。那么語音領域怎么樣?“一個模型能滿足所有的”語音模型沒能出現(xiàn)的原因有下述幾個:
- 存在各種聲學環(huán)境和背景噪音:室內或室外、在汽車里、在倉庫里或在家庭等。
- 可能需要支持多種語言(英語、西班牙語、中文普通話等),特別是在說話人在對話過程中使用(或混用)多種語言的情況下。
- 應用類型(如搜索、個人助理等)會影響對話流程和詞匯表。
- 根據(jù)應用的復雜程度,需要針對特定領域和主題來調整語言模型和詞匯。這一點對于文本和自然語言應用也成立。
構建語音應用
盡管存在挑戰(zhàn),但正如前面我們所指出的那樣,語音技術和語音應用已經出現(xiàn)了相當多的讓人激動的內容。雖然我們尚未達到可以使用通用解決方案為各種語音應用“供電”的階段,同時也沒有能夠跨多個領域的語音智能助理。
然而,已經有一些很好的基礎模塊可以被用來組裝有趣的語音應用。為了幫助正在探索使用語音技術的公司,我們整理了以下指南:
- 集中你的注意力。正如我們所指出的那樣,當前一代語音技術無法實現(xiàn)“一個模型能滿足所有的”場景。因此最好將重點放在特定任務、某種語言和某個領域。
- 理解應用想要實現(xiàn)的目標,然后再去看所需要的技術類型。如果你能知道應用的KPI,那么就可以使用這些KPI來找到為特定應用領域實現(xiàn)這些度量標準所需要的語言模型。
- 在“真實數(shù)據(jù)和真實場景”里進行實驗。如果你計劃開始使用現(xiàn)成的模型和服務,請注意“真實數(shù)據(jù)和真實場景”的重要性。在許多情況下,初始測試數(shù)據(jù)并不能代表用戶與想部署的系統(tǒng)進行交互的方式。
- 獲取每個特定任務的標記樣本。例如,識別英語中的“cat”和中文普通話中的“貓”將需要不同的模型和不同的標記數(shù)據(jù)。
- 制定數(shù)據(jù)采集策略以保證收集到合適的數(shù)據(jù)。確保構建的系統(tǒng)可以隨著收集到更多的數(shù)據(jù)而持續(xù)學習,以及制定一個支持持續(xù)改進的迭代流程。
- 語音應用的用戶關心的是結果。語音模型只有在推導出洞察力并使用這些洞察力而采取行動時才有意義。例如,如果用戶要求智能音箱播放特定的歌曲,那么對該用戶唯一重要的就是音箱能播放那首歌曲。

圖3 模型應該被用來推導出洞察。圖片來源:Yishay Carmiel和Ben Lorica
- 自動化工作流程。理想情況下,所需的字典和語音模型可以在沒有太多干預(來自機器學習或語音技術專家)的情況下進行更新。
- 語音應用是復雜的端到端系統(tǒng),因此要盡可能地進行優(yōu)化。單單一個語音識別系統(tǒng)就是由我們在前一篇文章中描述的多個模塊所組成。訓練和再訓練模型的代價可能很高。根據(jù)應用和場景,延遲和持續(xù)連接也是重要的考慮因素。
從NLU到SLU
我們仍處于企業(yè)級語音應用的早期階段。在過去的12個月中,我們看到預訓練的自然語言模型取得了快速進展,這些模型在多個NLP基準測試中創(chuàng)造了新記錄。開發(fā)人員開始采用這些語言模型,并針對特定領域和應用對它們進行微調。
對AI應用來說,語音數(shù)據(jù)又增加了另一層的復雜性,它超越了自然語言理解(NLU)。口語理解(SLU)需要能夠從口語中提取含義。雖然SLU還沒有被用于語言或語音應用,但好消息是,已經可以使用現(xiàn)有的SLU模型構建簡單、特定用途的語音應用。為了找到正確的應用場合,企業(yè)需要了解當前技術和算法的局限性。
與此同時,我們將會一步一步地進行。正如Alan Nichol在一篇關注基于文本的應用的博文中指出的那樣,“聊天機器人只是實現(xiàn)真正的AI助手和自動組織的第一步?!蓖瑯拥?,今天的語音應用揭開了即將發(fā)生的事情的一角。
相關內容:
- “文本分析 101:深度學習和注意力網絡一路走向生產系統(tǒng)”,在人工智能倫敦大會上的一個新的教學議程。
- 《深度學習正革命化對話人工智能》
- 《企業(yè)里的下一代人工智能助手》
- Yishay Camiel的《在大數(shù)據(jù)和深度學習時代的商業(yè)化語音識別系統(tǒng)》
- 《在醫(yī)療領域構建自然語言處理系統(tǒng)的經驗教訓》
- Alan Nichol的《使用機器學習來改進對話應用中的對話流程》
- 《一張簡單的幻燈片:誰對Spark NLP感興趣?》
- Ihab Ilyas和Ben Lorica的《對高質量數(shù)據(jù)的需求》


圖2 語音交互的類型。圖片來源:Yishay Carmiel和Ben Lorica
