Apple發(fā)布Siri已經(jīng)有幾年了。受Star Trek電影的啟發(fā),Jeff Bezos引入和發(fā)布Alexa也有3年了。但是由人工智能賦能的對話性界面的想法已經(jīng)存在幾十年了。在1966年,麻省理工的教授Joseph Weizenbaum提出了ELIZA。一般都把它看成今天的對話人工智能的最初原型。
幾十年之后,在《連線》雜志的一篇文章里,Andrew Leonard正式宣布“機器人已經(jīng)大熱了”,并進一步推測在不久的將來“(機器人)能幫助我找到某個CD的最好的價錢,為我媽媽訂花,并能持續(xù)地提供給我莫桑比克的最新發(fā)展的消息。”不過里面提到CD暴露了這個文章是寫在1996年。
現(xiàn)在諸如Slack、Starbucks、Mastercard和Macy’s這樣的公司已經(jīng)在嘗試和使用對話性的界面做所有的事,從客服到控制和家里相關的事情,比如給我媽訂花。如果你懷疑這一技術的價值和持續(xù)時間,你可以看看Gartner的預測。Gartner認為到2019年,虛擬個人助理“將會改變用戶和設備的交互方式,并被廣泛地接受,成為每天生活的一部分?!?/p>
不是所有的對話人工智能都被平等地創(chuàng)建,同時也不應該平等。對話人工智能的形式可以是一個虛擬的個人助理(比如Alexa、Siri、Cortana、Google Home等)或是專業(yè)助理(比如X.ai和Skipflag等)。它們可以是構建在一個規(guī)則引擎或是機器學習技術之上。它的用戶場景可以是短時間和具體的(像Taco Bell的TacoBot)到通用的和理論上無限長時的(比如Alexa、Siri、Cortana、Google Home等)。
一個企業(yè)或機構想實現(xiàn)對話型界面(不管是個人還是專業(yè)場景),一般會依賴于合作伙伴的技術能力,但是技術之外需要考慮的事情還有很多。盡管現(xiàn)在對于宣稱“最佳實踐”依然太早,但還是有一些企業(yè)或機構想去嘗試和實現(xiàn)對話人工智能的指導建議供大家參考。
- 從一個清晰專注的使用場景開始
Slack的開發(fā)人員關系主管Amir Shevat說:“一個產(chǎn)品或是品牌的專注點不應該被想成‘我在構建一個機器人’;它應該被想成‘我想交付的服務是什么?’”在此之后,Shevat以及其他人說,最好的開始是找到一個能由(非常多的)數(shù)據(jù)處理和解決的棘手的問題。這并不是意味著所有成功的機器人都只能做一件事情。但從一個相對小的、有明確答案的問題集開始是非常關鍵的,設計一個用戶通常不知道什么可以問什么不能問的體驗場景。
目標決定了交互的模式
一些對話場景讓它們能適合交談性的交互,比如在車里或是家里通過命令打開加熱器。其他場景里(比如查詢銀行余額)則可能要求有保密性和/或精確的文字輸入。其實還有其他機器人可以和人交互的方式。圖1展示了兩種成功的交互案例。

圖1 Susan Etlinger做的截屏
來自微軟的Chris Mullins說:“很多人對于機器人還是有一些誤解,以為機器人只能通過說話和打字來交互。”事實上,有很多不同的方法(或叫做形態(tài))可以被機器人用來交互并傳遞信息:
- 語音(如Alexa、Siri、Google Home)
- 打字(如消息應用里的機器人)
- 鍵盤支持,來提供縮小輸入選擇的線索
- 能可視化展示信息的卡片
Mullins說:“在大部分的成功場景里,我們看到的是組合的形態(tài)獲得成功。在正確的時間,語音輸入是完美的。但在另外一個時間,打字可能是最好的。有時你會希望有卡片和鍵盤支持。對話建模是一個明顯困難的問題。目前沒有人能完全解決它?!?/p>
多種上下文場景需要小心的計劃和清晰的選擇
如果一個客戶問售貨員一個問題,比如“離我近的店里,哪里可以找到機械鉆?”開發(fā)人員必須要考慮到這個問題里客戶所在的位置這一上下文。她人是在這個商店里嗎?還是她是打電話問的,或是在家里的電腦旁邊?開發(fā)人員必須要能針對不同的場景和體驗進行設計。
這一過程是非常有挑戰(zhàn)性的,因為這要求在設定范圍的過程時加入不同的交互模式。Mullins說:“和人的交互是非常復雜的,這種對話建模很困難。”為了能做到最好,項目團隊必須在項目的最開始就做出選擇。
可持續(xù)的交互需要有可持續(xù)的上下文理解
回應一個簡單的命令(比如“播放Beyonce的Lemonade”和“查看我的銀行賬戶余額”)和構建一個可持續(xù)的人和機器的交互是不同的。這就是為什么需要人機間的多次轉換(“回合”)的對話是很復雜和難以構建的。因為轉換需要能理解上下文的變化。
圖2里來自Kasisko的例子展示了一個很簡單的付款的交易中所包含的復雜性。

圖2 Susan Etlinger做的截屏
回合1:
- 用戶讓Kai(機器人)給Emily轉賬5美元。
- Kai在用戶的聯(lián)系人里找到了兩個叫Emily的人,并問用戶是哪個。
回合2:
- 用戶變換了話題,她想問她的支票賬戶里還有多少錢
- Kai回答了用戶的問題,并接著說“現(xiàn)在我們怎么辦?”來繼續(xù)最初的給Emily轉賬5美元的問題。
猛地一看,這像是一個非常簡單的交易過程。但是從工程化的角度來看,實現(xiàn)這一切需要非常多的語言和場景的理解:
- 首先,Kai必須能識別和跟蹤用戶的目標:她想給某人轉賬。
- 其次,Kai必須能識別出她想轉給誰,并發(fā)現(xiàn)用戶有兩個叫Emily的朋友,需要用戶澄清一下她究竟想轉給哪位。
- 第三,Kai必須能理解用戶輸入的單詞“Neubig”是前一個交互里所指的匯款人Emily Neubig。
- 第四,Kai必須能理解“我支票賬戶里還有多少錢”是一個和前面兩個交互無關(切換場景)的新問題。
- 最后,它必須要回答這個新問題,然后再回到最初的交互,實現(xiàn)最初的請求:給Emily轉5美元。
這個對話展示了為什么清楚的目地、一個相對窄的答案集和深度的專業(yè)知識在對話機器人開發(fā)里是非常重要的。因為理解用戶自然表述的企圖是非常復雜的,但這對交付一個有效的體驗是非常關鍵的。
- EQ和IQ一樣重要
智能和清晰意圖不是成功的機器人唯一的特性。能理解情感,用合適的詞匯和口吻來回應,這對于滿足用戶的對話體驗來說也是非常關鍵的?,F(xiàn)在很多的研究機構和創(chuàng)業(yè)公司正在構建能夠通過圖片、語言、文字或是視頻理解用戶情緒狀態(tài)的軟件。
SRI國際的語音技術和研究(STAR)實驗室已經(jīng)開發(fā)出了SenSay Analytics。這個平臺宣稱能從語音信號里感知出說話人的情緒。對于理解用戶是否沮喪并是否需要轉接到人類客服,或是在一種更愿意接受的氛圍下想了解其他類似的選擇,這都是非常關鍵的。
構建品牌的機會很小但是會很有效
構建品牌是一個機器人(和品牌)的成功非常關鍵的一個方面。表現(xiàn)很差的機器人會毀掉名聲,而成功的品牌呈現(xiàn)則能支持機器人的成功。Adobe的Lars Trieloff說:“我認為一個對話界面里構建品牌的機會是相對小的。因此要通過每日的交互來提升品牌。確保機器人能把一件事情做得非常好,而且是通過用戶喜歡的方式被喚醒?!?/p>
我們依然處于用一個有意義的方式來使用對話界面的最早期的階段,還有很長的路要走。如果你曾經(jīng)花時間重新訪問這些早期的網(wǎng)站,你就能知道我們現(xiàn)在處在什么位置。
但是,讓機器能用一種更加人性的方式和人類交互的對話人工智能已經(jīng)發(fā)展到了現(xiàn)在的階段。盡管現(xiàn)在它可能看著很原始,但數(shù)據(jù)科學、自然語言處理、機器學習和其他領域的進步最終可以創(chuàng)造出必要的條件,讓人機交互從基于形式的轉變到更加流暢的溝通。
對話交互最終會和人類有相同水平,甚至超越人類嗎?某些形式的對話將永遠不會容易地轉換為機器交互。但是對于某些應用場景,它們將會是可能的。我們已經(jīng)看到了很多的創(chuàng)新,而且現(xiàn)在我們僅僅只是觸及了問題的表面。不過有一件事情是很清楚的,就如未來學家和創(chuàng)新策略家Monika Bielskyte所預測的:“我們將會進入一個沒有屏幕的未來。在未來,世界就是我們的桌面?!?/p>
Susan Etlinger
Susan Etlinger是Altimeter(Prophet的一個分支)的一名行業(yè)分析師。她的研究專注于人工智能、數(shù)據(jù)、商業(yè)和文化里前沿技術的影響。她的研究被世界上不少大學的課程大綱里采用。Susan的TED演講《我們用所有這些大數(shù)據(jù)都做了什么?》已經(jīng)被翻譯成了25種語言,并被觀看了一百多萬次。她是一個廣受歡迎的主題演講者。她的觀點已經(jīng)被包括Wall Street Journal、BBC、New York Times在內(nèi)的許多媒體所引用。


更多人工智能內(nèi)容請關注2018年4月10-13日人工智能北京大會。