91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

強(qiáng)化學(xué)習(xí)在業(yè)界的實(shí)際應(yīng)用
強(qiáng)化學(xué)習(xí)在商業(yè)和工業(yè)界的應(yīng)用概述
編者注:請關(guān)注將會在2018年4月10-13日舉辦的人工智能北京大會上的議題“Get your hard hat: Intelligent industrial systems with deep reinforcement learning”。

大量關(guān)于AlphaGo Zero(DeepMind最新版的圍棋人工智能系統(tǒng))新聞頭條的出現(xiàn)意味著對于強(qiáng)化學(xué)習(xí)(RL)的興趣必定會增加。強(qiáng)化學(xué)習(xí)是人工智能中僅次于深度學(xué)習(xí)的最受關(guān)注的主題之一。對于大多數(shù)公司來說,強(qiáng)化學(xué)習(xí)是需要調(diào)查和評估的技術(shù),但只有很少企業(yè)已經(jīng)找到強(qiáng)化學(xué)習(xí)可能發(fā)揮作用的應(yīng)用場景。在進(jìn)入2018年之際,我想簡要介紹一下已經(jīng)采用強(qiáng)化學(xué)習(xí)的一些領(lǐng)域。

目前,強(qiáng)化學(xué)習(xí)經(jīng)常被混淆地用來指代一系列問題和技術(shù),所以讓我們先來看看這篇文章里所說的強(qiáng)化學(xué)習(xí)是什么。一般來說,強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)如何將觀測和測量映射到一組行為。而這些行為會試圖去最大化一些長期的獎勵。這個(gè)目標(biāo)通常會涉及到智能體與環(huán)境進(jìn)行交互,并學(xué)習(xí)最佳序貫決策。在事實(shí)上,強(qiáng)化學(xué)習(xí)的許多最初的應(yīng)用都是出現(xiàn)在長期尋求自動化貫序決策的領(lǐng)域。和傳統(tǒng)的在線學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)帶來了一系列獨(dú)特的挑戰(zhàn),因?yàn)樗?jīng)常會碰到延遲反饋、稀疏獎勵等問題。同時(shí)(最重要的是)智能體會給它所互動的環(huán)境造成影響。

作為一種機(jī)器學(xué)習(xí)技術(shù),深度學(xué)習(xí)已經(jīng)開始被很多公司在機(jī)器學(xué)習(xí)應(yīng)用中所使用,但強(qiáng)化學(xué)習(xí)還沒有能進(jìn)入許多企業(yè)。我寫這篇文章的目標(biāo)就是勾勒出強(qiáng)化學(xué)習(xí)的應(yīng)用會出現(xiàn)的一些領(lǐng)域。

image1_v2-f4e6890059f34c12e1222fbed69c8595

圖1 PPT由Ben Lorica友情提供

讓我首先列舉強(qiáng)化學(xué)習(xí)在企業(yè)中面臨的一些挑戰(zhàn)。正如Andrew Ng(吳恩達(dá))在舊金山人工智能大會上的主題演講中指出的那樣,強(qiáng)化學(xué)習(xí)需要大量的數(shù)據(jù),因此它經(jīng)常與有模擬數(shù)據(jù)的領(lǐng)域(游戲、機(jī)器人等)相關(guān)聯(lián)。把研究論文的結(jié)果應(yīng)用到實(shí)際應(yīng)用中并不容易。即使對于強(qiáng)化學(xué)習(xí)研究人員來說,復(fù)制別人的研究結(jié)果也是一個(gè)挑戰(zhàn),更不用說常規(guī)的數(shù)據(jù)科學(xué)家了(可參見最近的這篇文章OpenAI的博客)。隨著機(jī)器學(xué)習(xí)被部署在企業(yè)的關(guān)鍵任務(wù)場景里,可重現(xiàn)性和估計(jì)錯誤的能力正變得至關(guān)重要。所以至少是現(xiàn)在,強(qiáng)化學(xué)習(xí)可能并不適用于需要持續(xù)進(jìn)行控制的關(guān)鍵任務(wù)的應(yīng)用。

盡管如此,依賴于強(qiáng)化學(xué)習(xí)的應(yīng)用和產(chǎn)品已經(jīng)出現(xiàn)。有不少定義明確的涉及個(gè)性化或自動化的任務(wù),它們可以從強(qiáng)化學(xué)習(xí)能幫助實(shí)現(xiàn)自動化的序貫決策中受益(或者,強(qiáng)化學(xué)習(xí)至少可以幫助增強(qiáng)人類專家)。對企業(yè)而言,關(guān)鍵是從簡單的適合強(qiáng)化學(xué)習(xí)場景的應(yīng)用案例開始,而不是從過于復(fù)雜的“需要AI”的問題開始。為了使事情更加具體,讓我重點(diǎn)列出一些強(qiáng)化學(xué)習(xí)開始出現(xiàn)的關(guān)鍵應(yīng)用領(lǐng)域。

機(jī)器人和工業(yè)自動化

強(qiáng)化學(xué)習(xí)在高維控制問題(諸如機(jī)器人等)中的應(yīng)用已經(jīng)是學(xué)術(shù)界工業(yè)界共同的研究課題。同時(shí)初創(chuàng)公司也開始使用強(qiáng)化學(xué)習(xí)來打造機(jī)器人產(chǎn)品。

工業(yè)自動化是另一個(gè)有前景的領(lǐng)域。DeepMind的強(qiáng)化學(xué)習(xí)技術(shù)幫助Google顯著降低了其數(shù)據(jù)中心的能耗(HVAC)。初創(chuàng)公司已經(jīng)注意到自動化解決方案有一個(gè)很大的市場。其中之一就是Bonsai,它們正在開發(fā)工具來幫助企業(yè)將強(qiáng)化學(xué)習(xí)和其他技術(shù)用于工業(yè)應(yīng)用。一個(gè)常見的例子是使用人工智能來調(diào)優(yōu)機(jī)器和設(shè)備,而目前這些工作需要專家級的操作人員才能完成。

image2-646dd57cfdd862da8bb3a948439f9bc0

圖2 膠片由Mark Hammond提供,并授權(quán)使用

如果考慮的是工業(yè)系統(tǒng),Bonsai最近給出了下列可能需要考慮使用強(qiáng)化學(xué)習(xí)的標(biāo)準(zhǔn)

  • 你正在使用模擬器,因?yàn)橄到y(tǒng)或過程對于通過試錯來訓(xùn)練機(jī)器來說太復(fù)雜(或者物理上過于危險(xiǎn));
  • 你正在處理大狀態(tài)空間;
  • 你正尋求通過優(yōu)化運(yùn)營效率和提供決策支持來增強(qiáng)人類分析師和領(lǐng)域?qū)<业哪芰Α?/li>

數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)庫已經(jīng)變得很更容易使用了,但是選擇合適的模型或模型架構(gòu)對于數(shù)據(jù)科學(xué)家來說仍然是一個(gè)挑戰(zhàn)。隨著深度學(xué)習(xí)成為數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師使用的技術(shù)之一,那些可以幫助人們識別和調(diào)優(yōu)神經(jīng)網(wǎng)絡(luò)架構(gòu)的工具成為了活躍的研究領(lǐng)域。多個(gè)研究小組已經(jīng)提出使用強(qiáng)化學(xué)習(xí)來使神經(jīng)網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)更容易(例如,MIT的MetaQNNNet2Net操作)。Google的AutoML可以使用強(qiáng)化學(xué)習(xí)為計(jì)算機(jī)視覺和語言建模生成最前沿的機(jī)器生成的神經(jīng)網(wǎng)絡(luò)架構(gòu)。

除了可以簡化創(chuàng)建機(jī)器學(xué)習(xí)模型的工具之外,還有一些人認(rèn)為強(qiáng)化學(xué)習(xí)可以幫助軟件工程師編寫計(jì)算機(jī)程序。

教育和培訓(xùn)

在線平臺已經(jīng)開始嘗試使用機(jī)器學(xué)習(xí)來創(chuàng)建個(gè)性化的體驗(yàn)。一些研究人員正在研究在教學(xué)系統(tǒng)和個(gè)性化學(xué)習(xí)中使用強(qiáng)化學(xué)習(xí)和其他機(jī)器學(xué)習(xí)方法。采用強(qiáng)化學(xué)習(xí)可以為輔導(dǎo)系統(tǒng)提供適應(yīng)學(xué)生個(gè)人特定需求的定制化的指導(dǎo)和素材。一些研究人員正在為未來的輔導(dǎo)系統(tǒng)開發(fā)強(qiáng)化學(xué)習(xí)算法和統(tǒng)計(jì)的方法。這些方法需要的數(shù)據(jù)比較少。

保健和醫(yī)學(xué)

強(qiáng)化學(xué)習(xí)的智能體和環(huán)境進(jìn)行交互并基于所采取的行動接收反饋的場景和醫(yī)學(xué)里學(xué)習(xí)治療策略有相似之處。事實(shí)上,強(qiáng)化學(xué)習(xí)在醫(yī)療保健中的很多應(yīng)用都和找到最佳的治療策略有關(guān)。最近一些論文引用了強(qiáng)化學(xué)習(xí)在醫(yī)療設(shè)備藥物劑量兩階段臨床試驗(yàn)中的應(yīng)用。

文字,語音和對話系統(tǒng)

企業(yè)收集了大量的文本,因此可以幫助“解鎖”這些非結(jié)構(gòu)化文本的好工具將贏得用戶。2017年早些時(shí)候,SalesForce的人工智能研究人員使用深度強(qiáng)化學(xué)習(xí)來進(jìn)行摘要性文本總結(jié)(一種從原始文本文檔中“摘要出”內(nèi)容總結(jié)的自動化技術(shù))。這可能是基于強(qiáng)化學(xué)習(xí)的工具能贏得用戶的一個(gè)新領(lǐng)域,因?yàn)樵S多企業(yè)都需要更好的文本挖掘解決方案。

強(qiáng)化學(xué)習(xí)也被用來讓對話系統(tǒng)(即聊天機(jī)器人)通過和用戶的交互來學(xué)習(xí),從而能幫助它們隨著時(shí)間的推移逐步改進(jìn)(現(xiàn)在的許多企業(yè)的聊天機(jī)器人是依賴于決策樹的)。這是一個(gè)科研和風(fēng)險(xiǎn)投資都很活躍的領(lǐng)域:參見語義機(jī)器VocalIQ(最近被Apple收購)。

傳媒和廣告

微軟最近的一篇論文里介紹了一個(gè)名為Decision Service(決策服務(wù))的內(nèi)部系統(tǒng),這個(gè)系統(tǒng)已經(jīng)在Azure上開放論文里描述了決策服務(wù)在內(nèi)容推薦和廣告中的應(yīng)用。決策服務(wù)更通用的目標(biāo)是針對模型失效的機(jī)器學(xué)習(xí)產(chǎn)品,包括“循環(huán)反饋和偏置、分布式數(shù)據(jù)收集,環(huán)境變化和未能監(jiān)控和調(diào)試的模型“。

強(qiáng)化學(xué)習(xí)的其他應(yīng)用包括優(yōu)化跨渠道營銷實(shí)時(shí)投標(biāo)在線廣告系統(tǒng)。

金融

作為對沖基金的一個(gè)帶隊(duì)數(shù)據(jù)分析師,我開始了自己的職業(yè)生涯。所以我并不感到驚訝的是很少有金融公司愿意公開講話??傮w而言,我接觸過一些正在評估深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的數(shù)據(jù)分析師和交易員,但除了小規(guī)模試驗(yàn)外他們還沒有找到足夠的場景來使用這些工具。盡管在一些研究論文描述了這些技術(shù)在金融領(lǐng)域的潛在應(yīng)用,但很少有企業(yè)宣稱它們在生產(chǎn)系統(tǒng)軟件里已經(jīng)采用了。

不過一個(gè)例外是JP摩根用于交易執(zhí)行的系統(tǒng)。《金融時(shí)報(bào)》的一篇文章介紹了這個(gè)基于強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)優(yōu)化交易執(zhí)行的系統(tǒng)。該系統(tǒng)(被稱為“LOXM”)正被用來以最快的速度和最好的價(jià)格執(zhí)行交易。

與任何新科技一樣,運(yùn)用強(qiáng)化學(xué)習(xí)的關(guān)鍵在于了解其優(yōu)缺點(diǎn),然后找到簡單的應(yīng)用場景來嘗試。我們應(yīng)該抵制AI的炒作。相反,我們應(yīng)該地把強(qiáng)化學(xué)習(xí)看成是有用的機(jī)器學(xué)習(xí)技術(shù)的一種,即便它是一種最適合于特定類別的問題的技術(shù)。 我們剛剛開始在企業(yè)應(yīng)用中看到強(qiáng)化學(xué)習(xí)的身影。伴隨著對算法的不斷研究,許多軟件工具(庫、模擬器、分布式計(jì)算框架,如Ray、SaaS)開始出現(xiàn)。 不過可以肯定的是,這些工具很少是針對行業(yè)應(yīng)用所感興趣的用戶的。但是,已經(jīng)有幾家初創(chuàng)公司將強(qiáng)化學(xué)習(xí)納入其產(chǎn)品。所以,在你知道之它們的存在之前,你可能很快就會從強(qiáng)化學(xué)習(xí)和相關(guān)技術(shù)的發(fā)展中受益。

相關(guān)資源:

Ben Lorica

本·羅瑞卡是O'Reilly的首席數(shù)據(jù)科學(xué)家和關(guān)于數(shù)據(jù)方面的內(nèi)容策略主管。在多個(gè)領(lǐng)域里(包括直銷市場、消費(fèi)者和市場研究、精準(zhǔn)廣告、文本挖掘和金融工程),他曾經(jīng)進(jìn)行了商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析的工作。他曾效力于投資管理公司、互聯(lián)網(wǎng)創(chuàng)業(yè)企業(yè)和金融服務(wù)公司。

Postal clerks processing mail (source: Smithsonian Institution on Flickr)