完美世界小说txt下载,小说阅读网免费小说,最好看的小说排行

釋放強化學(xué)習(xí)的潛能

O’Reilly數(shù)據(jù)秀播客：聽Danny Lange講述強化學(xué)習(xí)是如何加速軟件開發(fā)以及如何讓這一技術(shù)為更多人使用

Ben Lorica, 2018年3月1日

編者注：Danny Lange在2018年4月10-13日舉辦的人工智能北京大會上做了題為《民主化深度強化學(xué)習(xí)》的主題演講，并做了題為《在定制化的3D游戲環(huán)境里進行機器學(xué)習(xí)的研究》的報告。

訂閱O’Reilly數(shù)據(jù)播客秀可以更好地探索驅(qū)動大數(shù)據(jù)、數(shù)據(jù)科學(xué)和人工智能的機遇與技術(shù)?？梢栽?a >Stitcher、?TuneIn、?iTunes、?SoundCloud、RSS找到我們。

在本期數(shù)據(jù)播客秀里我采訪了Unity Technologies公司的人工智能和機器學(xué)習(xí)副總裁Danny Lange。Lange曾經(jīng)在微軟、亞馬遜和Uber公司任職，并領(lǐng)導(dǎo)著數(shù)據(jù)和機器學(xué)習(xí)團隊，致力于構(gòu)建公司內(nèi)部開發(fā)和分析人員使用的數(shù)據(jù)科學(xué)工具。當(dāng)我聽說他加入了Unity的時候，我就很好奇地想知道他為什么決定加入一個主要面向游戲開發(fā)者的公司。

就如你從我們的對話里能了解到的，Unity正處于一些最令人激動的、實用的深度學(xué)習(xí)和強化學(xué)習(xí)的應(yīng)用領(lǐng)域的最前沿。具有現(xiàn)實感的景色和畫面對于現(xiàn)在的游戲而言是至關(guān)重要的。通過讓藝術(shù)家更加快速地制作逼真的圖像，GAN和相關(guān)的準監(jiān)督學(xué)習(xí)技術(shù)可以讓內(nèi)容的創(chuàng)建更加容易。在之前的一篇博客里，Lange講述了在游戲開發(fā)里強化學(xué)習(xí)是如何開啟了訓(xùn)練/學(xué)習(xí)的可能性，而不再是像通常那樣的硬編碼。

Lange解釋了為什么對人工智能開發(fā)者而言模擬環(huán)境將會成為重要的工具。我們依然處于機器智能的早期，我期待著出現(xiàn)更多的能民主化人工智能研究的工具（包括有Lange和他在Unity的團隊未來會發(fā)布的）。

下面是本次采訪的一些重點內(nèi)容。

為什么強化學(xué)習(xí)是如此令人激動

我是強化學(xué)習(xí)的超級粉絲。我認為不僅僅是對于游戲開發(fā)，強化學(xué)習(xí)在很多領(lǐng)域都有極大的潛力。我們在Unity所做基本上是讓強化學(xué)習(xí)能為大眾所用。我們在GitHub上發(fā)布了Unity ML Agents的開源軟件，其中包括了可讓大家進行強化學(xué)習(xí)試驗的基本框架。強化學(xué)習(xí)真正地構(gòu)建了機器學(xué)習(xí)驅(qū)動的反饋回路。想想我在之前寫的文章里所說的小雞穿馬路的例子。小雞被路上的車撞了幾百萬次。但每被撞一次，小雞就學(xué)到了這太糟了；每次拿到一個禮物，小雞就學(xué)到了這是很好。

漸漸地，小雞就獲得了超越人類玩家的過馬路的能力。這太神奇了！因為沒有寫任何一行代碼來讓小雞完成這一切。所有都是通過強化學(xué)習(xí)的方法來模擬出來的：小雞學(xué)到了穿越馬路的方法。這可以被應(yīng)用于非常多不同的游戲場景里。同樣也有非常多的不同的訓(xùn)練方式。你可以放進去兩只小雞，它們能相互合作來共同完成一些事情嗎？我們正在研究一種叫做多代理的環(huán)境——其中，兩個或更多個通過強化學(xué)習(xí)訓(xùn)練的代理一起動作來完成一個目標(biāo)。

…我希望能有上百萬的開發(fā)人員開始致力于此。我想看到更多的創(chuàng)新，更多特立獨行的想法出現(xiàn)。這就是我們把強化學(xué)習(xí)工具和平臺開放給Unity社區(qū)想獲得的東西。這里就講一件事。很多人認為在游戲世界或是類似游戲的場景里的強化學(xué)習(xí)就是所謂的“路徑尋找”。“路徑尋找”的意思是游戲里的一個人物穿過一些場景，這很容易被理解。有很多不錯的算法可以解決這個問題。不過向前看，我一直在思考一些不一樣的決策。例如，一個人物應(yīng)該把什么樣的武器或是工具帶入游戲？這是一個非常非常難的決策，它是一個更高層面的策略問題。

Unity的機器學(xué)習(xí)和人工智能的情況

如果思考一下我們的智能是從哪里來的，你就會發(fā)現(xiàn)智能是起源于動物和人類為了在現(xiàn)實世界里生存和繁衍。我們?yōu)榱艘妫鸵獙ふ沂澄?，就要躲避敵人，就會跌倒，因為重力在我們的世界里扮演著非常重要的角色。按這個邏輯去看Unity的游戲引擎，你就會發(fā)現(xiàn)它創(chuàng)建了一個按照物理定律規(guī)范的虛擬的三維環(huán)境。因此其中就會有重力、慣性、摩擦力。也就是說你基本上得到了一個三維的世界。

Unity為探索機器學(xué)習(xí)提供了一個夢幻般的實驗室，因此也提供了人工智能在這個虛擬世界中的基本元素。不再只是使用機器學(xué)習(xí)于報表，或是用來在亞馬遜上賣更多的商品，或是讓你叫的Uber出租車來的更快，現(xiàn)在你可以開始運行有關(guān)現(xiàn)實世界多個方面的模擬，并且可以探索諸如視覺、觸覺、路徑尋找等內(nèi)容。

Ben Lorica

本· 羅瑞卡是O'Reilly的首席數(shù)據(jù)科學(xué)家和關(guān)于數(shù)據(jù)方面的內(nèi)容策略主管。在多個領(lǐng)域里（包括直銷市場、消費者和市場研究、精準廣告、文本挖掘和金融工程），他曾經(jīng)進行了商業(yè)智能、數(shù)據(jù)挖掘、機器學(xué)習(xí)和統(tǒng)計分析的工作。他曾效力于投資管理公司、互聯(lián)網(wǎng)創(chuàng)業(yè)企業(yè)和金融服務(wù)公司。