大主宰天蚕土豆小说,完美世界txt下载

強化學(xué)習(xí)

鄒偉, 康俊鵬, 王偉譯

出版時間：2023年02月

頁數(shù)：427

“強化學(xué)習(xí)出色地展示了它的技術(shù)背景、發(fā)展前景和未來機會，它將顯著的推進數(shù)據(jù)科學(xué)家在其業(yè)務(wù)上的工作方式?！?br /> ——David Aronchick
Kubeflow聯(lián)合創(chuàng)始人
“對于任何想要應(yīng)用強化學(xué)習(xí)技術(shù)來解決現(xiàn)實問題的人來說，這本書都是必讀的。它將以實踐中的案例和細致的解釋，帶領(lǐng)讀者漫游強化學(xué)習(xí)的第一個定理到頂會的前沿技術(shù)。”
——David Foster
應(yīng)用數(shù)據(jù)科學(xué)合伙人
“偉大著作！本書詳細解釋了被實踐驗證的那些強化學(xué)習(xí)方法，它們被封裝形成了軟件開發(fā)人員的標準庫?！?br /> ——Danny Lange
Unity人工智能高級副總裁

強化學(xué)習(xí)將是未來十年在人工智能領(lǐng)域的最大突破之一，強化學(xué)習(xí)算法能夠使得智能體在環(huán)境中學(xué)習(xí)任意目標。這一令人興奮的發(fā)展打破了傳統(tǒng)機器學(xué)習(xí)的算法約束。這本實用的書向數(shù)據(jù)科學(xué)和人工智能專業(yè)人員展示了如何通過強化的手段使機器能夠自己
學(xué)習(xí)。
本書作者創(chuàng)辦了自己名字命名的研究型公司，本書涵蓋了從基本的構(gòu)建模塊到最先進的實踐。通過本書，你將探索強化學(xué)習(xí)的當(dāng)前狀態(tài)、關(guān)注工業(yè)應(yīng)用、學(xué)習(xí)大量算法，本書還有專門章節(jié)介紹如何將強化學(xué)習(xí)的解決方案部署到生產(chǎn)環(huán)節(jié)。這并不是一本隨用隨翻的工具書，書中包含很多數(shù)學(xué)知識，并期望讀者是熟悉機器學(xué)習(xí)的。
● 學(xué)習(xí)強化學(xué)習(xí)是什么，以及算法如何解決具體問題。
● 掌握強化學(xué)習(xí)的基礎(chǔ)知識，包括馬爾可夫決策過程、動態(tài)規(guī)劃和時間差分算法。
● 深入研究一系列基于值函數(shù)和政策梯度的算法。
● 應(yīng)用先進的強化學(xué)習(xí)解決方案，如元學(xué)習(xí)、分層學(xué)習(xí)、多智能體、模仿學(xué)習(xí)等。
● 了解最前沿的深度強化學(xué)習(xí)算法，包括Rainbow、PPO、TD3、SAC等。
● 通過本書專門的配套網(wǎng)站獲得實踐代碼和案例。

目錄
產(chǎn)品信息
關(guān)于作者
封面介紹

前言
第1章強化學(xué)習(xí)概述
1.1 為什么現(xiàn)在就需要強化學(xué)習(xí)？
1.2 機器學(xué)習(xí)
1.3 強化學(xué)習(xí)
1.3.1 什么時候使用強化學(xué)習(xí)
1.3.2 強化學(xué)習(xí)的應(yīng)用場景
1.4 強化學(xué)習(xí)的種類
1.4.1 免模型學(xué)習(xí)或有模型學(xué)習(xí)
1.4.2 智能體如何使用并更新它們的策略
1.4.3 離散或連續(xù)的行為
1.4.4 優(yōu)化方法
1.4.5 策略評估和改進
1.5 強化學(xué)習(xí)的基本概念
1.5.1 歷史上第一個強化學(xué)習(xí)算法
1.5.2 強化學(xué)習(xí)和機器學(xué)習(xí)是一種東西嗎？
1.5.3 獎勵和反饋
1.6 強化學(xué)習(xí)的發(fā)展簡史
1.7 本章總結(jié)
1.8 擴展閱讀
1.9 參考文獻
第2章馬爾可夫決策過程，動態(tài)規(guī)劃，蒙特卡洛方法
2.1 多臂老虎機測試
2.1.1 獎勵工程
2.1.2 策略評估：價值函數(shù)
2.1.3 策略改進：選擇最佳動作
2.1.4 模擬環(huán)境
2.1.5 運行實驗
2.1.6 E-貪婪算法的改進
2.2 馬爾可夫決策過程
2.2.1 庫存控制
2.2.2 庫存控制仿真
2.3 策略與價值函數(shù)
2.3.1 打折的獎勵
2.3.2 用狀態(tài)–價值函數(shù)預(yù)測獎勵
2.3.3 用動作值函數(shù)預(yù)測獎勵
2.3.4 最優(yōu)策略
2.4 蒙特卡洛策略生成
2.5 動態(tài)規(guī)劃的值迭代
2.5.1 值迭代的過程
2.5.2 數(shù)值迭代結(jié)果
2.6 總結(jié)
2.7 擴展閱讀
2.8 參考文獻
第3章時序差分學(xué)習(xí)，Q學(xué)習(xí)和n步算法
3.1 時序差分學(xué)習(xí)的相關(guān)公式
3.1.1 Q學(xué)習(xí)
3.1.2 SARSA
3.1.3 Q學(xué)習(xí)與SARSA方法的對比
3.1.4 案例解析：自動擴展應(yīng)用程序容器以降低成本
3.2 行業(yè)實例：廣告中的實時競價
3.2.1 MDP的定義
3.2.2 實時競價案例的環(huán)境
3.2.3 進一步改進
3.3 Q學(xué)習(xí)的相關(guān)擴展
3.3.1 雙重Q學(xué)習(xí)
3.3.2 延遲Q學(xué)習(xí)
3.3.3 各類版本的Q學(xué)習(xí)之間的對比
3.3.4 對抗學(xué)習(xí)
3.4 n步算法
3.5 有效跟蹤
3.6 有效跟蹤算法的擴展
3.6.1 沃特金斯的Q(λ)
3.6.2 沃特金斯Q(λ)的模糊擦除
3.6.3 快速Q(mào)學(xué)習(xí)
3.6.4 積累式有效跟蹤與取代式有效跟蹤
3.7 總結(jié)
3.8 擴展閱讀
3.9 參考文獻
第4章深度Q網(wǎng)絡(luò)
4.1 深度學(xué)習(xí)的體系結(jié)構(gòu)
4.1.1 基礎(chǔ)知識
4.1.2 深度學(xué)習(xí)架構(gòu)
4.1.3 深度學(xué)習(xí)庫
4.1.4 深度強化學(xué)習(xí)
4.2 深度Q學(xué)習(xí)
4.2.1 經(jīng)驗重放
4.2.2 克隆Q網(wǎng)絡(luò)
4.2.3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
4.2.4 DQN的實現(xiàn)
4.2.5 實際案例：倒立擺環(huán)境中的DQN
4.2.6 案例研究：減少建筑物的能源使用
4.3 彩虹DQN
4.3.1 分配強化學(xué)習(xí)
4.3.2 優(yōu)先經(jīng)驗重放
4.3.3 噪聲網(wǎng)絡(luò)
4.3.4 決斗網(wǎng)絡(luò)
4.4 實際案例：雅達利的彩虹DQN
4.4.1 結(jié)果
4.4.2 討論
4.5 其他DQN改進
4.5.1 改進探索過程
4.5.2 改進獎勵過程
4.5.3 從離線數(shù)據(jù)中進行學(xué)習(xí)
4.6 總結(jié)
4.7 擴展閱讀
4.8 參考文獻
第5章梯度策略
5.1 直接學(xué)習(xí)策略的優(yōu)勢
5.2 如何計算策略的梯度
5.3 策略梯度理論
5.4 策略函數(shù)
5.4 1 線性策略
5.4.2 其他策略
5.5 基本實現(xiàn)
5.5.1 蒙特卡洛算法（強化算法）
5.5.2帶基線的強化算法
5.5.3 梯度方差的減小
5.5.4 n步演員評論家和優(yōu)勢演員評論家（A2C）
5.5.5 基于資格跡的演員評論家算法
5.5.6 基本策略梯度算法的比較
5.6 行業(yè)研究：為客戶自動提供產(chǎn)品
5.6.1 行業(yè)實例：Gym環(huán)境中的購物車實驗
5.6.2 預(yù)設(shè)期望
5.6.3 購物車實驗環(huán)境的結(jié)果展示
5.7 總結(jié)
5.8 擴展閱讀
5.9 參考文獻
第6章超越策略梯度
6.1 離線算法
6.1.1 重要性抽樣
6.1.2 行為和目標策略
6.1.3 離線Q學(xué)習(xí)
6.1.4 梯度時差學(xué)習(xí)
6.1.5 Greedy-GQ算法
6.1.6 離線演員評論家算法
6.2 決定性策略梯度
6.2.1 決定性策略梯度
6.2.2 深度確定性策略梯度
6.2.3 雙延遲DDPG
6.2.4 案例研究：利用到用戶評論的推薦算法
6.2.5 改進DPG
6.3 信賴域方法
6.3.1 Kullback-Leibler散度
6.3.2 自然策略梯度與信任區(qū)域策略優(yōu)化
6.3.3 近端策略優(yōu)化
6.4 實際案例：在現(xiàn)實生活中使用伺服器
6.4.1 實驗設(shè)置
6.4.2 強化學(xué)習(xí)算法實現(xiàn)
6.4.3 增加算法的復(fù)雜度
6.4.4 模擬中的超參數(shù)調(diào)優(yōu)
6.4.5 產(chǎn)生的策略
6.5 其他策略梯度算法
6.5.1 回溯（λ）
6.5.2 有經(jīng)驗重放的演員評論家（ACER）
6.5.3 使用Kronecker因子信任區(qū)域的演員評論家算法（ACKTR）
6.5.4 更多相關(guān)方法
6.6 策略梯度算法的擴展
6.7 總結(jié)
6.7.1 應(yīng)該使用哪種算法？
6.7.2 關(guān)于異步方法的注意事項
6.8 擴展閱讀
6.9 參考文獻
第7章用熵方法學(xué)習(xí)所有可能的策略
7.1 什么是熵？
7.2 最大熵強化學(xué)習(xí)
7.3 弱演員評論家算法
7.3.1 SAC的實現(xiàn)細節(jié)與離散動作空間
7.3.2 自動調(diào)整溫度
7.3.3 案例研究：有助于減少交通擁堵的自動化交通管理系統(tǒng)
7.4 最大熵方法的推廣
7.4.1 熵的其他度量（以及策略集）
7.4.2 基于雙重Q學(xué)習(xí)上限的優(yōu)化探索
7.4.3 通過歷史經(jīng)驗重放改進結(jié)果
7.4.4 軟策略梯度
7.4.5 軟Q學(xué)習(xí)（及其擴展）
7.4.6 路徑一致性學(xué)習(xí)
7.5 性能比較：SAC與PPO
7.6 熵是如何激勵智能體進行探索的？
7.7 行業(yè)實例：通過遙控車學(xué)習(xí)自動駕駛
7.7.1 問題描述
7.7.2 減少訓(xùn)練時間
7.7.3 夸張的動作
7.7.4 超參數(shù)探索
7.7.5 最終策略
7.7.6 進一步改進
7.8 本章總結(jié)
7.8.1 策略梯度與軟Q學(xué)習(xí)的等價性
7.8.2 這對今后的發(fā)展意味著什么？
7.8.3 這對目前來說意味著什么？
7.9 參考文獻
第8章改進智能體的學(xué)習(xí)方式
8.1 關(guān)于MDP的思考
8.1.1 部分可觀察馬爾可夫決策過程
8.1.2 案例研究：POMDP在自動駕駛汽車中的應(yīng)用
8.1.3 上下文馬爾可夫決策過程
8.1.4 動作不斷變化的MDPs
8.1.5 正則化MDP
8.2 層次強化學(xué)習(xí)
8.2.1 初級層次強化學(xué)習(xí)
8.2.2 具有內(nèi)在獎勵的層次強化學(xué)習(xí)（HIRO）
8.2.3 學(xué)習(xí)技巧和無監(jiān)督學(xué)習(xí)
8.2.4 在HRL中使用技能
8.2.5 HRL研究結(jié)論
8.3 多智能體強化學(xué)習(xí)
8.3.1 MARL的框架
8.3.2 集中式或分布式
8.3.3 單智能體算法
8.3.4 案例研究：單智能體分散學(xué)習(xí)在無人機中的應(yīng)用
8.3.5 集中學(xué)習(xí)，分散執(zhí)行
8.3.6 分散的學(xué)習(xí)
8.3.7 其他的組合
8.3.8 MARL的挑戰(zhàn)
8.3.9 MARL的結(jié)論
8.4 專家的指導(dǎo)
8.4.1 克隆行為
8.4.2 模擬強化學(xué)習(xí)
8.4.3 反向強化學(xué)習(xí)
8.4.4 課程學(xué)習(xí)
8.5 其他案例
8.5.1 元學(xué)習(xí)
8.5.2 遷移學(xué)習(xí)
8.6 總結(jié)
8.7 擴展閱讀
8.8 參考文獻
第9章強化學(xué)習(xí)實踐
9.1 強化學(xué)習(xí)的生命周期
9.2 問題定義：一個真正的強化學(xué)習(xí)項目到底包括什么？
9.2.1 強化學(xué)習(xí)問題是連續(xù)性問題
9.2.2 強化學(xué)習(xí)問題是戰(zhàn)略性問題
9.2.3 強化學(xué)習(xí)中的基礎(chǔ)指標
9.2.4 學(xué)習(xí)類型
9.3 強化學(xué)習(xí)工程和改進
9.3.1 項目過程
9.3.2 環(huán)境工程
9.3.3 狀態(tài)工程或狀態(tài)表示學(xué)習(xí)
9.3.4 策略工程
9.3.5 將策略映射到操作空間
9.3.6 探索
9.3.7 獎勵工程
9.4 總結(jié)
9.5 擴展閱讀
9.6 參考文獻
第10章強化學(xué)習(xí)的生產(chǎn)部署
10.1 實現(xiàn)階段
10.1.1框架
10.1.2 大規(guī)模強化學(xué)習(xí)
10.1.3 評價
10.2 部署
10.2.1 目標
10.2.2 體系架構(gòu)
10.2.3 輔助工具
10.2.4 安全、保障和道德
10.3 總結(jié)
10.4 擴展閱讀
10.5 參考文獻
第11章結(jié)論與展望
11.1 提示和技巧
11.1.1 框架問題
11.1.2 你的數(shù)據(jù)
11.1.3 訓(xùn)練
11.1.4 評價
11.1.5部署
11.2 調(diào)試
11.2.1 ${ALGORITHM_NAME}不能解決${ENVIRONMENT}!
11.2.2 監(jiān)測調(diào)試
11.3 強化學(xué)習(xí)的未來
11.3.1 強化學(xué)習(xí)市場機會
11.3.2 強化學(xué)習(xí)的研究方向
11.4 結(jié)束語
11.4.1 未來下一步
11.4.2 現(xiàn)在輪到你了！
11.5 擴展閱讀
11.6 參考文獻
附錄A 兩種動作的Logistic策略梯度
附錄B Softmax的策略梯度

書名：強化學(xué)習(xí)

作者：Phil Winder 著

譯者：鄒偉, 康俊鵬, 王偉譯

國內(nèi)出版社：中國電力出版社

出版時間：2023年02月

頁數(shù)：427

書號：978-7-5198-6961-8

原版書書名：Reinforcement Learning

原版書出版商：O'Reilly Media

Phil Winder

Phil Winder博士是一名多學(xué)科交叉的軟件工程師、數(shù)據(jù)科學(xué)家，以及溫德研究所（https://WinderResearch.com/?utm_source=oreilly&utm_medium=book&utm_campaign=rl）的CEO。該研究所主要提供云計算科學(xué)咨詢，主營業(yè)務(wù)是幫助初創(chuàng)企業(yè)和其他企業(yè)基于數(shù)據(jù)改進流程、平臺和產(chǎn)品。他專門從事生產(chǎn)級云端機器學(xué)習(xí)的本地實現(xiàn)，也是機器學(xué)習(xí)運維的早期支持者。
他在各類公開論壇、個體網(wǎng)站以及O’Reilly在線學(xué)習(xí)平臺上開設(shè)的數(shù)據(jù)科學(xué)課程，已經(jīng)讓數(shù)千名工程師受益。他的課程專注于工業(yè)級的數(shù)據(jù)科學(xué)應(yīng)用，涵蓋了從數(shù)據(jù)清理到深度強化學(xué)習(xí)等各類熱門但實用的主題，經(jīng)?；钴S在數(shù)據(jù)科學(xué)領(lǐng)域并發(fā)表相關(guān)演講。
Phil畢業(yè)于英國赫爾大學(xué)，獲取了電子工程專業(yè)的碩士和博士學(xué)位，現(xiàn)居英國約克郡，家里有他喜愛的一整套釀酒設(shè)備和他的家人。
如需任何支持或建議，請通過以下方式與作者聯(lián)系：
網(wǎng)站：https://WinderResearch.com。
電子郵件：[email protected]。
LinkedIn：DrPhilWinder （https://www.linkedin.com/in/DrPhilWinder/）。
Twitter：@DrPhilWinder （https://twitter.com/DrPhilWinder）。

查看Phil Winder更多信息

本書封面上的動物是一只非洲黑腳企鵝（學(xué)名：Spheniscus demersus）。該企鵝屬下的四個物種被統(tǒng)稱稱為帶狀企鵝，因為它們的身體周圍有黑色帶。這些企鵝的背部也是黑色，其黑色的喙上有一條白色的細長垂直帶，腹部有斑點，眼睛周圍有一塊區(qū)域沒有羽毛的裸露皮膚。
這些企鵝生活在非洲西南海岸，分布在24個島嶼上，只有少數(shù)生活在非洲大陸上。
19世紀初，它們非洲大約有400萬只。如今，其種群數(shù)量已經(jīng)下降了95%。據(jù)估計，非洲黑腳企鵝將在未來10年內(nèi)滅絕。它們當(dāng)前面臨著許多威脅，包括急劇減少的食物來源等。因為它們主要食物來源是一些當(dāng)?shù)氐暮Ｑ篝~類，而這些魚類對水溫上升很敏感。
非洲黑腳企鵝的種群存續(xù)岌岌可危。O’Reilly的書籍封面上的許多動物都瀕臨滅絕，對于我們這個世界來說，它們中的每一個都很重要。
封面插圖由Karen Montgomery根據(jù)Lydekker’s Royal Natural History中的一幅黑白版畫繪制。

購買選項

定價：128.00元

書號：978-7-5198-6961-8

出版社：中國電力出版社

聯(lián)系出版社郵購

91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片