91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

 
深度學習入門4:強化學習
深度學習入門4:強化學習
齋藤康毅
鄭明智 譯
出版時間:2024年08月
頁數(shù):313
沿襲“魚書”系列風格,提供實際代碼,邊實踐邊學習,無須依賴外
部庫,從零開始實現(xiàn)支撐強化學習的基礎技術。

本書有什么特點?
■ 把握潮流中的變與不變
在快速發(fā)展變化的深度學習領域,有變化的事物,有不變的事物。有些事物會隨潮流而消逝,有些則會被傳承下去。本書從馬爾可夫決策過程、貝爾曼方程、蒙特卡洛方法、時間差分法等強化學習基礎方法,自然而然地過渡到神經(jīng)網(wǎng)絡和深度學習,從前沿視角為讀者遴選出最值得關注的強化學習理論和方法。
■ 內(nèi)容豐富,講解簡明易懂
作為超高人氣“魚書”系列第四部作品,本書延續(xù)了這一系列的寫作和講解風格,搭配豐富的圖、表、代碼示例,加上輕松、簡明的講解,能夠讓人非常信服地理解強化學習中各種方法之間的關系,于不知不覺中登堂入室。
■ 原理與實踐并重
本書旨在確保讀者能夠牢固掌握強化學習的獨特理論,奉行“只有做出來才能真正理解”的理念,將這一主題的每個構成要素都從“理論”和“實踐”兩個方面進行詳盡解釋,并鼓勵讀者動手嘗試。與僅通過數(shù)學公式解釋理論
的圖書不同,讀者將通過實際運行本書代碼獲得許多令人驚嘆的領悟。
  1. 第1章 老虎機問題
  2. 1.1 機器學習的分類與強化學習
  3. 1.1.1 監(jiān)督學習
  4. 1.1.2 無監(jiān)督學習
  5. 1.1.3 強化學習
  6. 1.2 老虎機問題
  7. 1.2.1 什么是老虎機問題
  8. 1.2.2 什么是好的老虎機
  9. 1.2.3 使用數(shù)學式表示
  10. 1.3 老虎機算法
  11. 1.3.1 價值的估計方法
  12. 1.3.2 求平均值的實現(xiàn)
  13. 1.3.3 玩家的策略
  14. 1.4 老虎機算法的實現(xiàn)
  15. 1.4.1 老虎機的實現(xiàn)
  16. 1.4.2 智能代理的實現(xiàn)
  17. 1.4.3 嘗試運行
  18. 1.4.4 算法平均的特性
  19. 1.5 非穩(wěn)態(tài)問題
  20. 1.5.1 解決非穩(wěn)態(tài)問題前的準備工作
  21. 1.5.2 解決非穩(wěn)態(tài)問題
  22. 1.6 小結(jié)
  23. 第2章 馬爾可夫決策過程
  24. 2.1 什么是MDP
  25. 2.1.1 MDP的具體例子
  26. 2.1.2 智能代理與環(huán)境的互動
  27. 2.2 環(huán)境和智能代理的數(shù)學表示
  28. 2.2.1 狀態(tài)遷移
  29. 2.2.2 獎勵函數(shù)
  30. 2.2.3 智能代理的策略
  31. 2.3 MDP的目標
  32. 2.3.1 回合制任務和連續(xù)性任務
  33. 2.3.2 收益
  34. 2.3.3 狀態(tài)價值函數(shù)
  35. 2.3.4 最優(yōu)策略和最優(yōu)價值函數(shù)
  36. 2.4 MDP的例子
  37. 2.4.1 回溯線形圖
  38. 2.4.2 找出最優(yōu)策略
  39. 2.5 小結(jié)
  40. 第3章 貝爾曼方程
  41. 3.1 貝爾曼方程的推導
  42. 3.1.1 概率和期望值(推導貝爾曼方程的準備)
  43. 3.1.2 貝爾曼方程的推導
  44. 3.2 貝爾曼方程的例子
  45. 3.2.1 有兩個方格的網(wǎng)格世界
  46. 3.2.2 貝爾曼方程的意義
  47. 3.3 行動價值函數(shù)與貝爾曼方程
  48. 3.3.1 行動價值函數(shù)
  49. 3.3.2 使用行動價值函數(shù)的貝爾曼方程
  50. 3.4 貝爾曼最優(yōu)方程
  51. 3.4.1 狀態(tài)價值函數(shù)的貝爾曼最優(yōu)方程
  52. 3.4.2 Q函數(shù)的貝爾曼最優(yōu)方程
  53. 3.5 貝爾曼最優(yōu)方程的示例
  54. 3.5.1 應用貝爾曼最優(yōu)方程
  55. 3.5.2 得到最優(yōu)策略
  56. 3.6 小結(jié)
  57. 第4章 動態(tài)規(guī)劃法
  58. 4.1 動態(tài)規(guī)劃法和策略評估
  59. 4.1.1 動態(tài)規(guī)劃法簡介
  60. 4.1.2 嘗試迭代策略評估
  61. 4.1.3 迭代策略評估的其他實現(xiàn)方式
  62. 4.2 解決更大的問題
  63. 4.2.1 GridWorld類的實現(xiàn)
  64. 4.2.2 defaultdict的用法
  65. 4.2.3 迭代策略評估的實現(xiàn)
  66. 4.3 策略迭代法
  67. 4.3.1 策略的改進
  68. 4.3.2 重復評估和改進
  69. 4.4 實施策略迭代法
  70. 4.4.1 改進策略
  71. 4.4.2 重復評估和改進
  72. 4.5 價值迭代法
  73. 4.5.1 價值迭代法的推導
  74. 4.5.2 價值迭代法的實現(xiàn)
  75. 4.6 小結(jié)
  76. 第5章 蒙特卡洛方法
  77. 5.1 蒙特卡洛方法的基礎知識
  78. 5.1.1 骰子的點數(shù)和
  79. 5.1.2 分布模型和樣本模型
  80. 5.1.3 蒙特卡洛方法的實現(xiàn)
  81. 5.2 使用蒙特卡洛方法評估策略
  82. 5.2.1 使用蒙特卡洛方法計算價值函數(shù)
  83. 5.2.2 求所有狀態(tài)的價值函數(shù)
  84. 5.2.3 蒙特卡洛方法的高效實現(xiàn)
  85. 5.3 蒙特卡洛方法的實現(xiàn)
  86. 5.3.1 step方法
  87. 5.3.2 智能代理類的實現(xiàn)
  88. 5.3.3 運行蒙特卡洛方法
  89. 5.4 使用蒙特卡洛方法的策略控制
  90. 5.4.1 評估和改進
  91. 5.4.2 使用蒙特卡洛方法實現(xiàn)策略控制
  92. 5.4.3 ε-greedy算法(第1個修改)
  93. 5.4.4 修改為固定值α的方式(第2個修改)
  94. 5.4.5 [修改版]使用蒙特卡洛方法實現(xiàn)策略迭代法
  95. 5.5 異策略型和重要性采樣
  96. 5.5.1 同策略型和異策略型
  97. 5.5.2 重要性采樣
  98. 5.5.3 如何減小方差
  99. 5.6 小結(jié)
  100. 第6章 TD方法
  101. 6.1 使用TD方法評估策略
  102. 6.1.1 TD方法的推導
  103. 6.1.2 MC方法和TD方法的比較
  104. 6.1.3 TD方法的實現(xiàn)
  105. 6.2 SARSA
  106. 6.2.1 同策略型的SARSA
  107. 6.2.2 SARSA的實現(xiàn)
  108. 6.3 異策略型的SARSA
  109. 6.3.1 異策略型和重要性采樣
  110. 6.3.2 異策略型的SARSA的實現(xiàn)
  111. 6.4 Q學習
  112. 6.4.1 貝爾曼方程與SARSA
  113. 6.4.2 貝爾曼最優(yōu)方程與Q學習
  114. 6.4.3 Q學習的實現(xiàn)
  115. 6.5 分布模型與樣本模型
  116. 6.5.1 分布模型與樣本模型
  117. 6.5.2 樣本模型版的Q學習
  118. 6.6 小結(jié)
  119. 第7章 神經(jīng)網(wǎng)絡和Q學習
  120. 7.1 DeZero簡介
  121. 7.1.1 使用DeZero
  122. 7.1.2 多維數(shù)組(張量)和函數(shù)
  123. 7.1.3 最優(yōu)化
  124. 7.2 線性回歸
  125. 7.2.1 玩具數(shù)據(jù)集
  126. 7.2.2 線性回歸的理論知識
  127. 7.2.3 線性回歸的實現(xiàn)
  128. 7.3 神經(jīng)網(wǎng)絡
  129. 7.3.1 非線性數(shù)據(jù)集
  130. 7.3.2 線性變換和激活函數(shù)
  131. 7.3.3 神經(jīng)網(wǎng)絡的實現(xiàn)
  132. 7.3.4 層與模型
  133. 7.3.5 優(yōu)化器(最優(yōu)化方法)
  134. 7.4 Q學習與神經(jīng)網(wǎng)絡
  135. 7.4.1 神經(jīng)網(wǎng)絡的預處理
  136. 7.4.2 表示Q函數(shù)的神經(jīng)網(wǎng)絡
  137. 7.4.3 神經(jīng)網(wǎng)絡和Q學習
  138. 7.5 小結(jié)
  139. 第8章 DQN
  140. 8.1 OpenAI Gym
  141. 8.1.1 OpenAI Gym的基礎知識
  142. 8.1.2 隨機智能代理
  143. 8.2 DQN的核心技術
  144. 8.2.1 經(jīng)驗回放
  145. 8.2.2 經(jīng)驗回放的實現(xiàn)
  146. 8.2.3 目標網(wǎng)絡
  147. 8.2.4 目標網(wǎng)絡的實現(xiàn)
  148. 8.2.5 運行DQN
  149. 8.3 DQN與Atari
  150. 8.3.1 Atari的游戲環(huán)境
  151. 8.3.2 預處理
  152. 8.3.3 CNN
  153. 8.3.4 其他技巧
  154. 8.4 DQN的擴展
  155. 8.4.1 Double DQN
  156. 8.4.2 優(yōu)先級經(jīng)驗回放
  157. 8.4.3 Dueling DQN
  158. 8.5 小結(jié)
  159. 第9章 策略梯度法
  160. 9.1 最簡單的策略梯度法
  161. 9.1.1 策略梯度法的推導
  162. 9.1.2 策略梯度法的算法
  163. 9.1.3 策略梯度法的實現(xiàn)
  164. 9.2 REINFORCE
  165. 9.2.1 REINFORCE算法
  166. 9.2.2 REINFORCE的實現(xiàn)
  167. 9.3 基線
  168. 9.3.1 基線的思路
  169. 9.3.2 帶基線的策略梯度法
  170. 9.4 Actor-Critic
  171. 9.4.1 Actor-Critic的推導
  172. 9.4.2 Actor-Critic的實現(xiàn)
  173. 9.5 基于策略的方法的優(yōu)點
  174. 9.6 小結(jié)
  175. 第10章 進一步學習
  176. 10.1 深度強化學習算法的分類
  177. 10.2 策略梯度法的改進算法
  178. 10.2.1 A3C和A2C
  179. 10.2.2 DDPG
  180. 10.2.3 TRPO和PPO
  181. 10.3 DQN的改進算法
  182. 10.3.1 分類DQN
  183. 10.3.2 Noisy Network
  184. 10.3.3 Rainbow
  185. 10.3.4 在Rainbow以后提出的改進算法
  186. 10.4 案例研究
  187. 10.4.1 棋盤游戲
  188. 10.4.2 機器人控制
  189. 10.4.3 NAS
  190. 10.4.4 其他案例
  191. 10.5 深度強化學習的挑戰(zhàn)和可能性
  192. 10.5.1 應用于實際系統(tǒng)
  193. 10.5.2 將問題表示為MDP形式時的建議
  194. 10.5.3 通用人工智能系統(tǒng)
  195. 10.6 小結(jié)
  196. 附錄A 異策略型的蒙特卡洛方法
  197. 附錄B n-step TD方法
  198. 附錄C Double DQN的理解
  199. 附錄D 策略梯度法的證明
  200. 后記
  201. 參考文獻
書名:深度學習入門4:強化學習
作者:齋藤康毅
譯者:鄭明智 譯
國內(nèi)出版社:人民郵電出版社
出版時間:2024年08月
頁數(shù):313
書號:978-7-115-64917-1
原版書書名:Reinforcement Learning
原版書出版商:O'Reilly Media
齋藤康毅
 
1984年生于日本長崎縣,東京工業(yè)大學畢業(yè),并完成東京大學研究生院課程。目前在某企業(yè)從事人工智能相關的研究和開發(fā)工作。著有《深度學習入門:基于Python的理論與實現(xiàn)》,同時也是Introducing Python、Python in Practice、The Elements of Computing Systems、Building Machine Learning Systems with Python的日文版譯者。
 
 
購買選項
定價:109.80元
書號:978-7-115-64917-1
出版社:人民郵電出版社