91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

 
利用Dask擴展Python性能
利用Dask擴展Python性能
Holden Karau, Mika Kimmins
馬宏華 譯
出版時間:2024年08月
頁數(shù):193
“本書寫得非常棒,如果你是Dask的新用戶或考慮在項目中使用Dask,那么這幾乎是一本必讀書冊。Dask提供了強大的功能以及許多需要牢記的微妙技巧,而本書則是探索這一新領域的理想工具?!?br /> ——Adam Breindel
數(shù)據(jù)工程和ML/AI獨立顧問
“很高興能看到本領域專家寫的有關Dask的圖書。”
——Matthew Rocklin
初始Dask維護者和Coiled Computing首席執(zhí)行官

現(xiàn)代系統(tǒng)包含具有并行計算潛力的多核CPU和GPU,但許多科學Python工具的設計并沒有很好地利用這種并行性。通過本書的深入介紹,數(shù)據(jù)科學家和Python程序員將了解Dask并行計算開源庫,掌握如何利用它提供的API,使包括NumPy、Pandas和scikit-learn在內的PyData庫易于并行化。
本書作者Holden Karau和Mika Kimmins向你展示了如何在本地系統(tǒng)中使用Dask計算,然后擴展到云端以應對更繁重的工作負載。這本實用手冊解釋了為什么Dask在行業(yè)專家和學者中很受歡迎,并被沃爾瑪、Capital One、哈佛醫(yī)學院和美國國家航空航天局(NASA)等組織使用。
在本書中你會學習到:
● 如何使用Dask進行批量數(shù)據(jù)并行處理
● 理解Dask的關鍵分布式系統(tǒng)概念
● 將Dask與高級API和構建塊一起使用的方法
● 如何使用集成庫
● 如何將Dask與GPU結合使用
  1. 第1章 了解Dask
  2. 1.1 需要使用Dask的理由
  3. 1.2 Dask在生態(tài)系統(tǒng)中的定位
  4. 1.2.1 大數(shù)據(jù)
  5. 1.2.2 數(shù)據(jù)科學
  6. 1.2.3 并行分布式Python
  7. 1.3 Dask社區(qū)庫
  8. 1.3.1 加速Python
  9. 1.3.2 SQL引擎
  10. 1.3.3 工作流程調度
  11. 1.4 Dask的局限性
  12. 1.5 小結
  13. 第2章 Dask基礎操作
  14. 2.1 本地安裝Dask
  15. 2.2 Hello World
  16. 2.2.1 Hello World任務
  17. 2.2.2 分布式集合
  18. 2.2.3 Dask DataFrame
  19. 2.3 小結
  20. 第3章 Dask的工作原理:基礎知識
  21. 3.1 執(zhí)行后端
  22. 3.1.1 本地后端
  23. 3.1.2 分布式后端(Dask客戶端和調度程序)
  24. 3.2 Dask的診斷用戶界面
  25. 3.3 序列化和Pickling
  26. 3.4 分區(qū)/分塊集合
  27. 3.4.1 Dask數(shù)組
  28. 3.4.2 Dask bag
  29. 3.4.3 Dask DataFrame
  30. 3.4.4 打亂
  31. 3.4.5 加載期間分區(qū)
  32. 3.5 任務、圖和惰性評估
  33. 3.5.1 惰性評估
  34. 3.5.2 任務依賴關系
  35. 3.5.3 可視化
  36. 3.5.4 中間任務結果
  37. 3.5.5 任務規(guī)模調整
  38. 3.5.6 當任務圖變得太大時
  39. 3.5.7 組合計算
  40. 3.5.8 持久化、緩存和記憶化
  41. 3.6 容錯能力
  42. 3.7 小結
  43. 第4章 Dask DataFrame
  44. 4.1 Dask DataFrame的構建方式
  45. 4.2 加載和寫入
  46. 4.2.1 格式
  47. 4.2.2 文件系統(tǒng)
  48. 4.3 索引
  49. 4.4 打亂數(shù)據(jù)
  50. 4.4.1 滾動窗口和map_overlap
  51. 4.4.2 聚合
  52. 4.4.3 完全打亂
  53. 4.4.4 分區(qū)
  54. 4.5 尷尬的并行操作
  55. 4.6 使用多個DataFrame
  56. 4.6.1 組合DataFrame的常用函數(shù)解析
  57. 4.6.2 多DataFrame內部原理
  58. 4.6.3 缺失的功能
  59. 4.7 無法使用的功能
  60. 4.8 較慢的功能
  61. 4.9 處理遞歸算法
  62. 4.10 重新計算的數(shù)據(jù)
  63. 4.11 其他函數(shù)的差異
  64. 4.12 數(shù)據(jù)科學與Dask DataFrame:綜合演練
  65. 4.12.1 決定使用Dask
  66. 4.12.2 使用Dask進行探索性數(shù)據(jù)分析
  67. 4.13 小結
  68. 第5章 Dask的集合
  69. 5.1 Dask數(shù)組
  70. 5.1.1 常見用例
  71. 5.1.2 不適用Dask數(shù)組的情形
  72. 5.1.3 加載/保存
  73. 5.1.4 缺失的功能
  74. 5.1.5 特殊Dask函數(shù)
  75. 5.2 Dask bag
  76. 5.2.1 常見用例
  77. 5.2.2 加載和保存Dask bag
  78. 5.2.3 使用Dask bag加載雜亂數(shù)據(jù)
  79. 5.2.4 局限性
  80. 5.3 小結
  81. 第6章 高級任務調度:Futures
  82. 6.1 懶惰評估和急切評估
  83. 6.2 Futures的用例
  84. 6.3 啟動Futures
  85. 6.4 Futures生命周期
  86. 6.5 即發(fā)即棄
  87. 6.6 檢索結果
  88. 6.7 嵌套Futures
  89. 6.8 用于調度的分布式數(shù)據(jù)結構
  90. 6.9 小結
  91. 第7章 添加可變狀態(tài)和Dask Actor
  92. 7.1 理解Actor模型
  93. 7.2 Dask Actor
  94. 7.2.1 創(chuàng)建第一個Actor
  95. 7.2.2 擴展Dask Actor
  96. 7.2.3 局限性
  97. 7.3 使用Dask Actor的時機
  98. 7.4 小結
  99. 第8章 評估Dask的組件和庫
  100. 8.1 項目評估的定性考慮因素
  101. 8.1.1 項目優(yōu)先級
  102. 8.1.2 社區(qū)
  103. 8.1.3 Dask特定最佳實踐
  104. 8.1.4 最新的依賴項
  105. 8.1.5 文檔
  106. 8.1.6 貢獻的開放程度
  107. 8.1.7 可擴展性
  108. 8.2 開源項目評估的定量指標
  109. 8.2.1 版本歷史
  110. 8.2.2 提交頻率
  111. 8.2.3 庫的使用情況
  112. 8.2.4 代碼和最佳實踐
  113. 8.3 小結
  114. 第9章 遷移現(xiàn)有的分析工程
  115. 9.1 遷移到Dask中的原因
  116. 9.2 Dask的局限性
  117. 9.3 遷移路線圖
  118. 9.3.1 集群類型
  119. 9.3.2 開發(fā):注意事項
  120. 9.3.3 部署監(jiān)控
  121. 9.4 小結
  122. 第10章 使用GPU和其他特殊資源的Dask
  123. 10.1 透明加速器與非透明加速器
  124. 10.2 了解GPU或TPU是否有幫助
  125. 10.3 使Dask具有資源感知能力
  126. 10.4 安裝庫
  127. 10.5 在Dask任務中使用自定義資源
  128. 10.5.1 裝飾器
  129. 10.5.2 GPU
  130. 10.6 基于Dask的GPU加速
  131. 10.6.1 cuDF
  132. 10.6.2 BlazingSQL
  133. 10.6.3 cuStreamz
  134. 10.7 釋放加速器資源
  135. 10.8 設計模式:CPU回退
  136. 10.9 小結
  137. 第11章 使用Dask進行機器學習
  138. 11.1 并行化機器學習
  139. 11.2 使用Dask-ML的時機
  140. 11.3 Dask-ML和XGBoost入門
  141. 11.3.1 特征工程
  142. 11.3.2 模型選擇和訓練
  143. 11.3.3 沒有Dask-ML等效項時的解決方案
  144. 11.3.4 結合使用Dask joblib
  145. 11.3.5 XGBoost與Dask
  146. 11.4 使用Dask-SQL的機器學習模型
  147. 11.5 推理和部署
  148. 11.5.1 手動分發(fā)數(shù)據(jù)和模型
  149. 11.5.2 使用Dask進行大規(guī)模推理
  150. 11.6 小結
  151. 第12章 生產化Dask:Notebook、部署、調整和監(jiān)控
  152. 12.1 部署選項中需要考慮的因素
  153. 12.2 在Kubernetes上部署Dask
  154. 12.3 在Ray上部署Dask
  155. 12.4 在YARN上部署Dask
  156. 12.5 在高性能計算集群中部署Dask
  157. 12.5.1 在遠程集群中設置Dask
  158. 12.5.2 將本地計算機連接到HPC集群
  159. 12.6 Dask JupyterLab擴展
  160. 12.6.1 安裝JupyterLab擴展
  161. 12.6.2 啟動集群
  162. 12.6.3 用戶界面
  163. 12.6.4 觀察進度
  164. 12.7 了解Dask性能
  165. 12.7.1 分布式計算中的指標
  166. 12.7.2 Dask儀表板
  167. 12.7.3 保存和共享Dask指標/性能日志
  168. 12.7.4 高級診斷
  169. 12.8 擴展和調試最佳實踐
  170. 12.8.1 手動擴展
  171. 12.8.2 自適應/自動擴展
  172. 12.8.3 保留和刪除高計算成本的數(shù)據(jù)
  173. 12.8.4 Dask Nanny
  174. 12.8.5 worker內存管理
  175. 12.8.6 集群規(guī)模調整
  176. 12.8.7 重新審視分塊
  177. 12.8.8 避免重新分塊
  178. 12.9 作業(yè)調度
  179. 12.10 部署監(jiān)控
  180. 12.11 小結
  181. 附錄A Dask用戶的關鍵系統(tǒng)概念
  182. A.1 測試
  183. A.1.1 手動測試
  184. A.1.2 單元測試
  185. A.1.3 集成測試
  186. A.1.4 測試驅動開發(fā)
  187. A.1.5 屬性測試
  188. A.1.6 使用Notebook
  189. A.1.7 在Notebook之外進行測試
  190. A.1.8 在Notebook中測試:內聯(lián)斷言
  191. A.2 數(shù)據(jù)和輸出驗證
  192. A.3 點對點分布與中心化分布
  193. A.4 并行方法
  194. A.4.1 任務并行
  195. A.4.2 數(shù)據(jù)并行
  196. A.4.3 打亂和寬窄轉換
  197. A.4.4 局限性
  198. A.4.5 負載均衡
  199. A.5 網絡容錯和CAP定理
  200. A.6 遞歸
  201. A.7 版本控制和分支:代碼和數(shù)據(jù)
  202. A.8 隔離
  203. A.9 機器容錯
  204. A.10 可擴展性(向上和向下)
  205. A.11 緩存、內存、磁盤和網絡
  206. A.12 哈希
  207. A.13 數(shù)據(jù)局部性
  208. A.14 正好一次與至少一次
  209. A.15 小結
  210. 附錄B 可擴展的DataFrame
  211. B.1 工具
  212. B.1.1 僅適用于一臺機器
  213. B.1.2 分布式計算
  214. B.2 小結
  215. 附錄C 調試Dask
  216. C.1 使用調試器
  217. C.2 使用Dask的一般調試技巧
  218. C.3 原生錯誤
  219. C.4 關于官方建議處理壞記錄的一些說明
  220. C.5 Dask診斷
  221. C.6 小結
  222. 附錄D 使用Streamz和Dask進行流式處理
  223. D.1 Dask上的Streamz入門
  224. D.2 流數(shù)據(jù)源和接收器
  225. D.3 字數(shù)統(tǒng)計
  226. D.4 Dask流式處理的GPU管道
  227. D.5 限制、挑戰(zhàn)和解決方法
  228. D.6 小結
書名:利用Dask擴展Python性能
譯者:馬宏華 譯
國內出版社:清華大學出版社
出版時間:2024年08月
頁數(shù):193
書號:978-7-302-66629-5
原版書書名:Scaling Python with Dask
原版書出版商:O'Reilly Media
Holden Karau
 
Holden Karau是一位加拿大人,在IBM的Spark技術中心擔任軟件開發(fā)工程師。同時作為一位Spark committer,經常在PySpark和機器學習方面進行貢獻。另外曾在多次國際會議中發(fā)表關于Spark的演講。
Databricks的軟件開發(fā)工程師,活躍于開源社區(qū)。她還著有《Spark快速數(shù)據(jù)處理》。
 
 
Mika Kimmins
 
Mika Kimmins是一名數(shù)據(jù)工程師、分布式系統(tǒng)研究員和機器學習顧問。她參與了各種自然語言處理(NLP)項目,包括語言建模、強化學習和機器學習管道等。
 
 
購買選項
定價:89.00元
書號:978-7-302-66629-5
出版社:清華大學出版社