性爱有声小说在线收听,完美世界小说txt下载,欢乐颂第三季

利用Dask擴展Python性能

馬宏華譯

出版時間：2024年08月

頁數(shù)：193

“本書寫得非常棒，如果你是Dask的新用戶或考慮在項目中使用Dask，那么這幾乎是一本必讀書冊。Dask提供了強大的功能以及許多需要牢記的微妙技巧，而本書則是探索這一新領域的理想工具?！?br /> ——Adam Breindel
數(shù)據(jù)工程和ML/AI獨立顧問
“很高興能看到本領域專家寫的有關Dask的圖書。”
——Matthew Rocklin
初始Dask維護者和Coiled Computing首席執(zhí)行官

現(xiàn)代系統(tǒng)包含具有并行計算潛力的多核CPU和GPU，但許多科學Python工具的設計并沒有很好地利用這種并行性。通過本書的深入介紹，數(shù)據(jù)科學家和Python程序員將了解Dask并行計算開源庫，掌握如何利用它提供的API，使包括NumPy、Pandas和scikit-learn在內的PyData庫易于并行化。
本書作者Holden Karau和Mika Kimmins向你展示了如何在本地系統(tǒng)中使用Dask計算，然后擴展到云端以應對更繁重的工作負載。這本實用手冊解釋了為什么Dask在行業(yè)專家和學者中很受歡迎，并被沃爾瑪、Capital One、哈佛醫(yī)學院和美國國家航空航天局（NASA）等組織使用。
在本書中你會學習到：
● 如何使用Dask進行批量數(shù)據(jù)并行處理
● 理解Dask的關鍵分布式系統(tǒng)概念
● 將Dask與高級API和構建塊一起使用的方法
● 如何使用集成庫
● 如何將Dask與GPU結合使用

目錄
產品信息
關于作者

第1章了解Dask
1.1 需要使用Dask的理由
1.2 Dask在生態(tài)系統(tǒng)中的定位
1.2.1 大數(shù)據(jù)
1.2.2 數(shù)據(jù)科學
1.2.3 并行分布式Python
1.3 Dask社區(qū)庫
1.3.1 加速Python
1.3.2 SQL引擎
1.3.3 工作流程調度
1.4 Dask的局限性
1.5 小結
第2章 Dask基礎操作
2.1 本地安裝Dask
2.2 Hello World
2.2.1 Hello World任務
2.2.2 分布式集合
2.2.3 Dask DataFrame
2.3 小結
第3章 Dask的工作原理：基礎知識
3.1 執(zhí)行后端
3.1.1 本地后端
3.1.2 分布式后端（Dask客戶端和調度程序）
3.2 Dask的診斷用戶界面
3.3 序列化和Pickling
3.4 分區(qū)/分塊集合
3.4.1 Dask數(shù)組
3.4.2 Dask bag
3.4.3 Dask DataFrame
3.4.4 打亂
3.4.5 加載期間分區(qū)
3.5 任務、圖和惰性評估
3.5.1 惰性評估
3.5.2 任務依賴關系
3.5.3 可視化
3.5.4 中間任務結果
3.5.5 任務規(guī)模調整
3.5.6 當任務圖變得太大時
3.5.7 組合計算
3.5.8 持久化、緩存和記憶化
3.6 容錯能力
3.7 小結
第4章 Dask DataFrame
4.1 Dask DataFrame的構建方式
4.2 加載和寫入
4.2.1 格式
4.2.2 文件系統(tǒng)
4.3 索引
4.4 打亂數(shù)據(jù)
4.4.1 滾動窗口和map_overlap
4.4.2 聚合
4.4.3 完全打亂
4.4.4 分區(qū)
4.5 尷尬的并行操作
4.6 使用多個DataFrame
4.6.1 組合DataFrame的常用函數(shù)解析
4.6.2 多DataFrame內部原理
4.6.3 缺失的功能
4.7 無法使用的功能
4.8 較慢的功能
4.9 處理遞歸算法
4.10 重新計算的數(shù)據(jù)
4.11 其他函數(shù)的差異
4.12 數(shù)據(jù)科學與Dask DataFrame：綜合演練
4.12.1 決定使用Dask
4.12.2 使用Dask進行探索性數(shù)據(jù)分析
4.13 小結
第5章 Dask的集合
5.1 Dask數(shù)組
5.1.1 常見用例
5.1.2 不適用Dask數(shù)組的情形
5.1.3 加載/保存
5.1.4 缺失的功能
5.1.5 特殊Dask函數(shù)
5.2 Dask bag
5.2.1 常見用例
5.2.2 加載和保存Dask bag
5.2.3 使用Dask bag加載雜亂數(shù)據(jù)
5.2.4 局限性
5.3 小結
第6章高級任務調度：Futures
6.1 懶惰評估和急切評估
6.2 Futures的用例
6.3 啟動Futures
6.4 Futures生命周期
6.5 即發(fā)即棄
6.6 檢索結果
6.7 嵌套Futures
6.8 用于調度的分布式數(shù)據(jù)結構
6.9 小結
第7章添加可變狀態(tài)和Dask Actor
7.1 理解Actor模型
7.2 Dask Actor
7.2.1 創(chuàng)建第一個Actor
7.2.2 擴展Dask Actor
7.2.3 局限性
7.3 使用Dask Actor的時機
7.4 小結
第8章評估Dask的組件和庫
8.1 項目評估的定性考慮因素
8.1.1 項目優(yōu)先級
8.1.2 社區(qū)
8.1.3 Dask特定最佳實踐
8.1.4 最新的依賴項
8.1.5 文檔
8.1.6 貢獻的開放程度
8.1.7 可擴展性
8.2 開源項目評估的定量指標
8.2.1 版本歷史
8.2.2 提交頻率
8.2.3 庫的使用情況
8.2.4 代碼和最佳實踐
8.3 小結
第9章遷移現(xiàn)有的分析工程
9.1 遷移到Dask中的原因
9.2 Dask的局限性
9.3 遷移路線圖
9.3.1 集群類型
9.3.2 開發(fā)：注意事項
9.3.3 部署監(jiān)控
9.4 小結
第10章使用GPU和其他特殊資源的Dask
10.1 透明加速器與非透明加速器
10.2 了解GPU或TPU是否有幫助
10.3 使Dask具有資源感知能力
10.4 安裝庫
10.5 在Dask任務中使用自定義資源
10.5.1 裝飾器
10.5.2 GPU
10.6 基于Dask的GPU加速
10.6.1 cuDF
10.6.2 BlazingSQL
10.6.3 cuStreamz
10.7 釋放加速器資源
10.8 設計模式：CPU回退
10.9 小結
第11章使用Dask進行機器學習
11.1 并行化機器學習
11.2 使用Dask-ML的時機
11.3 Dask-ML和XGBoost入門
11.3.1 特征工程
11.3.2 模型選擇和訓練
11.3.3 沒有Dask-ML等效項時的解決方案
11.3.4 結合使用Dask joblib
11.3.5 XGBoost與Dask
11.4 使用Dask-SQL的機器學習模型
11.5 推理和部署
11.5.1 手動分發(fā)數(shù)據(jù)和模型
11.5.2 使用Dask進行大規(guī)模推理
11.6 小結
第12章生產化Dask：Notebook、部署、調整和監(jiān)控
12.1 部署選項中需要考慮的因素
12.2 在Kubernetes上部署Dask
12.3 在Ray上部署Dask
12.4 在YARN上部署Dask
12.5 在高性能計算集群中部署Dask
12.5.1 在遠程集群中設置Dask
12.5.2 將本地計算機連接到HPC集群
12.6 Dask JupyterLab擴展
12.6.1 安裝JupyterLab擴展
12.6.2 啟動集群
12.6.3 用戶界面
12.6.4 觀察進度
12.7 了解Dask性能
12.7.1 分布式計算中的指標
12.7.2 Dask儀表板
12.7.3 保存和共享Dask指標/性能日志
12.7.4 高級診斷
12.8 擴展和調試最佳實踐
12.8.1 手動擴展
12.8.2 自適應/自動擴展
12.8.3 保留和刪除高計算成本的數(shù)據(jù)
12.8.4 Dask Nanny
12.8.5 worker內存管理
12.8.6 集群規(guī)模調整
12.8.7 重新審視分塊
12.8.8 避免重新分塊
12.9 作業(yè)調度
12.10 部署監(jiān)控
12.11 小結
附錄A Dask用戶的關鍵系統(tǒng)概念
A.1 測試
A.1.1 手動測試
A.1.2 單元測試
A.1.3 集成測試
A.1.4 測試驅動開發(fā)
A.1.5 屬性測試
A.1.6 使用Notebook
A.1.7 在Notebook之外進行測試
A.1.8 在Notebook中測試：內聯(lián)斷言
A.2 數(shù)據(jù)和輸出驗證
A.3 點對點分布與中心化分布
A.4 并行方法
A.4.1 任務并行
A.4.2 數(shù)據(jù)并行
A.4.3 打亂和寬窄轉換
A.4.4 局限性
A.4.5 負載均衡
A.5 網絡容錯和CAP定理
A.6 遞歸
A.7 版本控制和分支：代碼和數(shù)據(jù)
A.8 隔離
A.9 機器容錯
A.10 可擴展性（向上和向下）
A.11 緩存、內存、磁盤和網絡
A.12 哈希
A.13 數(shù)據(jù)局部性
A.14 正好一次與至少一次
A.15 小結
附錄B 可擴展的DataFrame
B.1 工具
B.1.1 僅適用于一臺機器
B.1.2 分布式計算
B.2 小結
附錄C 調試Dask
C.1 使用調試器
C.2 使用Dask的一般調試技巧
C.3 原生錯誤
C.4 關于官方建議處理壞記錄的一些說明
C.5 Dask診斷
C.6 小結
附錄D 使用Streamz和Dask進行流式處理
D.1 Dask上的Streamz入門
D.2 流數(shù)據(jù)源和接收器
D.3 字數(shù)統(tǒng)計
D.4 Dask流式處理的GPU管道
D.5 限制、挑戰(zhàn)和解決方法
D.6 小結

書名：利用Dask擴展Python性能

作者：Holden Karau, Mika Kimmins 著

譯者：馬宏華譯

國內出版社：清華大學出版社

出版時間：2024年08月

頁數(shù)：193

書號：978-7-302-66629-5

原版書書名：Scaling Python with Dask

原版書出版商：O'Reilly Media

Holden Karau

Holden Karau是一位加拿大人，在IBM的Spark技術中心擔任軟件開發(fā)工程師。同時作為一位Spark committer，經常在PySpark和機器學習方面進行貢獻。另外曾在多次國際會議中發(fā)表關于Spark的演講。
Databricks的軟件開發(fā)工程師，活躍于開源社區(qū)。她還著有《Spark快速數(shù)據(jù)處理》。

查看Holden Karau更多信息

Mika Kimmins

Mika Kimmins是一名數(shù)據(jù)工程師、分布式系統(tǒng)研究員和機器學習顧問。她參與了各種自然語言處理（NLP）項目，包括語言建模、強化學習和機器學習管道等。

查看Mika Kimmins更多信息

購買選項

定價：89.00元

書號：978-7-302-66629-5

出版社：清華大學出版社

聯(lián)系出版社郵購

91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片