91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

 
Spark快速大數(shù)據(jù)分析(第2版)
Spark快速大數(shù)據(jù)分析(第2版)
Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee
王道遠(yuǎn) 譯
出版時(shí)間:2021年11月
頁(yè)數(shù):314
毋庸置疑,數(shù)據(jù)已經(jīng)成為現(xiàn)代化企業(yè)的重要資產(chǎn),大數(shù)據(jù)分析技術(shù)則是企業(yè)挖掘數(shù)據(jù)價(jià)值的核心利器。一直以來,Spark就是大數(shù) 據(jù)分析領(lǐng)域的佼佼者,也已經(jīng)成為一站式大數(shù)據(jù)分析引擎的事實(shí)標(biāo)準(zhǔn)。
本書作者均來自Spark的母公司Databricks。他們將帶你開始使用Spark,并了解如何利用它適應(yīng)這個(gè)屬于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的新時(shí)代。第2版在第1版的基礎(chǔ)上做了大量更新,涵蓋Spark 3.0的新特性,并著重展示如何利用機(jī)器學(xué)習(xí)算法執(zhí)行大數(shù)據(jù)分析。
● 學(xué)習(xí)使用Python、Java、Scala的結(jié)構(gòu)化數(shù)據(jù)API
● 理解Spark SQL引擎的原理
● 掌握Spark應(yīng)用的優(yōu)化技巧
● 了解如何讀寫數(shù)據(jù)源:JSON、Parquet、CSV、Avro、ORC等
● 使用Structured Streaming分析批式數(shù)據(jù)和流式數(shù)據(jù)
● 使用Spark和Delta Lake構(gòu)建湖倉(cāng)一體的系統(tǒng)
● 使用MLlib開發(fā)機(jī)器學(xué)習(xí)流水線
  1. 譯者序
  2. 對(duì)本書的贊譽(yù)
  3. 前言
  4. 第1章 Apache Spark簡(jiǎn)介:一站式分析引擎
  5. 1.1 Spark的起源
  6. 1.1.1 谷歌的大數(shù)據(jù)和分布式計(jì)算
  7. 1.1.2 雅虎的Hadoop
  8. 1.1.3 Spark在AMPLab嶄露頭角
  9. 1.2 什么是Spar
  10. 1.2.1 快速
  11. 1.2.2 易用
  12. 1.2.3 模塊化
  13. 1.2.4 可擴(kuò)展
  14. 1.3 一站式數(shù)據(jù)分析
  15. 1.3.1 由Spark組件組成的一站式軟件棧
  16. 1.3.2 Spark的分布式執(zhí)行
  17. 1.4 開發(fā)者體驗(yàn)
  18. 1.4.1 哪些人用Spark,用它做什么
  19. 1.4.2 社區(qū)接受度與社區(qū)發(fā)展
  20. 第2章 下載并開始使用Apache Spark
  21. 2.1 第1步:下載Spark
  22. 2.2 第2步:使用Scala shell或PySpark shell
  23. 2.3 第3步:理解Spark 應(yīng)用的相關(guān)概念
  24. 2.3.1 Spark應(yīng)用與SparkSession
  25. 2.3.2 Spark作業(yè)
  26. 2.3.3 Spark執(zhí)行階段
  27. 2.3.4 Spark任務(wù)
  28. 2.4 轉(zhuǎn)化操作、行動(dòng)操作以及惰性求值
  29. 2.5 Spark UI
  30. 2.6 第 一個(gè)獨(dú)立應(yīng)用
  31. 2.6.1 統(tǒng)計(jì)M&M巧克力豆
  32. 2.6.2 用Scala構(gòu)建獨(dú)立應(yīng)用
  33. 2.7 小結(jié)
  34. 第3章 Apache Spark的結(jié)構(gòu)化數(shù)據(jù)API
  35. 3.1 RDD的背后是什么
  36. 3.2 Spark支持結(jié)構(gòu)化數(shù)據(jù)
  37. 3.3 DataFrame API
  38. 3.3.1 Spark的基本數(shù)據(jù)類型
  39. 3.3.2 Spark中結(jié)構(gòu)化的復(fù)雜數(shù)據(jù)類型
  40. 3.3.3 表結(jié)構(gòu)與DataFrame
  41. 3.3.4 列與表達(dá)式
  42. 3.3.5 行
  43. 3.3.6 常見的DataFrame操作
  44. 3.3.7 完整的DataFrame示例
  45. 3.4 Dataset API
  46. 3.4.1 有類型對(duì)象、無類型對(duì)象,以及普通行
  47. 3.4.2 創(chuàng)建Dataset
  48. 3.4.3 Dataset操作
  49. 3.4.4 完整的Dataset示例
  50. 3.5 對(duì)比DataFrame和Dataset
  51. 3.6 Spark SQL及其底層引擎
  52. 3.7 小結(jié)
  53. 第4章 Spark SQL與DataFrame:內(nèi)建數(shù)據(jù)源概覽
  54. 4.1 在Spark應(yīng)用中使用Spark SQL
  55. 4.2 SQL表和視圖
  56. 4.2.1 有管理表和無管理表
  57. 4.2.2 創(chuàng)建SQL數(shù)據(jù)庫(kù)和SQL表
  58. 4.2.3 創(chuàng)建視圖
  59. 4.2.4 查看元數(shù)據(jù)
  60. 4.2.5 緩存SQL表
  61. 4.2.6 將表讀取為DataFrame
  62. 4.3 DataFrame和SQL表的數(shù)據(jù)源
  63. 4.3.1 DataFrameReader
  64. 4.3.2 DataFrameWriter
  65. 4.3.3 Parquet
  66. 4.3.4 JSON
  67. 4.3.5 CSV
  68. 4.3.6 Avro
  69. 4.3.7 ORC
  70. 4.3.8 圖像
  71. 4.3.9 二進(jìn)制文件
  72. 4.4 小結(jié)
  73. 第5章 Spark SQL與DataFrame:讀寫外部數(shù)據(jù)源
  74. 5.1 Spark SQL與Apache Hive
  75. 5.2 用Spark SQL shell、Beeline和Tableau查詢
  76. 5.2.1 使用Spark SQL shell
  77. 5.2.2 使用Beeline
  78. 5.2.3 使用Tableau
  79. 5.3 外部數(shù)據(jù)源
  80. 5.3.1 JDBC和SQL數(shù)據(jù)庫(kù)
  81. 5.3.2 PostgreSQL
  82. 5.3.3 MySQL
  83. 5.3.4 Azure Cosmos DB
  84. 5.3.5 MS SQL Server
  85. 5.3.6 其他外部數(shù)據(jù)源
  86. 5.4 DataFrame和Spark SQL的高階函數(shù)
  87. 5.4.1 方式1:打散再重組
  88. 5.4.2 方式2:用戶自定義函數(shù)
  89. 5.4.3 針對(duì)復(fù)雜數(shù)據(jù)類型的內(nèi)建函數(shù)
  90. 5.4.4 高階函數(shù)
  91. 5.5 常用的DataFrame操作和Spark SQL操作
  92. 5.5.1 聯(lián)合
  93. 5.5.2 連接
  94. 5.5.3 窗口
  95. 5.5.4 修改
  96. 5.6 小結(jié)
  97. 第6章 Spark SQL與Dataset
  98. 6.1 Java與Scala共用一套API
  99. 6.2 操作Dataset
  100. 6.2.1 創(chuàng)建示例數(shù)據(jù)
  101. 6.2.2 轉(zhuǎn)化示例數(shù)據(jù)
  102. 6.3 Dataset與DataFrame的內(nèi)存管理
  103. 6.4 Dataset編碼器
  104. 6.4.1 Spark內(nèi)部格式與Java對(duì)象格式
  105. 6.4.2 序列化與反序列化
  106. 6.5 使用Dataset的開銷
  107. 6.6 小結(jié)
  108. 第7章 Spark應(yīng)用的優(yōu)化與調(diào)優(yōu)
  109. 7.1 為效率而優(yōu)化與調(diào)優(yōu)
  110. 7.1.1 查看與設(shè)置Spark配置
  111. 7.1.2 為大型作業(yè)擴(kuò)展Spark
  112. 7.2 數(shù)據(jù)的緩存與持久化
  113. 7.2.1 DataFrame.cache()
  114. 7.2.2 DataFrame.persist()
  115. 7.2.3 什么時(shí)候應(yīng)該緩存和持久化
  116. 7.2.4 什么時(shí)候不應(yīng)該緩存和持久化
  117. 7.3 Spark的各種連接算法
  118. 7.3.1 廣播哈希連接
  119. 7.3.2 混洗排序合并連接
  120. 7.4 查看Spark UI
  121. 7.5 小結(jié)
  122. 第8章 結(jié)構(gòu)化流處理
  123. 8.1 Spark流處理引擎的演進(jìn)過程
  124. 8.1.1 以微型批模擬的流處理
  125. 8.1.2 從DStream獲取的經(jīng)驗(yàn)教訓(xùn)
  126. 8.1.3 Structured Streaming的設(shè)計(jì)哲學(xué)
  127. 8.2 Structured Streaming的編程模型
  128. 8.3 Structured Streaming查詢
  129. 8.3.1 五步定義流式查詢
  130. 8.3.2 探究活躍的流式查詢
  131. 8.3.3 失敗恢復(fù)與“精確一次”語(yǔ)義
  132. 8.3.4 監(jiān)控活躍的查詢
  133. 8.4 流式數(shù)據(jù)源與數(shù)據(jù)池
  134. 8.4.1 文件
  135. 8.4.2 Kafka
  136. 8.4.3 自定義流式數(shù)據(jù)源與數(shù)據(jù)池
  137. 8.5 數(shù)據(jù)轉(zhuǎn)化
  138. 8.5.1 增量執(zhí)行與流處理狀態(tài)
  139. 8.5.2 無狀態(tài)轉(zhuǎn)化操作
  140. 8.5.3 有狀態(tài)轉(zhuǎn)化操作
  141. 8.6 有狀態(tài)的流式聚合
  142. 8.6.1 不根據(jù)時(shí)間維度進(jìn)行聚合
  143. 8.6.2 使用事件時(shí)間窗口進(jìn)行聚合
  144. 8.7 流式連接
  145. 8.7.1 流與靜態(tài)表連接
  146. 8.7.2 流與流連接
  147. 8.8 任意的有狀態(tài)計(jì)算
  148. 8.8.1 用mapGroupsWithState()為任意有狀態(tài)操作建模
  149. 8.8.2 用超時(shí)管理不活躍的分組
  150. 8.8.3 用flatMapGroupsWithState()進(jìn)行通用操作226
  151. 8.9 性能調(diào)優(yōu)
  152. 8.10 小結(jié)
  153. 第9章 用Apache Spark構(gòu)建可靠的數(shù)據(jù)湖
  154. 9.1 最佳存儲(chǔ)解決方案的重要特點(diǎn)
  155. 9.2 數(shù)據(jù)庫(kù)
  156. 9.2.1 數(shù)據(jù)庫(kù)簡(jiǎn)介
  157. 9.2.2 用Spark讀寫數(shù)據(jù)庫(kù)
  158. 9.2.3 數(shù)據(jù)庫(kù)的不足之處
  159. 9.3 數(shù)據(jù)湖
  160. 9.3.1 數(shù)據(jù)湖簡(jiǎn)介
  161. 9.3.2 用Spark讀寫數(shù)據(jù)湖
  162. 9.3.3 數(shù)據(jù)湖的不足之處
  163. 9.4 湖倉(cāng)一體:下一代存儲(chǔ)解決方案
  164. 9.4.1 Apache Hudi
  165. 9.4.2 Apache Iceberg
  166. 9.4.3 Delta Lake
  167. 9.5 用Spark與Delta Lake構(gòu)建湖倉(cāng)一體的系統(tǒng)
  168. 9.5.1 為使用Delta Lake配置Spark
  169. 9.5.2 把數(shù)據(jù)加載到Delta Lake表中
  170. 9.5.3 把數(shù)據(jù)流加載到Delta Lake表中
  171. 9.5.4 寫數(shù)據(jù)時(shí)強(qiáng)化表結(jié)構(gòu)約束以防止數(shù)據(jù)損壞
  172. 9.5.5 修改表結(jié)構(gòu)以適應(yīng)數(shù)據(jù)變化
  173. 9.5.6 轉(zhuǎn)化已有數(shù)據(jù)
  174. 9.5.7 根據(jù)操作歷史審計(jì)數(shù)據(jù)變更
  175. 9.5.8 用時(shí)間旅行功能查詢表以前的快照數(shù)據(jù)
  176. 9.6 小結(jié)
  177. 第10章 用MLlib實(shí)現(xiàn)機(jī)器學(xué)習(xí)
  178. 10.1 什么是機(jī)器學(xué)習(xí)
  179. 10.1.1 監(jiān)督學(xué)習(xí)
  180. 10.1.2 無監(jiān)督學(xué)習(xí)
  181. 10.1.3 為什么將Spark用于機(jī)器學(xué)習(xí)
  182. 10.2 設(shè)計(jì)機(jī)器學(xué)習(xí)流水線
  183. 10.2.1 接入并探索數(shù)據(jù)
  184. 10.2.2 創(chuàng)建訓(xùn)練集與測(cè)試集
  185. 10.2.3 為轉(zhuǎn)化器準(zhǔn)備特征
  186. 10.2.4 理解線性回歸
  187. 10.2.5 用預(yù)估器構(gòu)建模型
  188. 10.2.6 創(chuàng)建流水線
  189. 10.2.7 評(píng)估模型
  190. 10.2.8 保存和加載模型
  191. 10.3 超參數(shù)調(diào)優(yōu)
  192. 10.3.1 基于樹的模型
  193. 10.3.2 k折交叉驗(yàn)證
  194. 10.3.3 優(yōu)化流水線
  195. 10.4 小結(jié)
  196. 第11章 用Apache Spark管理、部署與伸縮機(jī)器學(xué)習(xí)流水線
  197. 11.1 模型管理
  198. 11.2 用MLlib部署模型所用的選項(xiàng)
  199. 11.2.1 批處理
  200. 11.2.2 流處理
  201. 11.2.3 導(dǎo)出模型用于實(shí)時(shí)預(yù)測(cè)的模式
  202. 11.3 利用Spark使用非MLlib模型
  203. 11.3.1 Pandas UDF
  204. 11.3.2 將Spark用于分布式超參數(shù)調(diào)優(yōu)
  205. 11.4 小結(jié)
  206. 第12章 尾聲:Apache Spark 3.0
  207. 12.1 Spark內(nèi)核與Spark SQL
  208. 12.1.1 動(dòng)態(tài)分區(qū)裁剪
  209. 12.1.2 自適應(yīng)查詢執(zhí)行
  210. 12.1.3 SQL連接提示
  211. 12.1.4 Catalog插件API與DataSourceV2
  212. 12.1.5 可感知加速器的調(diào)度器
  213. 12.2 Structured Streaming
  214. 12.3 PySpark、Pandas UDF和Pandas函數(shù)API
  215. 12.3.1 重新設(shè)計(jì)的帶有Python類型提示的Pandas UDF
  216. 12.3.2 Pandas UDF中的迭代器支持
  217. 12.3.3 新的Pandas函數(shù)API
  218. 12.4 有改動(dòng)的功能
  219. 12.4.1 支持的與不推薦使用的編程語(yǔ)言
  220. 12.4.2 DataFrame API和Dataset API的改動(dòng)
  221. 12.4.3 DataFrame與SQL 的explain命令
  222. 12.5 小結(jié)
書名:Spark快速大數(shù)據(jù)分析(第2版)
譯者:王道遠(yuǎn) 譯
國(guó)內(nèi)出版社:人民郵電出版社
出版時(shí)間:2021年11月
頁(yè)數(shù):314
書號(hào):978-7-115-57601-9
原版書書名:Learning Spark, 2nd Edition
原版書出版商:O'Reilly Media
Jules S. Damji
 
朱爾斯·S. 達(dá)米吉(Jules S. Damji)是Databricks的高級(jí)開發(fā)人員,也是MLflow的貢獻(xiàn)者。
 
 
Brooke Wenig
 
布魯克·韋尼希(Brooke Wenig)是Databricks的機(jī)器學(xué)習(xí)專家。
 
 
Tathagata Das
 
泰瑟加塔·達(dá)斯(Tathagata Das)是Databricks的軟件工程師,也是Apache Spark PMC成員。
 
 
Denny Lee
 
丹尼·李(Denny Lee)是Databricks的軟件工程師。
 
 
購(gòu)買選項(xiàng)
定價(jià):119.80元
書號(hào):978-7-115-57601-9
出版社:人民郵電出版社