91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

 
Spark權(quán)威指南
Spark權(quán)威指南
Bill Chambers, Matei Zaharia
張巖峰, 王方京, 陳晶晶 譯
出版時(shí)間:2020年04月
頁數(shù):534
通過本書你將了解到如何使用、部署和維護(hù)Apache Spark開源集群計(jì)算框架。本書由Spark的創(chuàng)始人所撰寫,重點(diǎn)介紹Spark最新版本的新功能和新特點(diǎn)。本書將Spark功能分解為若干獨(dú)立主題來進(jìn)行全面介紹。
你將接觸到Spark的基本操作和常用函數(shù),還包括一種全新的構(gòu)建端到端流數(shù)據(jù)應(yīng)用的結(jié)構(gòu)化流處理API。開發(fā)人員和系統(tǒng)管理員將了解到Spark的監(jiān)控、調(diào)優(yōu),以及調(diào)試的原則和方法,并通過使用Spark提供的可擴(kuò)展機(jī)器學(xué)習(xí)庫MLlib來了解機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)技術(shù)。
● 大數(shù)據(jù)技術(shù)和Spark概述。
● 通過實(shí)例學(xué)習(xí)DataFrame、SQL、Dataset等Spark的核心API。
● 了解Spark的低級API實(shí)現(xiàn),包括RDD以及SQL和DataFrame的執(zhí)行過程。
● 了解Spark如何在集群上運(yùn)行。
● Spark集群和應(yīng)用程序的調(diào)試、監(jiān)控、和調(diào)優(yōu)。
● 學(xué)習(xí)Spark強(qiáng)大的流處理引擎——結(jié)構(gòu)化流處理。
● 學(xué)習(xí)MLlib并了解如何使用它解決分類、推薦,以及其他多種實(shí)際問題。
  1. 前言
  2. 第Ⅰ部分 大數(shù)據(jù)與Spark概述
  3. 第1章 Spark是什么?
  4. Apache Spark的設(shè)計(jì)哲學(xué)
  5. 背景:大數(shù)據(jù)問題
  6. Spark的歷史
  7. Spark的現(xiàn)狀和未來
  8. 運(yùn)行Spark
  9. 第2章 Spark淺析
  10. Spark的基本架構(gòu)
  11. Spark API的多語言支持
  12. Spark的API
  13. 啟動Spark
  14. 轉(zhuǎn)換操作
  15. 動作操作
  16. Spark用戶接口
  17. 一個(gè)完整的例子
  18. 小結(jié)
  19. 第3章 Spark工具集介紹
  20. 運(yùn)行生產(chǎn)應(yīng)用程序
  21. Dataset:類型安全的結(jié)構(gòu)化API
  22. 結(jié)構(gòu)化流處理
  23. 機(jī)器學(xué)習(xí)和高級數(shù)據(jù)分析
  24. 低級API
  25. SparkR
  26. Spark的生態(tài)系統(tǒng)和工具包
  27. 小結(jié)
  28. 第Ⅱ部分 結(jié)構(gòu)化API——DataFrame、SQL和Dataset
  29. 第4章 結(jié)構(gòu)化API概述
  30. DataFrame類型和Dataset類型
  31. Schema
  32. 結(jié)構(gòu)化Spark類型概述
  33. 結(jié)構(gòu)化API執(zhí)行概述
  34. 小結(jié)
  35. 第5章 基本的結(jié)構(gòu)化操作
  36. 模式
  37. 列和表達(dá)式
  38. 記錄和行
  39. DataFrame轉(zhuǎn)換操作
  40. 小結(jié)
  41. 第6章 處理不同的數(shù)據(jù)類型
  42. 在哪里查找API
  43. 轉(zhuǎn)換成Spark類型
  44. 處理布爾類型
  45. 處理數(shù)值類型
  46. 處理字符串類型
  47. 處理日期和時(shí)間戳類型
  48. 處理數(shù)據(jù)中的空值
  49. 處理JSON類型
  50. 用戶自定義函數(shù)
  51. 小結(jié)
  52. 第7章 聚合操作
  53. 聚合函數(shù)
  54. 分組
  55. window函數(shù)
  56. 分組集
  57. 用戶自定義的聚合函數(shù)
  58. 小結(jié)
  59. 第8章 連接操作
  60. 連接表達(dá)式
  61. 連接類型
  62. 內(nèi)連接
  63. 外連接
  64. 左外連接
  65. 右外連接
  66. 左半連接
  67. 左反連接
  68. 自然連接
  69. 交叉連接(笛卡爾連接)
  70. 連接操作常見問題與解決方案
  71. 小結(jié)
  72. 第9章 數(shù)據(jù)源
  73. 數(shù)據(jù)源API的結(jié)構(gòu)
  74. CSV 文件
  75. JSON 文件
  76. Parquet文件
  77. ORC文件
  78. SQL數(shù)據(jù)庫
  79. 文本文件
  80. 高級I/O概念
  81. 小結(jié)
  82. 第10章 Spark SQL
  83. 什么是SQL?
  84. 大數(shù)據(jù)和SQL:Apache Hive
  85. 大數(shù)據(jù)和SQL:Spark SQL
  86. 如何運(yùn)行Spark SQL查詢
  87. Catalog
  88. 視圖
  89. 數(shù)據(jù)庫
  90. 選擇語句
  91. 高級主題
  92. 其他功能
  93. 小結(jié)
  94. 第11章 Dataset
  95. 何時(shí)使用Dataset
  96. 創(chuàng)建Dataset
  97. 動作操作
  98. 轉(zhuǎn)換操作
  99. 連接
  100. 分組和聚合
  101. 小結(jié)
  102. 第Ⅲ部分 低級API
  103. 第12章 彈性分布式數(shù)據(jù)集
  104. 什么是低級API?
  105. 關(guān)于RDD
  106. 創(chuàng)建RDD
  107. 操作RDD
  108. 轉(zhuǎn)換操作
  109. 動作操作
  110. 保存文件
  111. 緩存
  112. 檢查點(diǎn)
  113. 通過pipe方法調(diào)用系統(tǒng)命令操作RDD
  114. 小結(jié)
  115. 第13章 高級RDD
  116. Key-Value基礎(chǔ) (Key-Value RDD)
  117. 聚合操作
  118. CoGroups
  119. 連接操作
  120. 控制分區(qū)
  121. 自定義序列化
  122. 小結(jié)
  123. 第14章 分布式共享變量
  124. 廣播變量
  125. 累加器
  126. 小結(jié)
  127. 第Ⅳ部分 生產(chǎn)與應(yīng)用
  128. 第15章 Spark如何在集群上運(yùn)行
  129. Spark應(yīng)用程序的體系結(jié)構(gòu)
  130. Spark應(yīng)用程序的生命周期(Spark外部)
  131. Spark應(yīng)用程序的生命周期(Spark內(nèi)部)
  132. 執(zhí)行細(xì)節(jié)
  133. 小結(jié)
  134. 第16章 開發(fā)Spark應(yīng)用程序
  135. 編寫Spark應(yīng)用程序
  136. 測試Spark應(yīng)用程序
  137. 開發(fā)過程
  138. 啟動應(yīng)用程序
  139. 配置應(yīng)用程序
  140. 小結(jié)
  141. 第17章 部署Spark
  142. 在哪里部署Spark集群
  143. 集群管理器
  144. 其他注意事項(xiàng)
  145. 小結(jié)
  146. 第18章 監(jiān)控與調(diào)試
  147. 監(jiān)控級別
  148. 要監(jiān)視什么
  149. Spark日志
  150. Spark UI
  151. 調(diào)試和Spark搶救方案
  152. 小結(jié)
  153. 第19章 性能調(diào)優(yōu)
  154. 間接性能優(yōu)化
  155. 直接性能優(yōu)化
  156. 小結(jié)
  157. 第Ⅴ部分 流處理
  158. 第20章 流處理基礎(chǔ)
  159. 什么是流處理?
  160. 流處理設(shè)計(jì)要點(diǎn)
  161. Spark的流處理API
  162. 小結(jié)
  163. 第21章 結(jié)構(gòu)化流處理基礎(chǔ)
  164. 結(jié)構(gòu)化流處理概述
  165. 核心概念
  166. 結(jié)構(gòu)化流處理實(shí)例
  167. 結(jié)構(gòu)化流上的轉(zhuǎn)換操作
  168. 聚合
  169. 輸入和輸出
  170. 流式Dataset API
  171. 小結(jié)
  172. 第22章 事件時(shí)間和有狀態(tài)處理
  173. 事件時(shí)間
  174. 有狀態(tài)處理
  175. 任意有狀態(tài)處理
  176. 事件時(shí)間基礎(chǔ)知識
  177. 事件時(shí)間的窗口
  178. 在流中刪除重復(fù)項(xiàng)
  179. 任意有狀態(tài)處理
  180. 小結(jié)
  181. 第23章 生產(chǎn)中的結(jié)構(gòu)化流處理
  182. 容錯和檢查點(diǎn)
  183. 更新應(yīng)用程序
  184. 度量和監(jiān)視
  185. 警報(bào)
  186. 使用流偵聽器進(jìn)行高級監(jiān)視
  187. 小結(jié)
  188. 第Ⅵ部分 高級分析與機(jī)器學(xué)習(xí)
  189. 第24章 高級分析和機(jī)器學(xué)習(xí)概覽
  190. 高級分析簡介
  191. Spark的高級分析工具包
  192. 高級MLlib概念
  193. MLlib的執(zhí)行
  194. 部署模式
  195. 小結(jié)
  196. 第25章 預(yù)處理和特征工程
  197. 根據(jù)應(yīng)用場景格式化模型
  198. 轉(zhuǎn)換器
  199. 預(yù)處理的估計(jì)器
  200. 高級轉(zhuǎn)換器
  201. 處理連續(xù)型特征
  202. 使用類別特征
  203. 文本數(shù)據(jù)轉(zhuǎn)換器
  204. 特征操作
  205. 特征選擇
  206. 高級主題
  207. 編寫自定義轉(zhuǎn)換器
  208. 小結(jié)
  209. 第26章 分類
  210. 應(yīng)用場景
  211. 分類的類型
  212. MLlib中的分類模型
  213. 邏輯回歸
  214. 決策樹
  215. 隨機(jī)森林和梯度提升樹
  216. 樸素貝葉斯
  217. 分類評估器和自動化模型校正
  218. One-vs-Rest分類
  219. 多層感知器
  220. 小結(jié)
  221. 第27章 回歸
  222. 應(yīng)用場景
  223. MLlib中的回歸模型
  224. 線性回歸
  225. 廣義線性回歸
  226. 決策樹
  227. 隨機(jī)森林和梯度提升樹
  228. 高級方法
  229. 評估器和自動化模型校正
  230. 度量標(biāo)準(zhǔn)
  231. 小結(jié)
  232. 第28章 推薦系統(tǒng)
  233. 應(yīng)用場景
  234. 基于交替最小二乘法的協(xié)同過濾
  235. 推薦系統(tǒng)的評估器
  236. 度量指標(biāo)
  237. 頻繁模式挖掘
  238. 小結(jié)
  239. 第29章 無監(jiān)督學(xué)習(xí)
  240. 應(yīng)用場景
  241. 模型的可擴(kuò)展性
  242. k-means
  243. 二分k-means
  244. 高斯混合模型
  245. LDA主題模型
  246. 小結(jié)
  247. 第30章 圖分析
  248. 構(gòu)建圖
  249. 查詢圖
  250. 模式發(fā)現(xiàn)
  251. 圖算法
  252. 小結(jié)
  253. 第31章 深度學(xué)習(xí)
  254. 什么是深度學(xué)習(xí)?
  255. 在Spark中使用深度學(xué)習(xí)
  256. 深度學(xué)習(xí)庫
  257. Deep Learning Pipelines的一個(gè)簡單示例
  258. 小結(jié)
  259. 第Ⅶ部分 生態(tài)系統(tǒng)
  260. 第32章 語言支持:Python(PySpark)和R(SparkR和Sparklyr)
  261. PySpark
  262. Spark中的R
  263. 小結(jié)
  264. 第33章 生態(tài)系統(tǒng)和社區(qū)
  265. Spark軟件包
  266. 社區(qū)
  267. 小結(jié)
書名:Spark權(quán)威指南
譯者:張巖峰, 王方京, 陳晶晶 譯
國內(nèi)出版社:中國電力出版社
出版時(shí)間:2020年04月
頁數(shù):534
書號:978-7-5198-4009-9
原版書書名:Spark: The Definitive Guide
原版書出版商:O'Reilly Media
Bill Chambers
 
Bill Chambers是Databricks的一名產(chǎn)品經(jīng)理, 致力于使用Spark和Databricks幫助客戶完成大規(guī)模數(shù)據(jù)分析的任務(wù)。
Bill還定期寫關(guān)于數(shù)據(jù)科學(xué)和大數(shù)據(jù)方面的博客, 并常在各種會議和見面會上展示產(chǎn)品。他擁有加州大學(xué)伯克利分校信息學(xué)院的信息系統(tǒng)碩士學(xué)位, 研究方向?yàn)閿?shù)據(jù)科學(xué)。
 
 
Matei Zaharia
 
Matei Zaharia是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系助理教授和Databricks的首席技術(shù)官。他于2009年在加州大學(xué)伯克利分校立了Spark項(xiàng)目,那時(shí)他是一名博士生,并繼續(xù)擔(dān)任pache Spark項(xiàng)目的副主席。Matei Zaharia還是Apache Mesos項(xiàng)目的聯(lián)合創(chuàng)始人,也 是Apache Hadoop項(xiàng)目的貢獻(xiàn)者。Matei Zaharia以他出色的研究工作獲得了2014年美國計(jì)算機(jī)學(xué)會博士論文獎(ACM Doctoral Dissertation Award)和VMware系統(tǒng)研究獎(VMware Systems Research Award)。
 
 
本書封面上的動物是燕尾鳶(學(xué)名Elanoides forficatus)。這些猛禽在巴西南部到美國東南部的林地和濕地地區(qū)被發(fā)現(xiàn), 它們以小型爬行動物、兩棲動物和哺乳動物,以及大型昆蟲為生,在水源附近筑巢。
燕子鳶往往有20~27英寸長, 在空中滑行時(shí)臂展可達(dá)4英尺, 使用鋒利的叉狀尾巴轉(zhuǎn)向。 它們的羽毛黑白相間,形成鮮明的對比。它們大部分時(shí)間是在飛行,甚至貼近水面喝水也不會在陸地上停留。
在猛禽動物中,燕尾鳶屬于群居動物, 通常以大型群落的形式聚集在一起或棲息過夜。在遷移過程中, 它們可以以成百上千的規(guī)模列隊(duì)飛行。
O’Reilly系列叢書封面上的許多動物都瀕臨滅絕,所以它們對這個(gè)世界來說都很重要。要了解有關(guān)如何提供幫助的更多信息,請?jiān)L問animals.oreilly.com。
封面圖片來自Lydekker的The Royal Natural History。
購買選項(xiàng)
定價(jià):128.00元
書號:978-7-5198-4009-9
出版社:中國電力出版社