91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

 
Spark快速大數(shù)據(jù)分析
Spark快速大數(shù)據(jù)分析
Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia
王道遠 譯
出版時間:2015年09月
頁數(shù):210
如今,所有領域的數(shù)據(jù)量都在急劇增長。如何才能高效利用這些數(shù)據(jù)呢?本書介紹了開源集群計算系統(tǒng)Apache Spark,它可以加速數(shù)據(jù)分析的實現(xiàn)和運行。利用Spark,你可以用Python、Java以及Scala的簡易API來快速操控大規(guī)模數(shù)據(jù)集。
本書由Spark開發(fā)者編寫,可以讓數(shù)據(jù)科學家和工程師即刻上手。你能學到如何使用簡短的代碼實現(xiàn)復雜的并行作業(yè),還能了解從簡單的批處理作業(yè)到流處理以及機器學習等應用。
通過閱讀本書,你可以:
· 快速深入探索Spark功能,比如分布式數(shù)據(jù)集、內存式緩存,以及交互式shell;
· 充分利用Spark強大的內建庫,包括Spark SQL、Spark Streaming和MLlib;
· 使用統(tǒng)一的編程范式而不需要組合使用Hive、Hadoop、Mahout、Storm等工具;
· 學習如何部署交互式應用、批處理應用以及流式計算應用;
· 連接HDFS、Hive、JSON以及S3等數(shù)據(jù)源;
· 掌握數(shù)據(jù)分區(qū)和共享變量等進階知識。

  1. 推薦序
  2. 譯者序
  3. 前言 
  4. 第1章 Spark數(shù)據(jù)分析導論  
  5. 1.1 Spark是什么  
  6. 1.2 一個大一統(tǒng)的軟件?! ?
  7. 1.2.1 Spark Core  
  8. 1.2.2 Spark SQL  
  9. 1.2.3 Spark Streaming  
  10. 1.2.4 MLlib  
  11. 1.2.5 GraphX  
  12. 1.2.6 集群管理器  
  13. 1.3 Spark的用戶和用途  
  14. 1.3.1 數(shù)據(jù)科學任務  
  15. 1.3.2 數(shù)據(jù)處理應用  
  16. 1.4 Spark簡史  
  17. 1.5 Spark的版本和發(fā)布  
  18. 1.6 Spark的存儲層次  
  19. 第2章 Spark下載與入門  
  20. 2.1 下載Spark  
  21. 2.2 Spark中Python和Scala的shell  
  22. 2.3 Spark 核心概念簡介
  23. 2.4 獨立應用
  24. 2.4.1 初始化SparkContext  
  25. 2.4.2 構建獨立應用  
  26. 2.5 總結  
  27. 第3章 RDD編程  
  28. 3.1 RDD基礎  
  29. 3.2 創(chuàng)建RDD  
  30. 3.3 RDD操作
  31. 3.3.1 轉化操作
  32. 3.3.2 行動操作
  33. 3.3.3 惰性求值  
  34. 3.4 向Spark傳遞函數(shù)  
  35. 3.4.1 Python
  36. 3.4.2 Scala  
  37. 3.4.3 Java  
  38. 3.5 常見的轉化操作和行動操作  
  39. 3.5.1 基本RDD  
  40. 3.5.2 在不同RDD類型間轉換
  41. 3.6 持久化( 緩存)  
  42. 3.7 總結
  43. 第4章 鍵值對操作
  44. 4.1 動機
  45. 4.2 創(chuàng)建Pair RDD  
  46. 4.3 Pair RDD的轉化操作
  47. 4.3.1 聚合操作  
  48. 4.3.2 數(shù)據(jù)分組  
  49. 4.3.3 連接
  50. 4.3.4 數(shù)據(jù)排序
  51. 4.4 Pair RDD的行動操作
  52. 4.5 數(shù)據(jù)分區(qū)(進階)
  53. 4.5.1 獲取RDD的分區(qū)方式
  54. 4.5.2 從分區(qū)中獲益的操作
  55. 4.5.3 影響分區(qū)方式的操作
  56. 4.5.4 示例:PageRank  
  57. 4.5.5 自定義分區(qū)方式  
  58. 4.6 總結
  59. 第5章 數(shù)據(jù)讀取與保存
  60. 5.1 動機
  61. 5.2 文件格式
  62. 5.2.1 文本文件
  63. 5.2.2 JSON  
  64. 5.2.3 逗號分隔值與制表符分隔值
  65. 5.2.4 SequenceFile  
  66. 5.2.5 對象文件
  67. 5.2.6 Hadoop輸入輸出格式
  68. 5.2.7 文件壓縮  
  69. 5.3 文件系統(tǒng)  
  70. 5.3.1 本地/“常規(guī)”文件系統(tǒng) 
  71. 5.3.2 Amazon S3  
  72. 5.3.3 HDFS 
  73. 5.4 Spark SQL中的結構化數(shù)據(jù) 
  74. 5.4.1 Apache Hive  
  75. 5.4.2 JSON  
  76. 5.5 數(shù)據(jù)庫  
  77. 5.5.1 Java數(shù)據(jù)庫連接 
  78. 5.5.2 Cassandra 
  79. 5.5.3 HBase 
  80. 5.5.4 Elasticsearch 
  81. 5.6 總結
  82. 第6章 Spark編程進階
  83. 6.1 簡介
  84. 6.2 累加器
  85. 6.2.1 累加器與容錯性  
  86. 6.2.2 自定義累加器  
  87. 6.3 廣播變量  
  88. 6.4 基于分區(qū)進行操作 
  89. 6.5 與外部程序間的管道
  90. 6.6 數(shù)值RDD的操作
  91. 6.7 總結
  92. 第7章 在集群上運行Spark 
  93. 7.1 簡介
  94. 7.2 Spark運行時架構
  95. 7.2.1 驅動器節(jié)點
  96. 7.2.2 執(zhí)行器節(jié)點
  97. 7.2.3 集群管理器
  98. 7.2.4 啟動一個程序
  99. 7.2.5 小結
  100. 7.3 使用spark-submit部署應用
  101. 7.4 打包代碼與依賴 
  102. 7.4.1 使用Maven構建的用Java編寫的Spark應用 
  103. 7.4.2 使用sbt構建的用Scala編寫的Spark應用 
  104. 7.4.3 依賴沖突  
  105. 7.5 Spark應用內與應用間調度
  106. 7.6 集群管理器
  107. 7.6.1 獨立集群管理器 
  108. 7.6.2 Hadoop YARN  
  109. 7.6.3 Apache Mesos 
  110. 7.6.4 Amazon EC2  
  111. 7.7 選擇合適的集群管理器
  112. 7.8 總結
  113. 第8章 Spark調優(yōu)與調試
  114. 8.1 使用SparkConf配置Spark  
  115. 8.2 Spark執(zhí)行的組成部分:作業(yè)、任務和步驟  
  116. 8.3 查找信息
  117. 8.3.1 Spark網(wǎng)頁用戶界面
  118. 8.3.2 驅動器進程和執(zhí)行器進程的日志
  119. 8.4 關鍵性能考量
  120. 8.4.1 并行度
  121. 8.4.2 序列化格式
  122. 8.4.3 內存管理
  123. 8.4.4 硬件供給
  124. 8.5 總結
  125. 第9章 Spark SQL 
  126. 9.1 連接Spark SQL 
  127. 9.2 在應用中使用Spark SQL 
  128. 9.2.1 初始化Spark SQL  
  129. 9.2.2 基本查詢示例
  130. 9.2.3 SchemaRDD  
  131. 9.2.4 緩存
  132. 9.3 讀取和存儲數(shù)據(jù)
  133. 9.3.1 Apache Hive 
  134. 9.3.2 Parquet 
  135. 9.3.3 JSON 
  136. 9.3.4 基于RDD  
  137. 9.4 JDBC/ODBC服務器
  138. 9.4.1 使用Beeline 
  139. 9.4.2 長生命周期的表與查詢
  140. 9.5 用戶自定義函數(shù)  
  141. 9.5.1 Spark SQL UDF  
  142. 9.5.2 Hive UDF  
  143. 9.6 Spark SQL性能
  144. 9.7 總結
  145. 第10章 Spark Streaming
  146. 10.1 一個簡單的例子
  147. 10.2 架構與抽象
  148. 10.3 轉化操作
  149. 10.3.1 無狀態(tài)轉化操作
  150. 10.3.2 有狀態(tài)轉化操作
  151. 10.4 輸出操作
  152. 10.5 輸入源
  153. 10.5.1 核心數(shù)據(jù)源
  154. 10.5.2 附加數(shù)據(jù)源
  155. 10.5.3 多數(shù)據(jù)源與集群規(guī)模
  156. 10.6 24/7不間斷運行
  157. 10.6.1 檢查點機制
  158. 10.6.2 驅動器程序容錯
  159. 10.6.3 工作節(jié)點容錯
  160. 10.6.4 接收器容錯
  161. 10.6.5 處理保證
  162. 10.7 Streaming用戶界面
  163. 10.8 性能考量
  164. 10.8.1 批次和窗口大小
  165. 10.8.2 并行度
  166. 10.8.3 垃圾回收和內存使用
  167. 10.9 總結
  168. 第11章 基于MLlib的機器學習
  169. 11.1 概述
  170. 11.2 系統(tǒng)要求
  171. 11.3 機器學習基礎
  172. 11.4 數(shù)據(jù)類型
  173. 11.5 算法
  174. 11.5.1 特征提取
  175. 11.5.2 統(tǒng)計
  176. 11.5.3 分類與回歸
  177. 11.5.4 聚類
  178. 11.5.5 協(xié)同過濾與推薦
  179. 11.5.6 降維
  180. 11.5.7 模型評估
  181. 11.6 一些提示與性能考量
  182. 11.6.1 準備特征
  183. 11.6.2 配置算法
  184. 11.6.3 緩存RDD以重復使用
  185. 11.6.4 識別稀疏程度
  186. 11.6.5 并行度
  187. 11.7 流水線API  
  188. 11.8 總結
  189. 作者簡介
  190. 封面介紹
書名:Spark快速大數(shù)據(jù)分析
譯者:王道遠 譯
國內出版社:人民郵電出版社
出版時間:2015年09月
頁數(shù):210
書號:978-7-115-40309-4
原版書書名:Learning Spark
原版書出版商:O'Reilly Media
Holden Karau
 
Holden Karau是一位加拿大人,在IBM的Spark技術中心擔任軟件開發(fā)工程師。同時作為一位Spark committer,經(jīng)常在PySpark和機器學習方面進行貢獻。另外曾在多次國際會議中發(fā)表關于Spark的演講。
Databricks的軟件開發(fā)工程師,活躍于開源社區(qū)。她還著有《Spark快速數(shù)據(jù)處理》。
 
 
Andy Konwinski
 
Databricks聯(lián)合創(chuàng)始人,Apache Spark項目技術專家,還是Apache Mesos項目的聯(lián)合發(fā)起人。
 
 
Patrick Wendell
 
Databricks聯(lián)合創(chuàng)始人,也是Apache Spark項目技術專家。他還負責維護Spark核心引擎的幾個子系統(tǒng)。
 
 
Matei Zaharia
 
Matei Zaharia是斯坦福大學計算機科學系助理教授和Databricks的首席技術官。他于2009年在加州大學伯克利分校立了Spark項目,那時他是一名博士生,并繼續(xù)擔任pache Spark項目的副主席。Matei Zaharia還是Apache Mesos項目的聯(lián)合創(chuàng)始人,也 是Apache Hadoop項目的貢獻者。Matei Zaharia以他出色的研究工作獲得了2014年美國計算機學會博士論文獎(ACM Doctoral Dissertation Award)和VMware系統(tǒng)研究獎(VMware Systems Research Award)。
 
 
購買選項
定價:59.00元
書號:978-7-115-40309-4
出版社:人民郵電出版社