91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

 
Spark大數(shù)據(jù)算法
Spark大數(shù)據(jù)算法
Mahmoud Parsian
蘇金國 譯
出版時間:2024年05月
頁數(shù):485
“如果你希望采用一種可伸縮的方式實現(xiàn)現(xiàn)有算法,或者正在使用Spark開發(fā)新的自定義算法,這本書將是一個絕好的資源?!?br /> ——Matei Zaharia
斯坦福大學(xué)計算機科學(xué)副教授;Databricks首席技術(shù)專家;Apache Spark創(chuàng)始人

Apache Spark不僅速度快,易于使用,還提供了豐富的分析能力和多語言支持,掌握這個集群計算框架的實用知識已經(jīng)成為數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家的必備技能。利用這本實用指南,想要了解Spark的人能從中學(xué)到實用的PySpark算法和示例。
每一章中,本書作者會向你展示如何用一組Spark轉(zhuǎn)換和算法解決一個數(shù)據(jù)問題。你會了解如何應(yīng)對涉及ETL、設(shè)計模式、機器學(xué)習(xí)算法、數(shù)據(jù)分區(qū)和基因組分析的問題。每個技巧都提供了利用PySpark驅(qū)動器的PySpark算法和shell腳本。
利用這本書,你將學(xué)習(xí)以下內(nèi)容:
● 了解如何選擇Spark轉(zhuǎn)換實現(xiàn)優(yōu)化的解決方案。
● 探索強大的轉(zhuǎn)換和歸約,包括reduceByKey()、combineByKey()和mapPartitions()。
● 理解數(shù)據(jù)分區(qū)以實現(xiàn)優(yōu)化查詢。
● 使用PySpark設(shè)計模式構(gòu)建和應(yīng)用模型。
● 對圖數(shù)據(jù)應(yīng)用motif查找算法。
● 使用GraphFrames API分析圖數(shù)據(jù)。
● 對臨床醫(yī)學(xué)和基因組數(shù)據(jù)應(yīng)用PySpark算法。
● 學(xué)習(xí)如何在ML算法中使用和應(yīng)用特征工程。
● 了解并使用實用的數(shù)據(jù)設(shè)計模式。
  1. 前言
  2. 第I部分 基礎(chǔ)知識
  3. 第1章 Spark和PySpark簡介
  4. 1.1 為什么使用Spark完成數(shù)據(jù)分析
  5. 1.1.1 Spark生態(tài)系統(tǒng)
  6. 1.1.2 Spark架構(gòu)
  7. 1.2 PySpark的能力
  8. 1.3 Spark數(shù)據(jù)抽象
  9. 1.3.1 RDD示例
  10. 1.3.2 Spark RDD操作
  11. 1.3.3 DataFrame 示例
  12. 1.4 使用PySpark Shell
  13. 1.4.1 啟動PySpark Shell
  14. 1.4.2 由集合創(chuàng)建RDD
  15. 1.4.3 聚合和合并鍵的值
  16. 1.4.4 過濾RDD的元素
  17. 1.4.5 對類似的鍵分組
  18. 1.4.6 聚合類似鍵的值
  19. 1.5 使用DataFrame的ETL示例
  20. 1.5.1 抽取
  21. 1.5.2 轉(zhuǎn)換
  22. 1.5.3 加載
  23. 1.6 小結(jié)
  24. 第2章 轉(zhuǎn)換實戰(zhàn)
  25. 2.1 DNA堿基計數(shù)示例
  26. 2.1.1 DNA堿基計數(shù)問題
  27. 2.1.2 FASTA格式
  28. 2.1.3 示例數(shù)據(jù)
  29. 2.2 DNA堿基計數(shù)解決方案1
  30. 2.2.1 步驟1:由輸入創(chuàng)建一個RDD[String]
  31. 2.2.2 步驟2:定義一個映射器函數(shù)
  32. 2.2.3 步驟3:得出DNA字母頻度
  33. 2.2.4 解決方案1的優(yōu)缺點
  34. 2.3 DNA堿基計數(shù)解決方案2
  35. 2.3.1 步驟1:由輸入創(chuàng)建一個RDD[String]
  36. 2.3.2 步驟2:定義一個映射器函數(shù)
  37. 2.3.3 步驟3:得出DNA字母頻度
  38. 2.3.4 解決方案2的優(yōu)缺點
  39. 2.4 DNA堿基計數(shù)解決方案3
  40. 2.4.1 mapPartitions()轉(zhuǎn)換
  41. 2.4.2 步驟1:由輸入創(chuàng)建一個RDD[String]
  42. 2.4.3 步驟2:定義函數(shù)處理一個分區(qū)
  43. 2.4.4 步驟3:對各個分區(qū)應(yīng)用自定義函數(shù)
  44. 2.4.5 解決方案3的優(yōu)缺點
  45. 2.5 小結(jié)
  46. 第3章 映射器轉(zhuǎn)換
  47. 3.1 數(shù)據(jù)抽象和映射器
  48. 3.2 轉(zhuǎn)換是什么?
  49. 3.2.1 懶轉(zhuǎn)換
  50. 3.2.2 map()轉(zhuǎn)換
  51. 3.2.3 DataFrame映射器
  52. 3.3 flatMap()轉(zhuǎn)換
  53. 3.3.1 map()與flatMap()
  54. 3.3.2 對DataFrame應(yīng)用flatMap()
  55. 3.4 mapValues()轉(zhuǎn)換
  56. 3.5 flatMapValues()轉(zhuǎn)換
  57. 3.6 mapPartitions()轉(zhuǎn)換
  58. 3.6.1 處理空分區(qū)
  59. 3.6.2 優(yōu)缺點
  60. 3.6.3 DataFrame和mapPartitions()轉(zhuǎn)換
  61. 3.7 小結(jié)
  62. 第4章 Spark中的歸約
  63. 4.1 創(chuàng)建(鍵,值)對RDD
  64. 4.2 歸約轉(zhuǎn)換
  65. 4.3 Spark的歸約
  66. 4.4 簡單熱身示例
  67. 4.4.1 使用reduceByKey()的解決方案
  68. 4.4.2 使用groupByKey()的解決方案
  69. 4.4.3 使用aggregateByKey()的解決方案
  70. 4.4.4 使用combineByKey()的解決方案
  71. 4.5 什么是Monoid?
  72. 4.6 電影問題
  73. 4.6.1 要分析的輸入數(shù)據(jù)集
  74. 4.6.2 aggregateByKey()轉(zhuǎn)換
  75. 4.6.3 使用aggregateByKey()的第一個解決方案
  76. 4.6.4 使用aggregateByKey()的第二個解決方案
  77. 4.6.5 使用groupByKey()的完整PySpark解決方案
  78. 4.6.6 使用reduceByKey()的完整PySpark解決方案
  79. 4.6.7 使用combineByKey()的完整PySpark解決方案
  80. 4.7 歸約中的洗牌步驟
  81. 4.7.1 groupByKey()的洗牌步驟
  82. 4.7.2 reduceByKey()的洗牌步驟
  83. 4.8 小結(jié)
  84. 第II部分 處理數(shù)據(jù)
  85. 第5章 數(shù)據(jù)分區(qū)
  86. 5.1 分區(qū)簡介
  87. 5.2 管理分區(qū)
  88. 5.2.1 默認分區(qū)
  89. 5.2.2 顯式分區(qū)
  90. 5.3 為SQL查詢完成物理分區(qū)
  91. 5.4 Spark中的數(shù)據(jù)物理分區(qū)
  92. 5.4.1 分區(qū)為文本格式
  93. 5.4.2 分區(qū)為Parquet格式
  94. 5.5 如何查詢分區(qū)數(shù)據(jù)
  95. 5.6 小結(jié)
  96. 第6章 圖算法
  97. 6.1 圖介紹
  98. 6.2 GraphFrames API
  99. 6.2.1 如何使用GraphFrames
  100. 6.2.2 GraphFrames函數(shù)和屬性
  101. 6.3 GraphFrames算法
  102. 6.3.1 查找三角形
  103. 6.3.2 Motif查找
  104. 6.4 實際示例
  105. 6.4.1 基因分析
  106. 6.4.2 社交推薦
  107. 6.4.3 Facebook朋友圈
  108. 6.4.4 連通分量
  109. 6.4.5 分析航班數(shù)據(jù)
  110. 6.5 小結(jié)
  111. 第7章 與外部數(shù)據(jù)源交互
  112. 7.1 關(guān)系數(shù)據(jù)庫
  113. 7.1.1 讀取數(shù)據(jù)庫
  114. 7.1.2 將DataFrame寫入數(shù)據(jù)庫
  115. 7.2 讀取文本文件
  116. 7.3 讀寫CSV文件
  117. 7.3.1 讀CSV文件
  118. 7.3.2 寫CSV文件
  119. 7.4 讀寫JSON文件
  120. 7.4.1 讀JSON文件
  121. 7.4.2 寫JSON文件
  122. 7.5 讀寫Amazon S3
  123. 7.5.1 從Amazon S3讀取
  124. 7.5.2 寫入Amazon S3
  125. 7.6 讀寫Hadoop文件
  126. 7.6.1 讀Hadoop文本文件
  127. 7.6.2 寫Hadoop文本文件
  128. 7.6.3 讀寫HDFS SequenceFile
  129. 7.7 讀寫Parquet文件
  130. 7.7.1 寫Parquet文件
  131. 7.7.2 讀Parquet文件
  132. 7.8 讀寫Avro文件
  133. 7.8.1 讀Avro文件
  134. 7.8.2 寫Avro文件
  135. 7.9 讀寫MS SQL Server
  136. 7.9.1 寫MS SQL Server
  137. 7.9.2 讀MS SQL Server
  138. 7.10 讀取圖像文件
  139. 7.11 小結(jié)
  140. 第8章 排名算法
  141. 8.1 秩序乘積
  142. 8.1.1 計算秩序乘積
  143. 8.1.2 秩序乘積描述
  144. 8.1.3 秩序乘積示例
  145. 8.1.4 PySpark解決方案
  146. 8.2 PageRank
  147. 8.2.1 PageRank的迭代計算
  148. 8.2.2 使用RDD的自定義PySpark PageRank算法實現(xiàn)
  149. 8.2.3 使用鄰接矩陣的自定義PySpark PageRank算法實現(xiàn)
  150. 8.2.4 使用GraphFrames實現(xiàn)的PageRank
  151. 8.3 小結(jié)
  152. 第III部分 數(shù)據(jù)設(shè)計模式
  153. 第9章 經(jīng)典數(shù)據(jù)設(shè)計模式
  154. 9.1 輸入–映射–輸出
  155. 9.1.1 RDD解決方案
  156. 9.1.2 DataFrame解決方案
  157. 9.1.3 扁平映射器功能
  158. 9.2 輸入–過濾–輸出
  159. 9.2.1 RDD解決方案
  160. 9.2.2 DataFrame解決方案
  161. 9.2.3 DataFrame過濾器
  162. 9.3 輸入–映射–歸約–輸出
  163. 9.3.1 RDD解決方案
  164. 9.3.2 DataFrame解決方案
  165. 9.4 輸入–多重–映射–歸約–輸出
  166. 9.4.1 RDD解決方案
  167. 9.4.2 DataFrame解決方案
  168. 9.5 輸入–映射–組合器–歸約–輸出
  169. 9.6 輸入–映射分區(qū)–歸約–輸出
  170. 9.7 倒排索引
  171. 9.7.1 問題陳述
  172. 9.7.2 輸入
  173. 9.7.3 輸出
  174. 9.7.4 PySpark解決方案
  175. 9.8 小結(jié)
  176. 第10章 實用數(shù)據(jù)設(shè)計模式
  177. 10.1 映射器內(nèi)部組合
  178. 10.1.1 基本MapReduce算法
  179. 10.1.2 按記錄映射器內(nèi)部組合
  180. 10.1.3 按分區(qū)映射器內(nèi)部組合
  181. 10.2 Top-10
  182. 10.2.1 Top-N形式化描述
  183. 10.2.2 PySpark解決方案
  184. 10.2.3 查找Bottom 10
  185. 10.3 MinMax
  186. 10.3.1 解決方案1:傳統(tǒng)MapReduce
  187. 10.3.2 解決方案2:排序
  188. 10.3.3 解決方案3:Spark的mapPartitions()
  189. 10.4 復(fù)合模式和Monoid
  190. 10.4.1 Monoid
  191. 10.4.2 Monoid和非Monoid示例
  192. 10.4.3 非Monoid MapReduce示例
  193. 10.4.4 Monoid MapReduce示例
  194. 10.4.5 Monoid均值計算的PySpark實現(xiàn)
  195. 10.4.6 函子和幺半群
  196. 10.4.7 幺半群使用小結(jié)
  197. 10.5 分箱
  198. 10.6 排序
  199. 10.7 小結(jié)
  200. 第11章 連接設(shè)計模式
  201. 11.1 連接操作介紹
  202. 11.2 MapReduce中的連接
  203. 11.2.1 映射階段
  204. 11.2.2 歸約器階段
  205. 11.2.3 PySpark實現(xiàn)
  206. 11.3 使用RDD的映射端連接
  207. 11.4 使用DataFrame的映射端連接
  208. 11.4.1 步驟1:創(chuàng)建Airports緩存
  209. 11.4.2 步驟2:創(chuàng)建Airlines緩存
  210. 11.4.3 步驟3:創(chuàng)建事實表
  211. 11.4.4 步驟4:應(yīng)用映射端連接
  212. 11.5 使用Bloom過濾器的高效連接
  213. 11.5.1 Bloom過濾器
  214. 11.5.2 一個簡單的Bloom過濾器示例
  215. 11.5.3 Python中的Bloom過濾器
  216. 11.5.4 PySpark中使用Bloom過濾器
  217. 11.6 小結(jié)
  218. 第12章 PySpark中的特征工程
  219. 12.1 特征工程介紹
  220. 12.2 增加新特征
  221. 12.3 應(yīng)用UDF
  222. 12.4 創(chuàng)建管道
  223. 12.5 二值化數(shù)據(jù)
  224. 12.6 填充
  225. 12.7 分詞
  226. 12.7.1 Tokenizer
  227. 12.7.2 RegexTokenizer
  228. 12.7.3 管道分詞
  229. 12.8 標(biāo)準(zhǔn)化
  230. 12.9 歸一化
  231. 12.9.1 使用管道縮放一列
  232. 12.9.2 在多列上使用 MinMaxScaler
  233. 12.9.3 使用Normalizer歸一化
  234. 12.10 字符串索引
  235. 12.10.1 對單列應(yīng)用StringIndexer
  236. 12.10.2 對多列應(yīng)用StringIndexer
  237. 12.11 向量組合
  238. 12.12 分桶
  239. 12.12.1 Bucketizer
  240. 12.12.2 QuantileDiscretizer
  241. 12.13 對數(shù)轉(zhuǎn)換
  242. 12.14 獨熱編碼
  243. 12.15 TF-IDF
  244. 12.16 FeatureHasher
  245. 12.17 SQLTransformer
  246. 12.18 小結(jié)
書名:Spark大數(shù)據(jù)算法
作者:Mahmoud Parsian
譯者:蘇金國 譯
國內(nèi)出版社:中國電力出版社
出版時間:2024年05月
頁數(shù):485
書號:978-7-5198-8772-8
原版書書名:Data Algorithms with Spark
原版書出版商:O'Reilly Media
Mahmoud Parsian
 
Mahmoud Parsian,計算機科學(xué)博士,是一位熱衷于實踐的軟件專家,作為開發(fā)人員、設(shè)計人員、架構(gòu)師和作者,他有30多年的軟件開發(fā)經(jīng)驗。目前領(lǐng)導(dǎo)著Illumina的大數(shù)據(jù)團隊,在過去15年間,他主要從事Java (服務(wù)器端)、數(shù)據(jù)庫、MapReduce和分布式計算的有關(guān)工作。Mahmoud還著有《JDBC Recipes》和《JDBC Metadata, MySQL,and Oracle Recipes》等書(均由Apress出版)。
 
 
本書的封面動物是一只棘尾雷雀(學(xué)名:Aphrastura spinicauda)。這種小型鳥常見于智利和阿根廷的溫帶森林以及亞熱帶干草地和灌木叢。棘尾雷雀有黑色的頭部和喙,頸部和肚子為白色,還有延伸到脖子后面的橙色的“眉毛”。它們的上覆羽為黑色,頂端白色,翅飛羽卻是紅橙色,帶淺棕色條紋。棘尾雷雀全身以及獨特的尾巴混合了黑色、棕色和鐵銹色羽毛,并有狹窄突出的尾羽,這也是它得名“棘尾”的原因。
這些鳥只有13~14厘米長,重約10~13克,不到半盎司!它們非常活躍,充滿好奇,而且喜歡鳴叫,在樹葉、苔蘚、地衣、樹枝和樹干中覓食,偶爾也會在地面上尋找食物。它們在南半球春季和夏季(10月到下一年的1月)產(chǎn)卵,在樹干、縫隙甚至屋頂下筑巢。雌鳥會在由藤蔓、樹根、草和羽毛搭建的巢中產(chǎn)下3~4枚卵,雄鳥和雌鳥共同孵化兩周左右。與大多數(shù)鳥類不同,棘尾雷雀不遷徙,但它們是一夫一妻制,通常成對出現(xiàn),或者常常組成不超過15只鳥的小群體。棘尾雷雀的數(shù)量很穩(wěn)定,被國際自然保護聯(lián)盟認為是最不受關(guān)注的物種。O’Reilly封面上的很多動物都瀕臨滅絕;所有這些動物對我們的世界都很重要。
購買選項
定價:148.00元
書號:978-7-5198-8772-8
出版社:中國電力出版社