91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

 
大規(guī)模數(shù)據(jù)分析和建模:基于Spark與R
大規(guī)模數(shù)據(jù)分析和建模:基于Spark與R
Javier Luraschi, Kevin Kuo, Edgar Ruiz
魏博 譯
出版時間:2020年07月
頁數(shù):260
“從編寫了流行的sparklyr庫的發(fā)明者身上,學習如何在R項目中利用分布式計算的力量。這是成為R高級用戶的進階之道?!?br /> ——Bryan Jonas
美國軍事科學院數(shù)學系講師

如果你和大多數(shù)R語言用戶一樣,那你肯定喜歡統(tǒng)計學,也能夠深入理解統(tǒng)計學。但是隨著組織內(nèi)部不斷收集大量數(shù)據(jù),添加Apache Spark這類工具就變得理所當然。在本書中,數(shù)據(jù)科學家和使用大規(guī)模數(shù)據(jù)應(yīng)用的專業(yè)人員會學到如何使用Spark和R解決大數(shù)據(jù)和大計算問題。
作者會展示如何將Spark和R結(jié)合起來進行大數(shù)據(jù)分析。本書涵蓋相關(guān)的數(shù)據(jù)科學話題、聚類計算,以及高級用戶會感興趣的問題。
● 在Apache Spark環(huán)境下,使用R來分析、探索、轉(zhuǎn)換、可視化數(shù)據(jù)。
● 構(gòu)建統(tǒng)計模型來提取信息并預測輸出,自動化生產(chǎn)級的工作流程。
● 使用分布式計算技術(shù)在多臺機器上進行分析和建模。
● 輕松使用Spark處理多個數(shù)據(jù)源和格式的大規(guī)模數(shù)據(jù)。
● 學習其他用于大規(guī)模圖處理、地理空間分析和基因組學分析的建??蚣堋?br /> ● 深入高級話題,包括定制轉(zhuǎn)換、實時數(shù)據(jù)處理和創(chuàng)建定制化Spark擴展。
  1. 序言
  2. 前言
  3. 第1章 引言
  4. 1.1 概述
  5. 1.2 Hadoop
  6. 1.3 Spark
  7. 1.4 R
  8. 1.5 sparklyr
  9. 1.6 小結(jié)
  10. 第2章 開始
  11. 2.1 概述
  12. 2.2 預備操作
  13. 2.2.1 安裝sparklyr
  14. 2.2.2 安裝Spark
  15. 2.3 連接
  16. 2.4 使用Spark
  17. 2.4.1 網(wǎng)絡(luò)接口
  18. 2.4.2 分析
  19. 2.4.3 建模
  20. 2.4.4 數(shù)據(jù)
  21. 2.4.5 擴展
  22. 2.4.6 分布式R
  23. 2.4.7 流式數(shù)據(jù)
  24. 2.4.8 日志
  25. 2.5 斷開連接
  26. 2.6 使用RStudio
  27. 2.7 資源
  28. 2.8 小結(jié)
  29. 第3章 分析
  30. 3.1 概述
  31. 3.2 數(shù)據(jù)導入
  32. 3.3 數(shù)據(jù)整理
  33. 3.3.1 內(nèi)置函數(shù)
  34. 3.3.2 相關(guān)性
  35. 3.4 可視化
  36. 3.4.1 使用ggplot2
  37. 3.4.2 使用dbplot
  38. 3.5 建模
  39. 3.6 溝通
  40. 3.7 小結(jié)
  41. 第4章 建模
  42. 4.1 概述
  43. 4.2 探索性數(shù)據(jù)分析
  44. 4.3 特征工程
  45. 4.4 監(jiān)督式學習
  46. 4.4.1 廣義線性回歸
  47. 4.4.2 其他模型
  48. 4.5 非監(jiān)督式學習
  49. 4.5.1 數(shù)據(jù)準備
  50. 4.5.2 主題建模
  51. 4.6 小結(jié)
  52. 第5章 管道操作
  53. 5.1 概述
  54. 5.2 創(chuàng)建工作
  55. 5.3 用例
  56. 5.4 操作模式
  57. 5.5 交互性
  58. 5.6 部署
  59. 5.6.1 批打分
  60. 5.6.2 實時打分
  61. 5.7 小結(jié)
  62. 第6章 集群
  63. 6.1 概述
  64. 6.2 本地化
  65. 6.2.1 管理器
  66. 6.2.2 發(fā)行版
  67. 6.3 云端
  68. 6.3.1 亞馬遜
  69. 6.3.2 Databricks
  70. 6.3.3 谷歌
  71. 6.3.4 IBM
  72. 6.3.5 微軟
  73. 6.3.6 Qubole
  74. 6.4 Kubernetes
  75. 6.5 工具
  76. 6.5.1 RStudio
  77. 6.5.2 Jupyter
  78. 6.5.3 Livy
  79. 6.6 小結(jié)
  80. 第7章 連接
  81. 7.1 概述
  82. 7.1.1 邊緣節(jié)點
  83. 7.1.2 Spark主目錄
  84. 7.2 本地模式
  85. 7.3 單機模式
  86. 7.4 YARN
  87. 7.4.1 YARN客戶端
  88. 7.4.2 YARN集
  89. 7.5 Livy
  90. 7.6 Mesos
  91. 7.7 Kubernetes
  92. 7.8 云模式
  93. 7.9 批量模式
  94. 7.10 工具
  95. 7.11 多次連接
  96. 7.12 故障排除
  97. 7.12.1 記錄日志
  98. 7.12.2 Spark Submit
  99. 7.12.3 Windows
  100. 7.13 小結(jié)
  101. 第8章 數(shù)據(jù)
  102. 8.1 概述
  103. 8.2 讀取數(shù)據(jù)
  104. 8.2.1 路徑
  105. 8.2.2 模式
  106. 8.2.3 內(nèi)存
  107. 8.2.4 列
  108. 8.3 寫入數(shù)據(jù)
  109. 8.4 復制數(shù)據(jù)
  110. 8.5 文件格式
  111. 8.5.1 CSV
  112. 8.5.2 JSON
  113. 8.5.3 Parquet
  114. 8.5.4 其他
  115. 8.6 文件系統(tǒng)
  116. 8.7 存儲系統(tǒng)
  117. 8.7.1 Hive
  118. 8.7.2 Cassandra
  119. 8.7.3 JDBC
  120. 8.8 小結(jié)
  121. 第9章 調(diào)試
  122. 9.1 概述
  123. 9.1.1 計算圖
  124. 9.1.2 時間線
  125. 9.2 配置
  126. 9.2.1 連接設(shè)置
  127. 9.2.2 提交設(shè)置
  128. 9.2.3 運行時設(shè)置
  129. 9.2.4 sparklyr設(shè)置
  130. 9.3 分區(qū)
  131. 9.3.1 隱式分區(qū)
  132. 9.3.2 顯式分區(qū)
  133. 9.4 緩存
  134. 9.4.1 檢查點
  135. 9.4.2 內(nèi)存
  136. 9.5 重洗
  137. 9.6 序列化
  138. 9.7 配置文件
  139. 9.8 小結(jié)
  140. 第10章 擴展
  141. 10.1 概述
  142. 10.2 H2O
  143. 10.3 圖模型
  144. 10.4 XGBoost
  145. 10.5 深度學習
  146. 10.6 基因組學
  147. 10.7 空間數(shù)據(jù)
  148. 10.8 故障排除
  149. 10.9 小結(jié)
  150. 第11章 分布式R
  151. 11.1 概述
  152. 11.2 用例
  153. 11.2.1 定制解析器
  154. 11.2.2 分區(qū)建模
  155. 11.2.3 網(wǎng)格搜索
  156. 11.2.4 Web API
  157. 11.2.5 模擬
  158. 11.3 分區(qū)
  159. 11.4 分組
  160. 11.5 列
  161. 11.6 context參數(shù)
  162. 11.7 函數(shù)
  163. 11.8 程序包
  164. 11.9 集群需求
  165. 11.9.1 安裝R
  166. 11.9.2 Apache Arrow
  167. 11.10 故障排除
  168. 11.10.1 工作節(jié)點日志
  169. 11.10.2 解決超時
  170. 11.10.3 檢查分區(qū)
  171. 11.10.4 調(diào)試工作節(jié)點
  172. 11.11 小結(jié)
  173. 第12章 數(shù)據(jù)流
  174. 12.1 概述
  175. 12.2 轉(zhuǎn)換
  176. 12.2.1 分析
  177. 12.2.2 建模
  178. 12.2.3 管道
  179. 12.2.4 分布式R
  180. 12.3 Kafka
  181. 12.4 Shiny
  182. 12.5 小結(jié)
  183. 第13章 社區(qū)貢獻
  184. 13.1 概述
  185. 13.2 Spark API
  186. 13.3 Spark擴展
  187. 13.4 使用Scala代碼
  188. 13.5 小結(jié)
  189. 附錄A 補充參考代碼
書名:大規(guī)模數(shù)據(jù)分析和建模:基于Spark與R
譯者:魏博 譯
國內(nèi)出版社:機械工業(yè)出版社
出版時間:2020年07月
頁數(shù):260
書號:978-7-111-66101-6
原版書書名:Mastering Spark with R
原版書出版商:O'Reilly Media
Javier Luraschi
 
Javier Luraschi是諸多大規(guī)模數(shù)據(jù)科學庫的發(fā)明者,包括sparklyr、r2d3、pins和cloudml。
 
 
Kevin Kuo
 
Kevin Kuo構(gòu)建了機器學習庫,并領(lǐng)導了Kasa AI的開放保險研究。
 
 
Edgar Ruiz
 
Edgar Ruiz構(gòu)建了企業(yè)級的數(shù)據(jù)解決方案工具,包括dbplot、tidypredict和modeldb。
 
 
購買選項
定價:89.00元
書號:978-7-111-66101-6
出版社:機械工業(yè)出版社