91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

 
Spark高級數(shù)據(jù)分析
Spark高級數(shù)據(jù)分析
Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
龔少成 譯
出版時間:2015年11月
頁數(shù):226
本書是使用Spark進行大規(guī)模數(shù)據(jù)分析的實戰(zhàn)寶典,由大數(shù)據(jù)公司Cloudera的數(shù)據(jù)科學家撰寫。四位作者首先結合數(shù)據(jù)科學和大數(shù)據(jù)分析的廣闊背景講解了Spark,然后介紹了用Spark和Scala進行數(shù)據(jù)處理的基礎知識,接著討論了如何將Spark用于機器學習,同時介紹了常見應用中幾個常用的算法。此外還收集了一些更加新穎的應用,比如通過文本隱含語義關系來查詢Wikipedia或分析基因數(shù)據(jù)。
本書適合從事大數(shù)據(jù)分析的各大類專業(yè)人員閱讀。
  1. 推薦序
  2. 譯者序
  3. 前言  
  4. 第1章 大數(shù)據(jù)分析  
  5. 1.1 數(shù)據(jù)科學面臨的挑戰(zhàn)  
  6. 1.2 認識Apache Spark  
  7. 1.3 關于本書  
  8. 第2章 用Scala和Spark進行數(shù)據(jù)分析  
  9. 2.1 數(shù)據(jù)科學家的Scala  
  10. 2.2 Spark 編程模型  
  11. 2.3 記錄關聯(lián)問題  
  12. 2.4 小試牛刀:Spark shell和SparkContext 
  13. 2.5 把數(shù)據(jù)從集群上獲取到客戶端
  14. 2.6 把代碼從客戶端發(fā)送到集群
  15. 2.7 用元組和case class對數(shù)據(jù)進行結構化
  16. 2.8 聚合
  17. 2.9 創(chuàng)建直方圖
  18. 2.10 連續(xù)變量的概要統(tǒng)計
  19. 2.11 為計算概要信息創(chuàng)建可重用的代碼
  20. 2.12 變量的選擇和評分簡介
  21. 2.13 小結
  22. 第3章 音樂推薦和Audioscrobbler數(shù)據(jù)集
  23. 3.1 數(shù)據(jù)集
  24. 3.2 交替最小二乘推薦算法
  25. 3.3 準備數(shù)據(jù)
  26. 3.4 構建第一個模型
  27. 3.5 逐個檢查推薦結果
  28. 3.6 評價推薦質(zhì)量
  29. 3.7 計算
  30. 3.8 選擇超參數(shù)
  31. 3.9 產(chǎn)生推薦
  32. 3.10 小結
  33. 第4章  用決策樹算法預測森林植被
  34. 4.1 回歸簡介
  35. 4.2 向量和特征
  36. 4.3 樣本訓練
  37. 4.4 決策樹和決策森林
  38. 4.5 Covtype數(shù)據(jù)集
  39. 4.6 準備數(shù)據(jù)
  40. 4.7 第一棵決策樹
  41. 4.8 決策樹的超參數(shù)
  42. 4.9 決策樹調(diào)優(yōu)
  43. 4.10 重談類別型特征
  44. 4.11 隨機決策森林
  45. 4.12 進行預測
  46. 4.13 小結
  47. 第5章 基于K均值聚類的網(wǎng)絡流量異常檢測
  48. 5.1 異常檢測
  49. 5.2 K均值聚類
  50. 5.3 網(wǎng)絡入侵
  51. 5.4 KDD Cup 1999數(shù)據(jù)集
  52. 5.5 初步嘗試聚類
  53. 5.6 K 的選擇
  54. 5.7 基于R的可視化
  55. 5.8 特征的規(guī)范化
  56. 5.9 類別型變量
  57. 5.10 利用標號的熵信息
  58. 5.11 聚類實戰(zhàn)
  59. 5.12 小結
  60. 第6章 基于潛在語義分析算法分析維基百科
  61. 6.1 詞項-文檔矩陣
  62. 6.2 獲取數(shù)據(jù)
  63. 6.3 分析和準備數(shù)據(jù)
  64. 6.4 詞形歸并
  65. 6.5 計算TF-IDF
  66. 6.6 奇異值分解
  67. 6.7 找出重要的概念
  68. 6.8 基于低維近似的查詢和評分
  69. 6.9 詞項-詞項相關度
  70. 6.10 文檔-文檔相關度
  71. 6.11 詞項-文檔相關度
  72. 6.12 多詞項查詢
  73. 6.13 小結
  74. 第7章 用GraphX分析伴生網(wǎng)絡
  75. 7.1 對MEDLINE文獻引用索引的網(wǎng)絡分析
  76. 7.2 獲取數(shù)據(jù)
  77. 7.3 用Scala XML工具解析XML文檔
  78. 7.4 分析MeSH主要主題及其伴生關系
  79. 7.5 用GraphX來建立一個伴生網(wǎng)絡
  80. 7.6 理解網(wǎng)絡結構
  81. 7.6.1 連通組件
  82. 7.6.2 度的分布
  83. 7.7 過濾噪聲邊
  84. 7.7.1 處理EdgeTriplet 
  85. 7.7.2 分析去掉噪聲邊的子圖
  86. 7.8 小世界網(wǎng)絡
  87. 7.8.1 系和聚類系數(shù)
  88. 7.8.2 用Pregel計算平均路徑長度
  89. 7.9 小結
  90. 第8章 紐約出租車軌跡的空間和時間數(shù)據(jù)分析
  91. 8.1 數(shù)據(jù)的獲取
  92. 8.2 基于Spark的時間和空間數(shù)據(jù)分析
  93. 8.3 基于JodaTime和NScalaTime的時間數(shù)據(jù)處理
  94. 8.4 基于Esri Geometry API和Spray的地理空間數(shù)據(jù)處理
  95. 8.4.1 認識Esri Geometry
  96. 8.4.2 GeoJSON簡介
  97. 8.5 紐約市出租車客運數(shù)據(jù)的預處理
  98. 8.5.1 大規(guī)模數(shù)據(jù)中的非法記錄處理
  99. 8.5.2 地理空間分析
  100. 8.6 基于Spark的會話分析
  101. 8.7 小結
  102. 第9章 基于蒙特卡羅模擬的金融風險評估
  103. 9.1 術語
  104. 9.2 VaR計算方法
  105. 9.2.1 方差-協(xié)方差法
  106. 9.2.2 歷史模擬法
  107. 9.2.3 蒙特卡羅模擬法
  108. 9.3 我們的模型
  109. 9.4 獲取數(shù)據(jù)
  110. 9.5 數(shù)據(jù)預處理
  111. 9.6 確定市場因素的權重
  112. 9.7 采樣
  113. 9.8 運行試驗
  114. 9.9 回報分布的可視化
  115. 9.10 結果的評估
  116. 9.11 小結
  117. 第10章 基因數(shù)據(jù)分析和BDG項目
  118. 10.1 分離存儲與模型
  119. 10.2 用ADAM CLI導入基因?qū)W數(shù)據(jù)
  120. 10.3 從ENCODE數(shù)據(jù)預測轉錄因子結合位點
  121. 10.4 查詢1000 Genomes項目中的基因型
  122. 10.5 小結
  123. 第11章 基于PySpark和Thunder的神經(jīng)圖像數(shù)據(jù)分析
  124. 11.1 PySpark簡介
  125. 11.2 Thunder工具包概況和安裝
  126. 11.3 用Thunder加載數(shù)據(jù)
  127. 11.4 用Thunder對神經(jīng)元進行分類
  128. 11.5 小結
  129. 附錄A Spark進階
  130. 附錄B 即將發(fā)布的MLlib Pipelines
  131. 作者介紹
  132. 封面介紹
書名:Spark高級數(shù)據(jù)分析
譯者:龔少成 譯
國內(nèi)出版社:人民郵電出版社
出版時間:2015年11月
頁數(shù):226
書號:978-7-115-40474-9
原版書書名:Advanced Analytics with Spark
原版書出版商:O'Reilly Media
Sandy Ryza
 
Sandy Ryza是Cloudera公司數(shù)據(jù)科學家,Apache Spark項目的活躍代碼貢獻者。領導了Cloudera公司的Spark開發(fā)工作。他還是Hadoop項目管理委員會委員。
 
 
Uri Laserson
 
Uri Laserson是Cloudera公司數(shù)據(jù)科學家,專注于Hadoop生態(tài)系統(tǒng)中的Python部分。
 
 
Sean Owen
 
Sean Owen是Cloudera公司EMEA地區(qū)的數(shù)據(jù)科學總監(jiān),也是Apache Spark項目的代碼提交者。他創(chuàng)立了基于Spark、Spark Streaming和Kafka的Hadoop實時大規(guī)模學習項目Oryx(之前稱為Myrrix)。
 
 
Josh Wills
 
Josh Wills是Cloudera公司的高級數(shù)據(jù)科學總監(jiān),Apache Crunch項目的發(fā)起者和副總裁。
 
 
購買選項
定價:59.00元
書號:978-7-115-40474-9
出版社:人民郵電出版社