91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

 
基于PySpark的高級數(shù)據(jù)分析
基于PySpark的高級數(shù)據(jù)分析
Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
張紫熙 譯
出版時間:2024年11月
頁數(shù):243
時至今日產(chǎn)生的數(shù)據(jù)量達到了一個驚人的地步,而且還在不斷增長。Apache Spark已經(jīng)成為分析大數(shù)據(jù)的實際工具,并且也是數(shù)據(jù)科學(xué)工具箱的關(guān)鍵部分。本書針對Spark最新版本進行了更新,將Spark、統(tǒng)計方法和真實數(shù)據(jù)集結(jié)合在一起,教你如何運用PySpark、Spark Python APl和Spark編程中的其他最佳實踐來解決分析問題。
數(shù)據(jù)科學(xué)家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wils介紹了Spark生態(tài)系統(tǒng),然后深入研究將常用技術(shù)(包括分類、聚類、協(xié)同過濾和異常檢測)應(yīng)用于以下領(lǐng)域:基因組學(xué)、安全工作和金融。此更新版本還涵蓋圖像處理和Spark NLP庫。
如果你對機器學(xué)習(xí)和統(tǒng)計學(xué)有基本的了解,并且能夠使用Python進行編程,那么本書將幫助你開始進行大規(guī)模的數(shù)據(jù)分析。
● 熟悉Spark的編程模型和生態(tài)系統(tǒng)。
● 學(xué)習(xí)數(shù)據(jù)科學(xué)的一般方法。
● 檢查分析大型公共數(shù)據(jù)集執(zhí)行步驟的完整性。
● 發(fā)現(xiàn)哪些機器學(xué)習(xí)工具對特定問題有幫助。
● 探索可適應(yīng)多種用途的代碼。
  1. 前言
  2. 第1章 大數(shù)據(jù)分析
  3. 1.1 使用大數(shù)據(jù)
  4. 1.2 Apache Spark和PySpark
  5. 1.2.1 組件
  6. 1.2.2 PySpark
  7. 1.2.3 生態(tài)系統(tǒng)
  8. 1.3 Spark 3.0
  9. 1.4 PySpark處理數(shù)據(jù)科學(xué)問題
  10. 1.5 本章小結(jié)
  11. 第2章 PySpark數(shù)據(jù)分析簡介
  12. 2.1 Spark架構(gòu)
  13. 2.2 安裝PySpark
  14. 2.3 設(shè)置我們的數(shù)據(jù)
  15. 2.4 使用DataFrame API分析數(shù)據(jù)
  16. 2.5 DataFrames的快速匯總統(tǒng)計
  17. 2.6 DataFrame的透視和重塑
  18. 2.7 關(guān)聯(lián)DataFrame并選擇特征
  19. 2.8 評分和模型評估
  20. 2.9 本章小結(jié)
  21. 第3章 音樂推薦和音頻編碼器的數(shù)據(jù)集
  22. 3.1 設(shè)置數(shù)據(jù)
  23. 3.2 我們對推薦系統(tǒng)的要求
  24. 3.3 數(shù)據(jù)準(zhǔn)備
  25. 3.4 構(gòu)建第一個模型
  26. 3.5 算法篩查推薦
  27. 3.6 推薦質(zhì)量評估
  28. 3.7 計算AUC
  29. 3.8 選擇超參數(shù)
  30. 3.9 給出推薦
  31. 3.10 本章小結(jié)
  32. 第4章 使用決策樹和決策森林進行預(yù)測
  33. 4.1 決策樹和決策森林
  34. 4.2 準(zhǔn)備數(shù)據(jù)
  35. 4.3 第一顆決策樹
  36. 4.4 決策樹超參數(shù)
  37. 4.5 調(diào)試決策樹
  38. 4.6 重溫分類特征
  39. 4.7 隨機森林
  40. 4.8 進行預(yù)測
  41. 4.9 本章小結(jié)
  42. 第5章 異常檢測與K-means聚類算法
  43. 5.1 K-means聚類
  44. 5.2 識別異常網(wǎng)絡(luò)流量
  45. 5.3 初次嘗試聚類
  46. 5.4 選擇K值
  47. 5.5 利用SparkR實現(xiàn)可視化
  48. 5.6 特征歸一化
  49. 5.7 分類變量
  50. 5.8 使用熵(Entropy)標(biāo)簽
  51. 5.9 聚類實戰(zhàn)
  52. 5.10 本章小結(jié)
  53. 第6章 通過LDA、Spark NLP了解維基百科
  54. 6.1 隱含狄利克雷分布
  55. 6.2 獲取數(shù)據(jù)
  56. 6.3 Spark NLP
  57. 6.4 解析數(shù)據(jù)
  58. 6.5 使用Spark NLP準(zhǔn)備數(shù)據(jù)
  59. 6.6 TF-IDF
  60. 6.7 計算TF-IDF
  61. 6.8 創(chuàng)建LDA模型
  62. 6.9 本章小結(jié)
  63. 第7章 基于出租車行程數(shù)據(jù)的時空序列數(shù)據(jù)分析
  64. 7.1 數(shù)據(jù)準(zhǔn)備
  65. 7.1.1 將日期格式字符串轉(zhuǎn)換為時間戳
  66. 7.1.2 處理無效記錄
  67. 7.2 地理空間分析
  68. 7.2.1 介紹GeoJSON
  69. 7.2.2 GeoPandas
  70. 7.3 PySpark 會話化
  71. 7.4 本章小結(jié)
  72. 第8章 金融風(fēng)險評估
  73. 8.1 金融術(shù)語
  74. 8.2 VaR的計算方法
  75. 8.2.1 方差與協(xié)方差
  76. 8.2.2 歷史模擬法
  77. 8.2.3 蒙特卡羅模擬
  78. 8.3 我們的模型
  79. 8.4 獲取數(shù)據(jù)
  80. 8.5 準(zhǔn)備數(shù)據(jù)
  81. 8.6 決定因子權(quán)重
  82. 8.7 抽樣
  83. 8.8 試驗運行
  84. 8.9 可視化收益分布
  85. 8.10 本章小結(jié)
  86. 第9章 分析基因組學(xué)數(shù)據(jù)和BDG項目
  87. 9.1 從建模中解耦存儲
  88. 9.2 設(shè)置ADAM
  89. 9.3 介紹如何使用ADAM處理基因組數(shù)據(jù)
  90. 9.3.1 使用ADAM CLI進行文件格式轉(zhuǎn)換
  91. 9.3.2 使用PySpark和ADAM采集基因組學(xué)數(shù)據(jù)
  92. 9.4 預(yù)測轉(zhuǎn)錄因子結(jié)合位點
  93. 9.5 本章小結(jié)
  94. 第10章 基于深入學(xué)習(xí)和PySpark LSH的圖像相似度檢測
  95. 10.1 PyTorch
  96. 10.2 準(zhǔn)備數(shù)據(jù)
  97. 10.3 圖像矢量表示的深度學(xué)習(xí)模型
  98. 10.3.1 圖像嵌入
  99. 10.3.2 將圖像嵌入導(dǎo)入 PySpark
  100. 10.4 使用PySpark LSH進行圖像相似搜索
  101. 10.5 本章小結(jié)
  102. 第11章 使用MLflow管理機器學(xué)習(xí)生命周期
  103. 11.1 機器學(xué)習(xí)生命周期
  104. 11.2 MLflow
  105. 11.3 實驗跟蹤
  106. 11.4 管理和服務(wù)ML模型
  107. 11.5 創(chuàng)建并使用MLflow項目
  108. 11.6 本章小結(jié)
書名:基于PySpark的高級數(shù)據(jù)分析
譯者:張紫熙 譯
國內(nèi)出版社:中國電力出版社
出版時間:2024年11月
頁數(shù):243
書號:978-7-5198-9186-2
原版書書名:Advanced Analytics with PySpark
原版書出版商:O'Reilly Media
Akash Tandon
 
Akash Tandon是Looppanel 的聯(lián)合創(chuàng)始人兼首席技術(shù)官。曾在Atlan擔(dān)任高級數(shù)據(jù)工程師。
 
 
Sandy Ryza
 
Sandy Ryza是Cloudera公司數(shù)據(jù)科學(xué)家,Apache Spark項目的活躍代碼貢獻者。領(lǐng)導(dǎo)了Cloudera公司的Spark開發(fā)工作。他還是Hadoop項目管理委員會委員。
 
 
Uri Laserson
 
Uri Laserson是Cloudera公司數(shù)據(jù)科學(xué)家,專注于Hadoop生態(tài)系統(tǒng)中的Python部分。
 
 
Sean Owen
 
Sean Owen是Cloudera公司EMEA地區(qū)的數(shù)據(jù)科學(xué)總監(jiān),也是Apache Spark項目的代碼提交者。他創(chuàng)立了基于Spark、Spark Streaming和Kafka的Hadoop實時大規(guī)模學(xué)習(xí)項目Oryx(之前稱為Myrrix)。
 
 
Josh Wills
 
Josh Wills是Cloudera公司的高級數(shù)據(jù)科學(xué)總監(jiān),Apache Crunch項目的發(fā)起者和副總裁。
 
 
本書的封面動物是一只大西洋彈涂魚(學(xué)名:Periophthalmus barbarus),這是一種兩棲魚類,常見于非洲西海岸的紅樹林沼澤和泥灘。
這只彈涂魚呈橄欖褐色,通常有藍色斑紋。強壯的胸鰭可以在陸地和水中輕松移動。它的眼睛像青蛙一樣可以讓它在大部分時間淹沒在泥漿或水中進行狩獵。
大西洋彈涂魚是埋伏型捕食者,它們利用頭部擴張產(chǎn)生的吸力來捕食小型昆蟲和甲殼類動物。該物種的雄性成員具有領(lǐng)土意識,并創(chuàng)造泥脊來劃分大約 10 平方英尺的區(qū)域。
雖然大西洋彈涂魚被 IUCN 列為無危物種,但 O’Reilly 封面上的許多動物都瀕臨滅絕;所有這些都對世界很重要。
購買選項
定價:78.00元
書號:978-7-5198-9186-2
出版社:中國電力出版社