高性能Spark
夏銳, 陳志鵬, 李迅, 趙立攀 譯
出版時(shí)間:2022年05月
頁(yè)數(shù):369
在一切都順利時(shí),Apache Spark會(huì)帶給你極致的體驗(yàn)。但如果你沒(méi)有達(dá)到所希望的性能提升結(jié)果,或者對(duì)于生產(chǎn)上應(yīng)用Spark沒(méi)有足夠 的信心,那么這本書(shū)對(duì)你來(lái)說(shuō)很實(shí)用。在這里,本書(shū)作者通過(guò)一些性能優(yōu)化讓Spark查詢(xún)運(yùn)行得更快,能夠處理更大的數(shù)據(jù)量級(jí),同時(shí)只用到更少的資源。
本書(shū)提到的相關(guān)技術(shù)可以節(jié)約數(shù)據(jù)系統(tǒng)架構(gòu)的成本以及開(kāi)發(fā)人員的時(shí)間,適用軟件工程師、數(shù)據(jù)工程師,以及面對(duì)大規(guī)模數(shù)據(jù)應(yīng)用的系統(tǒng)管理員。此外你還可以加深對(duì)Spark的理解,然后學(xué)會(huì)如何駕馭它。
通過(guò)本書(shū),你可以了解到:
● Spark SQL的新接口如何為SQL的RDD數(shù)據(jù)結(jié)構(gòu)提升性能。
● Spark Core與Spark SQL中數(shù)據(jù)join的不同選擇方式。
● 充分利用標(biāo)準(zhǔn)RDD轉(zhuǎn)換的技術(shù)。
● 如何解決Spark中鍵值范式的性能問(wèn)題。
● 不借助Scala或其他JVM語(yǔ)言來(lái)編寫(xiě)高性能的Spark代碼。
● 采用改進(jìn)建議后,如何來(lái)測(cè)試其功能及性能情況。
● 使用Spark MLlib和Spark ML機(jī)器學(xué)習(xí)庫(kù)。
● Spark的流處理組件、外部的社區(qū)擴(kuò)展包。
- 前言
- 第1章 高性能 Spark 介紹
- 1.1 Spark 是什么以及性能的重要性
- 1.2 你可以從本書(shū)中得到什么
- 1.3 Spark 版本
- 1.4 為什么是 Scala ?
- 1.5 小結(jié)
- 第 2 章 Spark 運(yùn)行原理
- 2.1 Spark 如何融入大數(shù)據(jù)生態(tài)系統(tǒng)
- 2.2 Spark 并行計(jì)算模型:RDD
- 2.3 Spark 作業(yè)調(diào)度
- 2.4 Spark Job 剖析
- 第 3 章 DataFrame、Dataset 和 Spark SQL
- 3.1 從 SparkSession(或者 HiveContext 和 SQLContext)入門(mén)
- 3.2 Spark SQL 依賴(lài)
- 3.3 schema 基礎(chǔ).
- 3.4 DataFrame API
- 3.5 DataFrame 和 Dataset 中的數(shù)據(jù)表示
- 3.6 數(shù)據(jù)加載和保存函數(shù)
- 3.7 Dataset
- 3.8 使用用戶(hù)自定義的函數(shù)和聚合函數(shù)(UDF、UDAF)進(jìn)行擴(kuò)展
- 3.9 查詢(xún)優(yōu)化器
- 3.10 調(diào)試 Spark SQL 查詢(xún)
- 3.11 JDBC/ODBC 服務(wù)器
- 3.12 小結(jié)
- 第 4 章 Join (SQL 和 Spark Core)
- 4.1 Spark Core 中的 Join
- 4.2 Spark SQL 中的 Join
- 4.3 小結(jié)
- 第 5 章 高效的轉(zhuǎn)換
- 5.1 窄轉(zhuǎn)換與寬轉(zhuǎn)換
- 5.2 轉(zhuǎn)換會(huì)返回什么類(lèi)型的 RDD
- 5.3 最小化對(duì)象創(chuàng)建成本
- 5.4 mapPartitions 迭代器到迭代器的轉(zhuǎn)換
- 5.5 集合操作
- 5.6 降低初始化開(kāi)銷(xiāo)
- 5.7 重用 RDD
- 5.8 小結(jié)
- 第 6 章 處理鍵值對(duì)數(shù)據(jù)
- 6.1 金發(fā)女孩案例
- 6.2 鍵值對(duì)上的行動(dòng)操作
- 6.3 groupByKey 函數(shù)有什么風(fēng)險(xiǎn)
- 6.4 選擇聚合操作
- 6.5 涉及多個(gè) RDD 的操作
- 6.6 分區(qū)器和鍵值對(duì)數(shù)據(jù)
- 6.7 OrderedRDDFunctions 字典
- 6.8 二級(jí)排序和 repartitionAndSortWithinPartitions
- 6.9 掉隊(duì)檢測(cè)與不均衡數(shù)據(jù)
- 6.10 小結(jié)
- 第 7 章 Scala 之外
- 7.1 JVM 之內(nèi)、Scala 之外
- 7.2 Scala 之外、JVM 之外
- 7.3 在 Spark 中調(diào)用其他語(yǔ)言
- 7.4 未來(lái)
- 7.5 小結(jié)
- 第 8 章 測(cè)試和驗(yàn)證
- 8.1 單元測(cè)試
- 8.2 獲取測(cè)試數(shù)據(jù)
- 8.3 用 ScalaCheck 檢查屬性
- 8.4 集成測(cè)試
- 8.5 性能驗(yàn)證
- 8.6 作業(yè)驗(yàn)證
- 8.7 小結(jié)
- 第 9 章 Spark MLlib 和 ML
- 9.1 在 Spark MLlib 和 Spark ML 之間選擇
- 9.2 使用 MLlib
- 9.3 使用 Spark ML
- 9.4 一般服務(wù)考量因素
- 9.5 小結(jié)
- 第 10 章 Spark 組件和包
- 10.1 基于 Spark 的流處理
- 10.2 GraphX
- 10.3 使用社區(qū)包和庫(kù)
- 10.4 小結(jié)
- 附錄 調(diào)優(yōu)、調(diào)試以及開(kāi)發(fā)者容易忽略的其他問(wèn)題
書(shū)名:高性能Spark
譯者:夏銳, 陳志鵬, 李迅, 趙立攀 譯
國(guó)內(nèi)出版社:中國(guó)電力出版社
出版時(shí)間:2022年05月
頁(yè)數(shù):369
書(shū)號(hào):978-7-5198-6353-1
原版書(shū)書(shū)名:High Performance Spark
原版書(shū)出版商:O'Reilly Media
Holden Karau
Holden Karau是一位加拿大人,在IBM的Spark技術(shù)中心擔(dān)任軟件開(kāi)發(fā)工程師。同時(shí)作為一位Spark committer,經(jīng)常在PySpark和機(jī)器學(xué)習(xí)方面進(jìn)行貢獻(xiàn)。另外曾在多次國(guó)際會(huì)議中發(fā)表關(guān)于Spark的演講。
Databricks的軟件開(kāi)發(fā)工程師,活躍于開(kāi)源社區(qū)。她還著有《Spark快速數(shù)據(jù)處理》。
Rachel Warren
Rachel Warren是Alpine Data的軟件工程師和數(shù)據(jù)科學(xué)家。在工作中,她利用Spark來(lái)解決實(shí)際場(chǎng)景中的數(shù)據(jù)處理和機(jī)器學(xué)習(xí)問(wèn) 題。另外,她還曾在工業(yè)界以及學(xué)術(shù)界擔(dān)任過(guò)分析師和導(dǎo)師。
本書(shū)封面上的動(dòng)物是一種原產(chǎn)于東南亞和印度次大陸的火尾太陽(yáng)鳥(niǎo)(學(xué)名: Aethopyga ignicauda)。而太陽(yáng)鳥(niǎo)是美洲蜂鳥(niǎo)和澳大利亞食蜜鳥(niǎo)的遠(yuǎn)親。
顧名思義,這些鳥(niǎo)類(lèi)(特別是雄性)的顏色非常鮮艷。它們的尾巴和頸后都是紅色的,翅膀是綠色的,肚子是黃色和橙色的,頭部是彩虹藍(lán)的。雄性火尾太陽(yáng)鳥(niǎo)比雌性稍大一些,平均身長(zhǎng)15厘米。配對(duì)的雙方都會(huì)參與哺育幼崽。
火尾太陽(yáng)鳥(niǎo)的首選棲息地是針葉林,在那里以昆蟲(chóng)和花蜜為食。向下彎曲的喙和管 狀的舌頭有助于它進(jìn)入花朵覓食。
O’Reilly封面上的許多動(dòng)物都瀕臨滅絕,而它們對(duì)于這個(gè)世界很重要。想要了解更多 關(guān)于如何提供幫助的信息,請(qǐng)?jiān)L問(wèn)animals.oreilly.com。
封面圖片來(lái)自Wood’s Illustrated Natural History。