Spark快速大數(shù)據(jù)分析(第2版)
王道遠(yuǎn) 譯
出版時(shí)間:2021年11月
頁(yè)數(shù):314
毋庸置疑,數(shù)據(jù)已經(jīng)成為現(xiàn)代化企業(yè)的重要資產(chǎn),大數(shù)據(jù)分析技術(shù)則是企業(yè)挖掘數(shù)據(jù)價(jià)值的核心利器。一直以來,Spark就是大數(shù) 據(jù)分析領(lǐng)域的佼佼者,也已經(jīng)成為一站式大數(shù)據(jù)分析引擎的事實(shí)標(biāo)準(zhǔn)。
本書作者均來自Spark的母公司Databricks。他們將帶你開始使用Spark,并了解如何利用它適應(yīng)這個(gè)屬于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的新時(shí)代。第2版在第1版的基礎(chǔ)上做了大量更新,涵蓋Spark 3.0的新特性,并著重展示如何利用機(jī)器學(xué)習(xí)算法執(zhí)行大數(shù)據(jù)分析。
● 學(xué)習(xí)使用Python、Java、Scala的結(jié)構(gòu)化數(shù)據(jù)API
● 理解Spark SQL引擎的原理
● 掌握Spark應(yīng)用的優(yōu)化技巧
● 了解如何讀寫數(shù)據(jù)源:JSON、Parquet、CSV、Avro、ORC等
● 使用Structured Streaming分析批式數(shù)據(jù)和流式數(shù)據(jù)
● 使用Spark和Delta Lake構(gòu)建湖倉(cāng)一體的系統(tǒng)
● 使用MLlib開發(fā)機(jī)器學(xué)習(xí)流水線
書名:Spark快速大數(shù)據(jù)分析(第2版)
譯者:王道遠(yuǎn) 譯
國(guó)內(nèi)出版社:人民郵電出版社
出版時(shí)間:2021年11月
頁(yè)數(shù):314
書號(hào):978-7-115-57601-9
原版書書名:Learning Spark, 2nd Edition
原版書出版商:O'Reilly Media
Jules S. Damji
朱爾斯·S. 達(dá)米吉(Jules S. Damji)是Databricks的高級(jí)開發(fā)人員,也是MLflow的貢獻(xiàn)者。
Brooke Wenig
布魯克·韋尼希(Brooke Wenig)是Databricks的機(jī)器學(xué)習(xí)專家。
Tathagata Das
泰瑟加塔·達(dá)斯(Tathagata Das)是Databricks的軟件工程師,也是Apache Spark PMC成員。
Denny Lee
丹尼·李(Denny Lee)是Databricks的軟件工程師。