Spark大數(shù)據(jù)算法
蘇金國 譯
出版時間:2024年05月
頁數(shù):485
“如果你希望采用一種可伸縮的方式實現(xiàn)現(xiàn)有算法,或者正在使用Spark開發(fā)新的自定義算法,這本書將是一個絕好的資源?!?br />
——Matei Zaharia
斯坦福大學(xué)計算機科學(xué)副教授;Databricks首席技術(shù)專家;Apache Spark創(chuàng)始人
Apache Spark不僅速度快,易于使用,還提供了豐富的分析能力和多語言支持,掌握這個集群計算框架的實用知識已經(jīng)成為數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家的必備技能。利用這本實用指南,想要了解Spark的人能從中學(xué)到實用的PySpark算法和示例。
每一章中,本書作者會向你展示如何用一組Spark轉(zhuǎn)換和算法解決一個數(shù)據(jù)問題。你會了解如何應(yīng)對涉及ETL、設(shè)計模式、機器學(xué)習(xí)算法、數(shù)據(jù)分區(qū)和基因組分析的問題。每個技巧都提供了利用PySpark驅(qū)動器的PySpark算法和shell腳本。
利用這本書,你將學(xué)習(xí)以下內(nèi)容:
● 了解如何選擇Spark轉(zhuǎn)換實現(xiàn)優(yōu)化的解決方案。
● 探索強大的轉(zhuǎn)換和歸約,包括reduceByKey()、combineByKey()和mapPartitions()。
● 理解數(shù)據(jù)分區(qū)以實現(xiàn)優(yōu)化查詢。
● 使用PySpark設(shè)計模式構(gòu)建和應(yīng)用模型。
● 對圖數(shù)據(jù)應(yīng)用motif查找算法。
● 使用GraphFrames API分析圖數(shù)據(jù)。
● 對臨床醫(yī)學(xué)和基因組數(shù)據(jù)應(yīng)用PySpark算法。
● 學(xué)習(xí)如何在ML算法中使用和應(yīng)用特征工程。
● 了解并使用實用的數(shù)據(jù)設(shè)計模式。
書名:Spark大數(shù)據(jù)算法
譯者:蘇金國 譯
國內(nèi)出版社:中國電力出版社
出版時間:2024年05月
頁數(shù):485
書號:978-7-5198-8772-8
原版書書名:Data Algorithms with Spark
原版書出版商:O'Reilly Media
Mahmoud Parsian
Mahmoud Parsian,計算機科學(xué)博士,是一位熱衷于實踐的軟件專家,作為開發(fā)人員、設(shè)計人員、架構(gòu)師和作者,他有30多年的軟件開發(fā)經(jīng)驗。目前領(lǐng)導(dǎo)著Illumina的大數(shù)據(jù)團隊,在過去15年間,他主要從事Java (服務(wù)器端)、數(shù)據(jù)庫、MapReduce和分布式計算的有關(guān)工作。Mahmoud還著有《JDBC Recipes》和《JDBC Metadata, MySQL,and Oracle Recipes》等書(均由Apress出版)。
本書的封面動物是一只棘尾雷雀(學(xué)名:Aphrastura spinicauda)。這種小型鳥常見于智利和阿根廷的溫帶森林以及亞熱帶干草地和灌木叢。棘尾雷雀有黑色的頭部和喙,頸部和肚子為白色,還有延伸到脖子后面的橙色的“眉毛”。它們的上覆羽為黑色,頂端白色,翅飛羽卻是紅橙色,帶淺棕色條紋。棘尾雷雀全身以及獨特的尾巴混合了黑色、棕色和鐵銹色羽毛,并有狹窄突出的尾羽,這也是它得名“棘尾”的原因。
這些鳥只有13~14厘米長,重約10~13克,不到半盎司!它們非常活躍,充滿好奇,而且喜歡鳴叫,在樹葉、苔蘚、地衣、樹枝和樹干中覓食,偶爾也會在地面上尋找食物。它們在南半球春季和夏季(10月到下一年的1月)產(chǎn)卵,在樹干、縫隙甚至屋頂下筑巢。雌鳥會在由藤蔓、樹根、草和羽毛搭建的巢中產(chǎn)下3~4枚卵,雄鳥和雌鳥共同孵化兩周左右。與大多數(shù)鳥類不同,棘尾雷雀不遷徙,但它們是一夫一妻制,通常成對出現(xiàn),或者常常組成不超過15只鳥的小群體。棘尾雷雀的數(shù)量很穩(wěn)定,被國際自然保護聯(lián)盟認為是最不受關(guān)注的物種。O’Reilly封面上的很多動物都瀕臨滅絕;所有這些動物對我們的世界都很重要。