基于PySpark的高級數(shù)據(jù)分析
張紫熙 譯
出版時間:2024年11月
頁數(shù):243
時至今日產(chǎn)生的數(shù)據(jù)量達到了一個驚人的地步,而且還在不斷增長。Apache Spark已經(jīng)成為分析大數(shù)據(jù)的實際工具,并且也是數(shù)據(jù)科學(xué)工具箱的關(guān)鍵部分。本書針對Spark最新版本進行了更新,將Spark、統(tǒng)計方法和真實數(shù)據(jù)集結(jié)合在一起,教你如何運用PySpark、Spark Python APl和Spark編程中的其他最佳實踐來解決分析問題。
數(shù)據(jù)科學(xué)家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wils介紹了Spark生態(tài)系統(tǒng),然后深入研究將常用技術(shù)(包括分類、聚類、協(xié)同過濾和異常檢測)應(yīng)用于以下領(lǐng)域:基因組學(xué)、安全工作和金融。此更新版本還涵蓋圖像處理和Spark NLP庫。
如果你對機器學(xué)習(xí)和統(tǒng)計學(xué)有基本的了解,并且能夠使用Python進行編程,那么本書將幫助你開始進行大規(guī)模的數(shù)據(jù)分析。
● 熟悉Spark的編程模型和生態(tài)系統(tǒng)。
● 學(xué)習(xí)數(shù)據(jù)科學(xué)的一般方法。
● 檢查分析大型公共數(shù)據(jù)集執(zhí)行步驟的完整性。
● 發(fā)現(xiàn)哪些機器學(xué)習(xí)工具對特定問題有幫助。
● 探索可適應(yīng)多種用途的代碼。
書名:基于PySpark的高級數(shù)據(jù)分析
譯者:張紫熙 譯
國內(nèi)出版社:中國電力出版社
出版時間:2024年11月
頁數(shù):243
書號:978-7-5198-9186-2
原版書書名:Advanced Analytics with PySpark
原版書出版商:O'Reilly Media
Akash Tandon
Akash Tandon是Looppanel 的聯(lián)合創(chuàng)始人兼首席技術(shù)官。曾在Atlan擔(dān)任高級數(shù)據(jù)工程師。
Sandy Ryza
Sandy Ryza是Cloudera公司數(shù)據(jù)科學(xué)家,Apache Spark項目的活躍代碼貢獻者。領(lǐng)導(dǎo)了Cloudera公司的Spark開發(fā)工作。他還是Hadoop項目管理委員會委員。
Uri Laserson
Uri Laserson是Cloudera公司數(shù)據(jù)科學(xué)家,專注于Hadoop生態(tài)系統(tǒng)中的Python部分。
Sean Owen
Sean Owen是Cloudera公司EMEA地區(qū)的數(shù)據(jù)科學(xué)總監(jiān),也是Apache Spark項目的代碼提交者。他創(chuàng)立了基于Spark、Spark Streaming和Kafka的Hadoop實時大規(guī)模學(xué)習(xí)項目Oryx(之前稱為Myrrix)。
Josh Wills
Josh Wills是Cloudera公司的高級數(shù)據(jù)科學(xué)總監(jiān),Apache Crunch項目的發(fā)起者和副總裁。
本書的封面動物是一只大西洋彈涂魚(學(xué)名:Periophthalmus barbarus),這是一種兩棲魚類,常見于非洲西海岸的紅樹林沼澤和泥灘。
這只彈涂魚呈橄欖褐色,通常有藍色斑紋。強壯的胸鰭可以在陸地和水中輕松移動。它的眼睛像青蛙一樣可以讓它在大部分時間淹沒在泥漿或水中進行狩獵。
大西洋彈涂魚是埋伏型捕食者,它們利用頭部擴張產(chǎn)生的吸力來捕食小型昆蟲和甲殼類動物。該物種的雄性成員具有領(lǐng)土意識,并創(chuàng)造泥脊來劃分大約 10 平方英尺的區(qū)域。
雖然大西洋彈涂魚被 IUCN 列為無危物種,但 O’Reilly 封面上的許多動物都瀕臨滅絕;所有這些都對世界很重要。