大規(guī)模數(shù)據(jù)分析和建模:基于Spark與R
魏博 譯
出版時間:2020年07月
頁數(shù):260
“從編寫了流行的sparklyr庫的發(fā)明者身上,學習如何在R項目中利用分布式計算的力量。這是成為R高級用戶的進階之道?!?br />
——Bryan Jonas
美國軍事科學院數(shù)學系講師
如果你和大多數(shù)R語言用戶一樣,那你肯定喜歡統(tǒng)計學,也能夠深入理解統(tǒng)計學。但是隨著組織內(nèi)部不斷收集大量數(shù)據(jù),添加Apache Spark這類工具就變得理所當然。在本書中,數(shù)據(jù)科學家和使用大規(guī)模數(shù)據(jù)應(yīng)用的專業(yè)人員會學到如何使用Spark和R解決大數(shù)據(jù)和大計算問題。
作者會展示如何將Spark和R結(jié)合起來進行大數(shù)據(jù)分析。本書涵蓋相關(guān)的數(shù)據(jù)科學話題、聚類計算,以及高級用戶會感興趣的問題。
● 在Apache Spark環(huán)境下,使用R來分析、探索、轉(zhuǎn)換、可視化數(shù)據(jù)。
● 構(gòu)建統(tǒng)計模型來提取信息并預測輸出,自動化生產(chǎn)級的工作流程。
● 使用分布式計算技術(shù)在多臺機器上進行分析和建模。
● 輕松使用Spark處理多個數(shù)據(jù)源和格式的大規(guī)模數(shù)據(jù)。
● 學習其他用于大規(guī)模圖處理、地理空間分析和基因組學分析的建??蚣堋?br />
● 深入高級話題,包括定制轉(zhuǎn)換、實時數(shù)據(jù)處理和創(chuàng)建定制化Spark擴展。
書名:大規(guī)模數(shù)據(jù)分析和建模:基于Spark與R
譯者:魏博 譯
國內(nèi)出版社:機械工業(yè)出版社
出版時間:2020年07月
頁數(shù):260
書號:978-7-111-66101-6
原版書書名:Mastering Spark with R
原版書出版商:O'Reilly Media
Javier Luraschi
Javier Luraschi是諸多大規(guī)模數(shù)據(jù)科學庫的發(fā)明者,包括sparklyr、r2d3、pins和cloudml。
Kevin Kuo
Kevin Kuo構(gòu)建了機器學習庫,并領(lǐng)導了Kasa AI的開放保險研究。
Edgar Ruiz
Edgar Ruiz構(gòu)建了企業(yè)級的數(shù)據(jù)解決方案工具,包括dbplot、tidypredict和modeldb。