风凌天下,大主宰天蚕土豆小说

大規(guī)模數(shù)據(jù)分析和建模：基于Spark與R

Javier Luraschi, Kevin Kuo, Edgar Ruiz 著

魏博譯

出版時間：2020年07月

頁數(shù)：260

“從編寫了流行的sparklyr庫的發(fā)明者身上，學習如何在R項目中利用分布式計算的力量。這是成為R高級用戶的進階之道?！?br /> ——Bryan Jonas
美國軍事科學院數(shù)學系講師

如果你和大多數(shù)R語言用戶一樣，那你肯定喜歡統(tǒng)計學，也能夠深入理解統(tǒng)計學。但是隨著組織內(nèi)部不斷收集大量數(shù)據(jù)，添加Apache Spark這類工具就變得理所當然。在本書中，數(shù)據(jù)科學家和使用大規(guī)模數(shù)據(jù)應(yīng)用的專業(yè)人員會學到如何使用Spark和R解決大數(shù)據(jù)和大計算問題。
作者會展示如何將Spark和R結(jié)合起來進行大數(shù)據(jù)分析。本書涵蓋相關(guān)的數(shù)據(jù)科學話題、聚類計算，以及高級用戶會感興趣的問題。
● 在Apache Spark環(huán)境下，使用R來分析、探索、轉(zhuǎn)換、可視化數(shù)據(jù)。
● 構(gòu)建統(tǒng)計模型來提取信息并預測輸出，自動化生產(chǎn)級的工作流程。
● 使用分布式計算技術(shù)在多臺機器上進行分析和建模。
● 輕松使用Spark處理多個數(shù)據(jù)源和格式的大規(guī)模數(shù)據(jù)。
● 學習其他用于大規(guī)模圖處理、地理空間分析和基因組學分析的建?？蚣堋?br /> ● 深入高級話題，包括定制轉(zhuǎn)換、實時數(shù)據(jù)處理和創(chuàng)建定制化Spark擴展。