Spark高級數(shù)據(jù)分析
龔少成 譯
出版時間:2015年11月
頁數(shù):226
本書是使用Spark進行大規(guī)模數(shù)據(jù)分析的實戰(zhàn)寶典,由大數(shù)據(jù)公司Cloudera的數(shù)據(jù)科學家撰寫。四位作者首先結合數(shù)據(jù)科學和大數(shù)據(jù)分析的廣闊背景講解了Spark,然后介紹了用Spark和Scala進行數(shù)據(jù)處理的基礎知識,接著討論了如何將Spark用于機器學習,同時介紹了常見應用中幾個常用的算法。此外還收集了一些更加新穎的應用,比如通過文本隱含語義關系來查詢Wikipedia或分析基因數(shù)據(jù)。
本書適合從事大數(shù)據(jù)分析的各大類專業(yè)人員閱讀。
書名:Spark高級數(shù)據(jù)分析
譯者:龔少成 譯
國內(nèi)出版社:人民郵電出版社
出版時間:2015年11月
頁數(shù):226
書號:978-7-115-40474-9
原版書書名:Advanced Analytics with Spark
原版書出版商:O'Reilly Media
Sandy Ryza
Sandy Ryza是Cloudera公司數(shù)據(jù)科學家,Apache Spark項目的活躍代碼貢獻者。領導了Cloudera公司的Spark開發(fā)工作。他還是Hadoop項目管理委員會委員。
Uri Laserson
Uri Laserson是Cloudera公司數(shù)據(jù)科學家,專注于Hadoop生態(tài)系統(tǒng)中的Python部分。
Sean Owen
Sean Owen是Cloudera公司EMEA地區(qū)的數(shù)據(jù)科學總監(jiān),也是Apache Spark項目的代碼提交者。他創(chuàng)立了基于Spark、Spark Streaming和Kafka的Hadoop實時大規(guī)模學習項目Oryx(之前稱為Myrrix)。
Josh Wills
Josh Wills是Cloudera公司的高級數(shù)據(jù)科學總監(jiān),Apache Crunch項目的發(fā)起者和副總裁。