Spark快速大數(shù)據(jù)分析
王道遠 譯
出版時間:2015年09月
頁數(shù):210
如今,所有領域的數(shù)據(jù)量都在急劇增長。如何才能高效利用這些數(shù)據(jù)呢?本書介紹了開源集群計算系統(tǒng)Apache Spark,它可以加速數(shù)據(jù)分析的實現(xiàn)和運行。利用Spark,你可以用Python、Java以及Scala的簡易API來快速操控大規(guī)模數(shù)據(jù)集。
本書由Spark開發(fā)者編寫,可以讓數(shù)據(jù)科學家和工程師即刻上手。你能學到如何使用簡短的代碼實現(xiàn)復雜的并行作業(yè),還能了解從簡單的批處理作業(yè)到流處理以及機器學習等應用。
通過閱讀本書,你可以:
· 快速深入探索Spark功能,比如分布式數(shù)據(jù)集、內存式緩存,以及交互式shell;
· 充分利用Spark強大的內建庫,包括Spark SQL、Spark Streaming和MLlib;
· 使用統(tǒng)一的編程范式而不需要組合使用Hive、Hadoop、Mahout、Storm等工具;
· 學習如何部署交互式應用、批處理應用以及流式計算應用;
· 連接HDFS、Hive、JSON以及S3等數(shù)據(jù)源;
· 掌握數(shù)據(jù)分區(qū)和共享變量等進階知識。
書名:Spark快速大數(shù)據(jù)分析
譯者:王道遠 譯
國內出版社:人民郵電出版社
出版時間:2015年09月
頁數(shù):210
書號:978-7-115-40309-4
原版書書名:Learning Spark
原版書出版商:O'Reilly Media
Holden Karau
Holden Karau是一位加拿大人,在IBM的Spark技術中心擔任軟件開發(fā)工程師。同時作為一位Spark committer,經(jīng)常在PySpark和機器學習方面進行貢獻。另外曾在多次國際會議中發(fā)表關于Spark的演講。
Databricks的軟件開發(fā)工程師,活躍于開源社區(qū)。她還著有《Spark快速數(shù)據(jù)處理》。
Andy Konwinski
Databricks聯(lián)合創(chuàng)始人,Apache Spark項目技術專家,還是Apache Mesos項目的聯(lián)合發(fā)起人。
Patrick Wendell
Databricks聯(lián)合創(chuàng)始人,也是Apache Spark項目技術專家。他還負責維護Spark核心引擎的幾個子系統(tǒng)。
Matei Zaharia
Matei Zaharia是斯坦福大學計算機科學系助理教授和Databricks的首席技術官。他于2009年在加州大學伯克利分校立了Spark項目,那時他是一名博士生,并繼續(xù)擔任pache Spark項目的副主席。Matei Zaharia還是Apache Mesos項目的聯(lián)合創(chuàng)始人,也 是Apache Hadoop項目的貢獻者。Matei Zaharia以他出色的研究工作獲得了2014年美國計算機學會博士論文獎(ACM Doctoral Dissertation Award)和VMware系統(tǒng)研究獎(VMware Systems Research Award)。