91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

Radar Blog 雷達(dá)（Radar）

Velocity中國(guó)O'Reilly Conferences

新書即將出版全部書目訂購(gòu)信息

Spark快速大數(shù)據(jù)分析（第2版）

Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee 著

王道遠(yuǎn) 譯

出版時(shí)間：2021年11月

頁(yè)數(shù)：314

毋庸置疑，數(shù)據(jù)已經(jīng)成為現(xiàn)代化企業(yè)的重要資產(chǎn)，大數(shù)據(jù)分析技術(shù)則是企業(yè)挖掘數(shù)據(jù)價(jià)值的核心利器。一直以來，Spark就是大數(shù) 據(jù)分析領(lǐng)域的佼佼者，也已經(jīng)成為一站式大數(shù)據(jù)分析引擎的事實(shí)標(biāo)準(zhǔn)。
本書作者均來自Spark的母公司Databricks。他們將帶你開始使用Spark，并了解如何利用它適應(yīng)這個(gè)屬于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的新時(shí)代。第2版在第1版的基礎(chǔ)上做了大量更新，涵蓋Spark 3.0的新特性，并著重展示如何利用機(jī)器學(xué)習(xí)算法執(zhí)行大數(shù)據(jù)分析。
● 學(xué)習(xí)使用Python、Java、Scala的結(jié)構(gòu)化數(shù)據(jù)API
● 理解Spark SQL引擎的原理
● 掌握Spark應(yīng)用的優(yōu)化技巧
● 了解如何讀寫數(shù)據(jù)源:JSON、Parquet、CSV、Avro、ORC等
● 使用Structured Streaming分析批式數(shù)據(jù)和流式數(shù)據(jù)
● 使用Spark和Delta Lake構(gòu)建湖倉(cāng)一體的系統(tǒng)
● 使用MLlib開發(fā)機(jī)器學(xué)習(xí)流水線

目錄
產(chǎn)品信息
關(guān)于作者

譯者序
對(duì)本書的贊譽(yù)
序
前言
第1章　Apache Spark簡(jiǎn)介：一站式分析引擎
1.1　Spark的起源
1.1.1　谷歌的大數(shù)據(jù)和分布式計(jì)算
1.1.2　雅虎的Hadoop
1.1.3　Spark在AMPLab嶄露頭角
1.2　什么是Spar
1.2.1　快速
1.2.2　易用
1.2.3　模塊化
1.2.4　可擴(kuò)展
1.3　一站式數(shù)據(jù)分析
1.3.1　由Spark組件組成的一站式軟件棧
1.3.2　Spark的分布式執(zhí)行
1.4　開發(fā)者體驗(yàn)
1.4.1　哪些人用Spark，用它做什么
1.4.2　社區(qū)接受度與社區(qū)發(fā)展
第2章　下載并開始使用Apache Spark
2.1　第1步：下載Spark
2.2　第2步：使用Scala shell或PySpark shell
2.3　第3步：理解Spark 應(yīng)用的相關(guān)概念
2.3.1　Spark應(yīng)用與SparkSession
2.3.2　Spark作業(yè)
2.3.3　Spark執(zhí)行階段
2.3.4　Spark任務(wù)
2.4　轉(zhuǎn)化操作、行動(dòng)操作以及惰性求值
2.5　Spark UI
2.6　第一個(gè)獨(dú)立應(yīng)用
2.6.1　統(tǒng)計(jì)M&M巧克力豆
2.6.2　用Scala構(gòu)建獨(dú)立應(yīng)用
2.7　小結(jié)
第3章　Apache Spark的結(jié)構(gòu)化數(shù)據(jù)API
3.1　RDD的背后是什么
3.2　Spark支持結(jié)構(gòu)化數(shù)據(jù)
3.3　DataFrame API
3.3.1　Spark的基本數(shù)據(jù)類型
3.3.2　Spark中結(jié)構(gòu)化的復(fù)雜數(shù)據(jù)類型
3.3.3　表結(jié)構(gòu)與DataFrame
3.3.4　列與表達(dá)式
3.3.5　行
3.3.6　常見的DataFrame操作
3.3.7　完整的DataFrame示例
3.4　Dataset API
3.4.1　有類型對(duì)象、無類型對(duì)象，以及普通行
3.4.2　創(chuàng)建Dataset
3.4.3　Dataset操作
3.4.4　完整的Dataset示例
3.5　對(duì)比DataFrame和Dataset
3.6　Spark SQL及其底層引擎
3.7　小結(jié)
第4章　Spark SQL與DataFrame：內(nèi)建數(shù)據(jù)源概覽
4.1　在Spark應(yīng)用中使用Spark SQL
4.2　SQL表和視圖
4.2.1　有管理表和無管理表
4.2.2　創(chuàng)建SQL數(shù)據(jù)庫(kù)和SQL表
4.2.3　創(chuàng)建視圖
4.2.4　查看元數(shù)據(jù)
4.2.5　緩存SQL表
4.2.6　將表讀取為DataFrame
4.3　DataFrame和SQL表的數(shù)據(jù)源
4.3.1　DataFrameReader
4.3.2　DataFrameWriter
4.3.3　Parquet
4.3.4　JSON
4.3.5　CSV
4.3.6　Avro
4.3.7　ORC
4.3.8　圖像
4.3.9　二進(jìn)制文件
4.4　小結(jié)
第5章　Spark SQL與DataFrame：讀寫外部數(shù)據(jù)源
5.1　Spark SQL與Apache Hive
5.2　用Spark SQL shell、Beeline和Tableau查詢
5.2.1　使用Spark SQL shell
5.2.2　使用Beeline
5.2.3　使用Tableau
5.3　外部數(shù)據(jù)源
5.3.1　JDBC和SQL數(shù)據(jù)庫(kù)
5.3.2　PostgreSQL
5.3.3　MySQL
5.3.4　Azure Cosmos DB
5.3.5　MS SQL Server
5.3.6　其他外部數(shù)據(jù)源
5.4　DataFrame和Spark SQL的高階函數(shù)
5.4.1　方式1：打散再重組
5.4.2　方式2：用戶自定義函數(shù)
5.4.3　針對(duì)復(fù)雜數(shù)據(jù)類型的內(nèi)建函數(shù)
5.4.4　高階函數(shù)
5.5　常用的DataFrame操作和Spark SQL操作
5.5.1　聯(lián)合
5.5.2　連接
5.5.3　窗口
5.5.4　修改
5.6　小結(jié)
第6章　Spark SQL與Dataset
6.1　Java與Scala共用一套API
6.2　操作Dataset
6.2.1　創(chuàng)建示例數(shù)據(jù)
6.2.2　轉(zhuǎn)化示例數(shù)據(jù)
6.3　Dataset與DataFrame的內(nèi)存管理
6.4　Dataset編碼器
6.4.1　Spark內(nèi)部格式與Java對(duì)象格式
6.4.2　序列化與反序列化
6.5　使用Dataset的開銷
6.6　小結(jié)
第7章　Spark應(yīng)用的優(yōu)化與調(diào)優(yōu)
7.1　為效率而優(yōu)化與調(diào)優(yōu)
7.1.1　查看與設(shè)置Spark配置
7.1.2　為大型作業(yè)擴(kuò)展Spark
7.2　數(shù)據(jù)的緩存與持久化
7.2.1　DataFrame.cache()
7.2.2　DataFrame.persist()
7.2.3　什么時(shí)候應(yīng)該緩存和持久化
7.2.4　什么時(shí)候不應(yīng)該緩存和持久化
7.3　Spark的各種連接算法
7.3.1　廣播哈希連接
7.3.2　混洗排序合并連接
7.4　查看Spark UI
7.5　小結(jié)
第8章　結(jié)構(gòu)化流處理
8.1　Spark流處理引擎的演進(jìn)過程
8.1.1　以微型批模擬的流處理
8.1.2　從DStream獲取的經(jīng)驗(yàn)教訓(xùn)
8.1.3　Structured Streaming的設(shè)計(jì)哲學(xué)
8.2　Structured Streaming的編程模型
8.3　Structured Streaming查詢
8.3.1　五步定義流式查詢
8.3.2　探究活躍的流式查詢
8.3.3　失敗恢復(fù)與“精確一次”語(yǔ)義
8.3.4　監(jiān)控活躍的查詢
8.4　流式數(shù)據(jù)源與數(shù)據(jù)池
8.4.1　文件
8.4.2　Kafka
8.4.3　自定義流式數(shù)據(jù)源與數(shù)據(jù)池
8.5　數(shù)據(jù)轉(zhuǎn)化
8.5.1　增量執(zhí)行與流處理狀態(tài)
8.5.2　無狀態(tài)轉(zhuǎn)化操作
8.5.3　有狀態(tài)轉(zhuǎn)化操作
8.6　有狀態(tài)的流式聚合
8.6.1　不根據(jù)時(shí)間維度進(jìn)行聚合
8.6.2　使用事件時(shí)間窗口進(jìn)行聚合
8.7　流式連接
8.7.1　流與靜態(tài)表連接
8.7.2　流與流連接
8.8　任意的有狀態(tài)計(jì)算
8.8.1　用mapGroupsWithState()為任意有狀態(tài)操作建模
8.8.2　用超時(shí)管理不活躍的分組
8.8.3　用flatMapGroupsWithState()進(jìn)行通用操作226
8.9　性能調(diào)優(yōu)
8.10　小結(jié)
第9章　用Apache Spark構(gòu)建可靠的數(shù)據(jù)湖
9.1　最佳存儲(chǔ)解決方案的重要特點(diǎn)
9.2　數(shù)據(jù)庫(kù)
9.2.1　數(shù)據(jù)庫(kù)簡(jiǎn)介
9.2.2　用Spark讀寫數(shù)據(jù)庫(kù)
9.2.3　數(shù)據(jù)庫(kù)的不足之處
9.3　數(shù)據(jù)湖
9.3.1　數(shù)據(jù)湖簡(jiǎn)介
9.3.2　用Spark讀寫數(shù)據(jù)湖
9.3.3　數(shù)據(jù)湖的不足之處
9.4　湖倉(cāng)一體：下一代存儲(chǔ)解決方案
9.4.1　Apache Hudi
9.4.2　Apache Iceberg
9.4.3　Delta Lake
9.5　用Spark與Delta Lake構(gòu)建湖倉(cāng)一體的系統(tǒng)
9.5.1　為使用Delta Lake配置Spark
9.5.2　把數(shù)據(jù)加載到Delta Lake表中
9.5.3　把數(shù)據(jù)流加載到Delta Lake表中
9.5.4　寫數(shù)據(jù)時(shí)強(qiáng)化表結(jié)構(gòu)約束以防止數(shù)據(jù)損壞
9.5.5　修改表結(jié)構(gòu)以適應(yīng)數(shù)據(jù)變化
9.5.6　轉(zhuǎn)化已有數(shù)據(jù)
9.5.7　根據(jù)操作歷史審計(jì)數(shù)據(jù)變更
9.5.8　用時(shí)間旅行功能查詢表以前的快照數(shù)據(jù)
9.6　小結(jié)
第10章　用MLlib實(shí)現(xiàn)機(jī)器學(xué)習(xí)
10.1　什么是機(jī)器學(xué)習(xí)
10.1.1　監(jiān)督學(xué)習(xí)
10.1.2　無監(jiān)督學(xué)習(xí)
10.1.3　為什么將Spark用于機(jī)器學(xué)習(xí)
10.2　設(shè)計(jì)機(jī)器學(xué)習(xí)流水線
10.2.1　接入并探索數(shù)據(jù)
10.2.2　創(chuàng)建訓(xùn)練集與測(cè)試集
10.2.3　為轉(zhuǎn)化器準(zhǔn)備特征
10.2.4　理解線性回歸
10.2.5　用預(yù)估器構(gòu)建模型
10.2.6　創(chuàng)建流水線
10.2.7　評(píng)估模型
10.2.8　保存和加載模型
10.3　超參數(shù)調(diào)優(yōu)
10.3.1　基于樹的模型
10.3.2　k折交叉驗(yàn)證
10.3.3　優(yōu)化流水線
10.4　小結(jié)
第11章　用Apache Spark管理、部署與伸縮機(jī)器學(xué)習(xí)流水線
11.1　模型管理
11.2　用MLlib部署模型所用的選項(xiàng)
11.2.1　批處理
11.2.2　流處理
11.2.3　導(dǎo)出模型用于實(shí)時(shí)預(yù)測(cè)的模式
11.3　利用Spark使用非MLlib模型
11.3.1　Pandas UDF
11.3.2　將Spark用于分布式超參數(shù)調(diào)優(yōu)
11.4　小結(jié)
第12章　尾聲：Apache Spark 3.0
12.1　Spark內(nèi)核與Spark SQL
12.1.1　動(dòng)態(tài)分區(qū)裁剪
12.1.2　自適應(yīng)查詢執(zhí)行
12.1.3　SQL連接提示
12.1.4　Catalog插件API與DataSourceV2
12.1.5　可感知加速器的調(diào)度器
12.2　Structured Streaming
12.3　PySpark、Pandas UDF和Pandas函數(shù)API
12.3.1　重新設(shè)計(jì)的帶有Python類型提示的Pandas UDF
12.3.2　Pandas UDF中的迭代器支持
12.3.3　新的Pandas函數(shù)API
12.4　有改動(dòng)的功能
12.4.1　支持的與不推薦使用的編程語(yǔ)言
12.4.2　DataFrame API和Dataset API的改動(dòng)
12.4.3　DataFrame與SQL 的explain命令
12.5　小結(jié)

書名：Spark快速大數(shù)據(jù)分析（第2版）

作者：Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee 著

譯者：王道遠(yuǎn) 譯

國(guó)內(nèi)出版社：人民郵電出版社

出版時(shí)間：2021年11月

頁(yè)數(shù)：314

書號(hào)：978-7-115-57601-9

原版書書名：Learning Spark, 2nd Edition

原版書出版商：O'Reilly Media

Jules S. Damji

朱爾斯·S. 達(dá)米吉（Jules S. Damji）是Databricks的高級(jí)開發(fā)人員，也是MLflow的貢獻(xiàn)者。

查看Jules S. Damji更多信息

Brooke Wenig

布魯克·韋尼希（Brooke Wenig）是Databricks的機(jī)器學(xué)習(xí)專家。

查看Brooke Wenig更多信息

Tathagata Das

泰瑟加塔·達(dá)斯（Tathagata Das）是Databricks的軟件工程師，也是Apache Spark PMC成員。

查看Tathagata Das更多信息

Denny Lee

丹尼·李（Denny Lee）是Databricks的軟件工程師。

查看Denny Lee更多信息

購(gòu)買選項(xiàng)

定價(jià)：119.80元

書號(hào)：978-7-115-57601-9

出版社：人民郵電出版社

聯(lián)系出版社郵購(gòu)