玄幻小说排行榜完本,盗墓笔记第二季,言情小说君子以泽

Spark權(quán)威指南

張巖峰, 王方京, 陳晶晶譯

出版時(shí)間：2020年04月

頁數(shù)：534

通過本書你將了解到如何使用、部署和維護(hù)Apache Spark開源集群計(jì)算框架。本書由Spark的創(chuàng)始人所撰寫，重點(diǎn)介紹Spark最新版本的新功能和新特點(diǎn)。本書將Spark功能分解為若干獨(dú)立主題來進(jìn)行全面介紹。
你將接觸到Spark的基本操作和常用函數(shù)，還包括一種全新的構(gòu)建端到端流數(shù)據(jù)應(yīng)用的結(jié)構(gòu)化流處理API。開發(fā)人員和系統(tǒng)管理員將了解到Spark的監(jiān)控、調(diào)優(yōu)，以及調(diào)試的原則和方法，并通過使用Spark提供的可擴(kuò)展機(jī)器學(xué)習(xí)庫MLlib來了解機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)技術(shù)。
● 大數(shù)據(jù)技術(shù)和Spark概述。
● 通過實(shí)例學(xué)習(xí)DataFrame、SQL、Dataset等Spark的核心API。
● 了解Spark的低級API實(shí)現(xiàn)，包括RDD以及SQL和DataFrame的執(zhí)行過程。
● 了解Spark如何在集群上運(yùn)行。
● Spark集群和應(yīng)用程序的調(diào)試、監(jiān)控、和調(diào)優(yōu)。
● 學(xué)習(xí)Spark強(qiáng)大的流處理引擎——結(jié)構(gòu)化流處理。
● 學(xué)習(xí)MLlib并了解如何使用它解決分類、推薦，以及其他多種實(shí)際問題。

目錄
產(chǎn)品信息
關(guān)于作者
封面介紹

前言
第Ⅰ部分大數(shù)據(jù)與Spark概述
第1章 Spark是什么？
Apache Spark的設(shè)計(jì)哲學(xué)
背景：大數(shù)據(jù)問題
Spark的歷史
Spark的現(xiàn)狀和未來
運(yùn)行Spark
第2章 Spark淺析
Spark的基本架構(gòu)
Spark API的多語言支持
Spark的API
啟動Spark
轉(zhuǎn)換操作
動作操作
Spark用戶接口
一個(gè)完整的例子
小結(jié)
第3章 Spark工具集介紹
運(yùn)行生產(chǎn)應(yīng)用程序
Dataset：類型安全的結(jié)構(gòu)化API
結(jié)構(gòu)化流處理
機(jī)器學(xué)習(xí)和高級數(shù)據(jù)分析
低級API
SparkR
Spark的生態(tài)系統(tǒng)和工具包
小結(jié)
第Ⅱ部分結(jié)構(gòu)化API——DataFrame、SQL和Dataset
第4章結(jié)構(gòu)化API概述
DataFrame類型和Dataset類型
Schema
結(jié)構(gòu)化Spark類型概述
結(jié)構(gòu)化API執(zhí)行概述
小結(jié)
第5章基本的結(jié)構(gòu)化操作
模式
列和表達(dá)式
記錄和行
DataFrame轉(zhuǎn)換操作
小結(jié)
第6章處理不同的數(shù)據(jù)類型
在哪里查找API
轉(zhuǎn)換成Spark類型
處理布爾類型
處理數(shù)值類型
處理字符串類型
處理日期和時(shí)間戳類型
處理數(shù)據(jù)中的空值
處理JSON類型
用戶自定義函數(shù)
小結(jié)
第7章聚合操作
聚合函數(shù)
分組
window函數(shù)
分組集
用戶自定義的聚合函數(shù)
小結(jié)
第8章連接操作
連接表達(dá)式
連接類型
內(nèi)連接
外連接
左外連接
右外連接
左半連接
左反連接
自然連接
交叉連接（笛卡爾連接）
連接操作常見問題與解決方案
小結(jié)
第9章數(shù)據(jù)源
數(shù)據(jù)源API的結(jié)構(gòu)
CSV 文件
JSON 文件
Parquet文件
ORC文件
SQL數(shù)據(jù)庫
文本文件
高級I/O概念
小結(jié)
第10章 Spark SQL
什么是SQL？
大數(shù)據(jù)和SQL：Apache Hive
大數(shù)據(jù)和SQL：Spark SQL
如何運(yùn)行Spark SQL查詢
Catalog
視圖
數(shù)據(jù)庫
選擇語句
高級主題
其他功能
小結(jié)
第11章 Dataset
何時(shí)使用Dataset
創(chuàng)建Dataset
動作操作
轉(zhuǎn)換操作
連接
分組和聚合
小結(jié)
第Ⅲ部分低級API
第12章彈性分布式數(shù)據(jù)集
什么是低級API？
關(guān)于RDD
創(chuàng)建RDD
操作RDD
轉(zhuǎn)換操作
動作操作
保存文件
緩存
檢查點(diǎn)
通過pipe方法調(diào)用系統(tǒng)命令操作RDD
小結(jié)
第13章高級RDD
Key-Value基礎(chǔ) (Key-Value RDD)
聚合操作
CoGroups
連接操作
控制分區(qū)
自定義序列化
小結(jié)
第14章分布式共享變量
廣播變量
累加器
小結(jié)
第Ⅳ部分生產(chǎn)與應(yīng)用
第15章 Spark如何在集群上運(yùn)行
Spark應(yīng)用程序的體系結(jié)構(gòu)
Spark應(yīng)用程序的生命周期（Spark外部）
Spark應(yīng)用程序的生命周期（Spark內(nèi)部）
執(zhí)行細(xì)節(jié)
小結(jié)
第16章開發(fā)Spark應(yīng)用程序
編寫Spark應(yīng)用程序
測試Spark應(yīng)用程序
開發(fā)過程
啟動應(yīng)用程序
配置應(yīng)用程序
小結(jié)
第17章部署Spark
在哪里部署Spark集群
集群管理器
其他注意事項(xiàng)
小結(jié)
第18章監(jiān)控與調(diào)試
監(jiān)控級別
要監(jiān)視什么
Spark日志
Spark UI
調(diào)試和Spark搶救方案
小結(jié)
第19章性能調(diào)優(yōu)
間接性能優(yōu)化
直接性能優(yōu)化
小結(jié)
第Ⅴ部分流處理
第20章流處理基礎(chǔ)
什么是流處理？
流處理設(shè)計(jì)要點(diǎn)
Spark的流處理API
小結(jié)
第21章結(jié)構(gòu)化流處理基礎(chǔ)
結(jié)構(gòu)化流處理概述
核心概念
結(jié)構(gòu)化流處理實(shí)例
結(jié)構(gòu)化流上的轉(zhuǎn)換操作
聚合
輸入和輸出
流式Dataset API
小結(jié)
第22章事件時(shí)間和有狀態(tài)處理
事件時(shí)間
有狀態(tài)處理
任意有狀態(tài)處理
事件時(shí)間基礎(chǔ)知識
事件時(shí)間的窗口
在流中刪除重復(fù)項(xiàng)
任意有狀態(tài)處理
小結(jié)
第23章生產(chǎn)中的結(jié)構(gòu)化流處理
容錯和檢查點(diǎn)
更新應(yīng)用程序
度量和監(jiān)視
警報(bào)
使用流偵聽器進(jìn)行高級監(jiān)視
小結(jié)
第Ⅵ部分高級分析與機(jī)器學(xué)習(xí)
第24章高級分析和機(jī)器學(xué)習(xí)概覽
高級分析簡介
Spark的高級分析工具包
高級MLlib概念
MLlib的執(zhí)行
部署模式
小結(jié)
第25章預(yù)處理和特征工程
根據(jù)應(yīng)用場景格式化模型
轉(zhuǎn)換器
預(yù)處理的估計(jì)器
高級轉(zhuǎn)換器
處理連續(xù)型特征
使用類別特征
文本數(shù)據(jù)轉(zhuǎn)換器
特征操作
特征選擇
高級主題
編寫自定義轉(zhuǎn)換器
小結(jié)
第26章分類
應(yīng)用場景
分類的類型
MLlib中的分類模型
邏輯回歸
決策樹
隨機(jī)森林和梯度提升樹
樸素貝葉斯
分類評估器和自動化模型校正
One-vs-Rest分類
多層感知器
小結(jié)
第27章回歸
應(yīng)用場景
MLlib中的回歸模型
線性回歸
廣義線性回歸
決策樹
隨機(jī)森林和梯度提升樹
高級方法
評估器和自動化模型校正
度量標(biāo)準(zhǔn)
小結(jié)
第28章推薦系統(tǒng)
應(yīng)用場景
基于交替最小二乘法的協(xié)同過濾
推薦系統(tǒng)的評估器
度量指標(biāo)
頻繁模式挖掘
小結(jié)
第29章無監(jiān)督學(xué)習(xí)
應(yīng)用場景
模型的可擴(kuò)展性
k-means
二分k-means
高斯混合模型
LDA主題模型
小結(jié)
第30章圖分析
構(gòu)建圖
查詢圖
模式發(fā)現(xiàn)
圖算法
小結(jié)
第31章深度學(xué)習(xí)
什么是深度學(xué)習(xí)？
在Spark中使用深度學(xué)習(xí)
深度學(xué)習(xí)庫
Deep Learning Pipelines的一個(gè)簡單示例
小結(jié)
第Ⅶ部分生態(tài)系統(tǒng)
第32章語言支持：Python(PySpark)和R(SparkR和Sparklyr)
PySpark
Spark中的R
小結(jié)
第33章生態(tài)系統(tǒng)和社區(qū)
Spark軟件包
社區(qū)
小結(jié)

書名：Spark權(quán)威指南

作者：Bill Chambers, Matei Zaharia 著

譯者：張巖峰, 王方京, 陳晶晶譯

國內(nèi)出版社：中國電力出版社

出版時(shí)間：2020年04月

頁數(shù)：534

書號：978-7-5198-4009-9

原版書書名：Spark: The Definitive Guide

原版書出版商：O'Reilly Media

Bill Chambers

Bill Chambers是Databricks的一名產(chǎn)品經(jīng)理，致力于使用Spark和Databricks幫助客戶完成大規(guī)模數(shù)據(jù)分析的任務(wù)。
Bill還定期寫關(guān)于數(shù)據(jù)科學(xué)和大數(shù)據(jù)方面的博客, 并常在各種會議和見面會上展示產(chǎn)品。他擁有加州大學(xué)伯克利分校信息學(xué)院的信息系統(tǒng)碩士學(xué)位, 研究方向?yàn)閿?shù)據(jù)科學(xué)。

查看Bill Chambers更多信息

Matei Zaharia

Matei Zaharia是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系助理教授和Databricks的首席技術(shù)官。他于2009年在加州大學(xué)伯克利分校立了Spark項(xiàng)目，那時(shí)他是一名博士生，并繼續(xù)擔(dān)任pache Spark項(xiàng)目的副主席。Matei Zaharia還是Apache Mesos項(xiàng)目的聯(lián)合創(chuàng)始人，也是Apache Hadoop項(xiàng)目的貢獻(xiàn)者。Matei Zaharia以他出色的研究工作獲得了2014年美國計(jì)算機(jī)學(xué)會博士論文獎（ACM Doctoral Dissertation Award）和VMware系統(tǒng)研究獎（VMware Systems Research Award）。

查看Matei Zaharia更多信息

本書封面上的動物是燕尾鳶（學(xué)名Elanoides forficatus）。這些猛禽在巴西南部到美國東南部的林地和濕地地區(qū)被發(fā)現(xiàn), 它們以小型爬行動物、兩棲動物和哺乳動物，以及大型昆蟲為生，在水源附近筑巢。
燕子鳶往往有20~27英寸長, 在空中滑行時(shí)臂展可達(dá)4英尺, 使用鋒利的叉狀尾巴轉(zhuǎn)向。它們的羽毛黑白相間，形成鮮明的對比。它們大部分時(shí)間是在飛行，甚至貼近水面喝水也不會在陸地上停留。
在猛禽動物中,燕尾鳶屬于群居動物, 通常以大型群落的形式聚集在一起或棲息過夜。在遷移過程中, 它們可以以成百上千的規(guī)模列隊(duì)飛行。
O’Reilly系列叢書封面上的許多動物都瀕臨滅絕，所以它們對這個(gè)世界來說都很重要。要了解有關(guān)如何提供幫助的更多信息，請?jiān)L問animals.oreilly.com。
封面圖片來自Lydekker的The Royal Natural History。

購買選項(xiàng)

定價(jià)：128.00元

書號：978-7-5198-4009-9

出版社：中國電力出版社

聯(lián)系出版社郵購

91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片