大主宰天蚕土豆,好看的小说君子以泽

Spark大數(shù)據(jù)算法

蘇金國譯

出版時間：2024年05月

頁數(shù)：485

“如果你希望采用一種可伸縮的方式實現(xiàn)現(xiàn)有算法，或者正在使用Spark開發(fā)新的自定義算法，這本書將是一個絕好的資源?！?br /> ——Matei Zaharia
斯坦福大學(xué)計算機科學(xué)副教授；Databricks首席技術(shù)專家；Apache Spark創(chuàng)始人

Apache Spark不僅速度快，易于使用，還提供了豐富的分析能力和多語言支持，掌握這個集群計算框架的實用知識已經(jīng)成為數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家的必備技能。利用這本實用指南，想要了解Spark的人能從中學(xué)到實用的PySpark算法和示例。
每一章中，本書作者會向你展示如何用一組Spark轉(zhuǎn)換和算法解決一個數(shù)據(jù)問題。你會了解如何應(yīng)對涉及ETL、設(shè)計模式、機器學(xué)習(xí)算法、數(shù)據(jù)分區(qū)和基因組分析的問題。每個技巧都提供了利用PySpark驅(qū)動器的PySpark算法和shell腳本。
利用這本書，你將學(xué)習(xí)以下內(nèi)容：
● 了解如何選擇Spark轉(zhuǎn)換實現(xiàn)優(yōu)化的解決方案。
● 探索強大的轉(zhuǎn)換和歸約，包括reduceByKey()、combineByKey()和mapPartitions()。
● 理解數(shù)據(jù)分區(qū)以實現(xiàn)優(yōu)化查詢。
● 使用PySpark設(shè)計模式構(gòu)建和應(yīng)用模型。
● 對圖數(shù)據(jù)應(yīng)用motif查找算法。
● 使用GraphFrames API分析圖數(shù)據(jù)。
● 對臨床醫(yī)學(xué)和基因組數(shù)據(jù)應(yīng)用PySpark算法。
● 學(xué)習(xí)如何在ML算法中使用和應(yīng)用特征工程。
● 了解并使用實用的數(shù)據(jù)設(shè)計模式。

目錄
產(chǎn)品信息
關(guān)于作者
封面介紹

序
前言
第I部分基礎(chǔ)知識
第1章 Spark和PySpark簡介
1.1 為什么使用Spark完成數(shù)據(jù)分析
1.1.1 Spark生態(tài)系統(tǒng)
1.1.2 Spark架構(gòu)
1.2 PySpark的能力
1.3 Spark數(shù)據(jù)抽象
1.3.1 RDD示例
1.3.2 Spark RDD操作
1.3.3 DataFrame 示例
1.4 使用PySpark Shell
1.4.1 啟動PySpark Shell
1.4.2 由集合創(chuàng)建RDD
1.4.3 聚合和合并鍵的值
1.4.4 過濾RDD的元素
1.4.5 對類似的鍵分組
1.4.6 聚合類似鍵的值
1.5 使用DataFrame的ETL示例
1.5.1 抽取
1.5.2 轉(zhuǎn)換
1.5.3 加載
1.6 小結(jié)
第2章轉(zhuǎn)換實戰(zhàn)
2.1 DNA堿基計數(shù)示例
2.1.1 DNA堿基計數(shù)問題
2.1.2 FASTA格式
2.1.3 示例數(shù)據(jù)
2.2 DNA堿基計數(shù)解決方案1
2.2.1 步驟1：由輸入創(chuàng)建一個RDD[String]
2.2.2 步驟2：定義一個映射器函數(shù)
2.2.3 步驟3：得出DNA字母頻度
2.2.4 解決方案1的優(yōu)缺點
2.3 DNA堿基計數(shù)解決方案2
2.3.1 步驟1：由輸入創(chuàng)建一個RDD[String]
2.3.2 步驟2：定義一個映射器函數(shù)
2.3.3 步驟3：得出DNA字母頻度
2.3.4 解決方案2的優(yōu)缺點
2.4 DNA堿基計數(shù)解決方案3
2.4.1 mapPartitions()轉(zhuǎn)換
2.4.2 步驟1：由輸入創(chuàng)建一個RDD[String]
2.4.3 步驟2：定義函數(shù)處理一個分區(qū)
2.4.4 步驟3：對各個分區(qū)應(yīng)用自定義函數(shù)
2.4.5 解決方案3的優(yōu)缺點
2.5 小結(jié)
第3章映射器轉(zhuǎn)換
3.1 數(shù)據(jù)抽象和映射器
3.2 轉(zhuǎn)換是什么？
3.2.1 懶轉(zhuǎn)換
3.2.2 map()轉(zhuǎn)換
3.2.3 DataFrame映射器
3.3 flatMap()轉(zhuǎn)換
3.3.1 map()與flatMap()
3.3.2 對DataFrame應(yīng)用flatMap()
3.4 mapValues()轉(zhuǎn)換
3.5 flatMapValues()轉(zhuǎn)換
3.6 mapPartitions()轉(zhuǎn)換
3.6.1 處理空分區(qū)
3.6.2 優(yōu)缺點
3.6.3 DataFrame和mapPartitions()轉(zhuǎn)換
3.7 小結(jié)
第4章 Spark中的歸約
4.1 創(chuàng)建（鍵，值）對RDD
4.2 歸約轉(zhuǎn)換
4.3 Spark的歸約
4.4 簡單熱身示例
4.4.1 使用reduceByKey()的解決方案
4.4.2 使用groupByKey()的解決方案
4.4.3 使用aggregateByKey()的解決方案
4.4.4 使用combineByKey()的解決方案
4.5 什么是Monoid？
4.6 電影問題
4.6.1 要分析的輸入數(shù)據(jù)集
4.6.2 aggregateByKey()轉(zhuǎn)換
4.6.3 使用aggregateByKey()的第一個解決方案
4.6.4 使用aggregateByKey()的第二個解決方案
4.6.5 使用groupByKey()的完整PySpark解決方案
4.6.6 使用reduceByKey()的完整PySpark解決方案
4.6.7 使用combineByKey()的完整PySpark解決方案
4.7 歸約中的洗牌步驟
4.7.1 groupByKey()的洗牌步驟
4.7.2 reduceByKey()的洗牌步驟
4.8 小結(jié)
第II部分處理數(shù)據(jù)
第5章數(shù)據(jù)分區(qū)
5.1 分區(qū)簡介
5.2 管理分區(qū)
5.2.1 默認分區(qū)
5.2.2 顯式分區(qū)
5.3 為SQL查詢完成物理分區(qū)
5.4 Spark中的數(shù)據(jù)物理分區(qū)
5.4.1 分區(qū)為文本格式
5.4.2 分區(qū)為Parquet格式
5.5 如何查詢分區(qū)數(shù)據(jù)
5.6 小結(jié)
第6章圖算法
6.1 圖介紹
6.2 GraphFrames API
6.2.1 如何使用GraphFrames
6.2.2 GraphFrames函數(shù)和屬性
6.3 GraphFrames算法
6.3.1 查找三角形
6.3.2 Motif查找
6.4 實際示例
6.4.1 基因分析
6.4.2 社交推薦
6.4.3 Facebook朋友圈
6.4.4 連通分量
6.4.5 分析航班數(shù)據(jù)
6.5 小結(jié)
第7章與外部數(shù)據(jù)源交互
7.1 關(guān)系數(shù)據(jù)庫
7.1.1 讀取數(shù)據(jù)庫
7.1.2 將DataFrame寫入數(shù)據(jù)庫
7.2 讀取文本文件
7.3 讀寫CSV文件
7.3.1 讀CSV文件
7.3.2 寫CSV文件
7.4 讀寫JSON文件
7.4.1 讀JSON文件
7.4.2 寫JSON文件
7.5 讀寫Amazon S3
7.5.1 從Amazon S3讀取
7.5.2 寫入Amazon S3
7.6 讀寫Hadoop文件
7.6.1 讀Hadoop文本文件
7.6.2 寫Hadoop文本文件
7.6.3 讀寫HDFS SequenceFile
7.7 讀寫Parquet文件
7.7.1 寫Parquet文件
7.7.2 讀Parquet文件
7.8 讀寫Avro文件
7.8.1 讀Avro文件
7.8.2 寫Avro文件
7.9 讀寫MS SQL Server
7.9.1 寫MS SQL Server
7.9.2 讀MS SQL Server
7.10 讀取圖像文件
7.11 小結(jié)
第8章排名算法
8.1 秩序乘積
8.1.1 計算秩序乘積
8.1.2 秩序乘積描述
8.1.3 秩序乘積示例
8.1.4 PySpark解決方案
8.2 PageRank
8.2.1 PageRank的迭代計算
8.2.2 使用RDD的自定義PySpark PageRank算法實現(xiàn)
8.2.3 使用鄰接矩陣的自定義PySpark PageRank算法實現(xiàn)
8.2.4 使用GraphFrames實現(xiàn)的PageRank
8.3 小結(jié)
第III部分數(shù)據(jù)設(shè)計模式
第9章經(jīng)典數(shù)據(jù)設(shè)計模式
9.1 輸入–映射–輸出
9.1.1 RDD解決方案
9.1.2 DataFrame解決方案
9.1.3 扁平映射器功能
9.2 輸入–過濾–輸出
9.2.1 RDD解決方案
9.2.2 DataFrame解決方案
9.2.3 DataFrame過濾器
9.3 輸入–映射–歸約–輸出
9.3.1 RDD解決方案
9.3.2 DataFrame解決方案
9.4 輸入–多重–映射–歸約–輸出
9.4.1 RDD解決方案
9.4.2 DataFrame解決方案
9.5 輸入–映射–組合器–歸約–輸出
9.6 輸入–映射分區(qū)–歸約–輸出
9.7 倒排索引
9.7.1 問題陳述
9.7.2 輸入
9.7.3 輸出
9.7.4 PySpark解決方案
9.8 小結(jié)
第10章實用數(shù)據(jù)設(shè)計模式
10.1 映射器內(nèi)部組合
10.1.1 基本MapReduce算法
10.1.2 按記錄映射器內(nèi)部組合
10.1.3 按分區(qū)映射器內(nèi)部組合
10.2 Top-10
10.2.1 Top-N形式化描述
10.2.2 PySpark解決方案
10.2.3 查找Bottom 10
10.3 MinMax
10.3.1 解決方案1：傳統(tǒng)MapReduce
10.3.2 解決方案2：排序
10.3.3 解決方案3：Spark的mapPartitions()
10.4 復(fù)合模式和Monoid
10.4.1 Monoid
10.4.2 Monoid和非Monoid示例
10.4.3 非Monoid MapReduce示例
10.4.4 Monoid MapReduce示例
10.4.5 Monoid均值計算的PySpark實現(xiàn)
10.4.6 函子和幺半群
10.4.7 幺半群使用小結(jié)
10.5 分箱
10.6 排序
10.7 小結(jié)
第11章連接設(shè)計模式
11.1 連接操作介紹
11.2 MapReduce中的連接
11.2.1 映射階段
11.2.2 歸約器階段
11.2.3 PySpark實現(xiàn)
11.3 使用RDD的映射端連接
11.4 使用DataFrame的映射端連接
11.4.1 步驟1：創(chuàng)建Airports緩存
11.4.2 步驟2：創(chuàng)建Airlines緩存
11.4.3 步驟3：創(chuàng)建事實表
11.4.4 步驟4：應(yīng)用映射端連接
11.5 使用Bloom過濾器的高效連接
11.5.1 Bloom過濾器
11.5.2 一個簡單的Bloom過濾器示例
11.5.3 Python中的Bloom過濾器
11.5.4 PySpark中使用Bloom過濾器
11.6 小結(jié)
第12章 PySpark中的特征工程
12.1 特征工程介紹
12.2 增加新特征
12.3 應(yīng)用UDF
12.4 創(chuàng)建管道
12.5 二值化數(shù)據(jù)
12.6 填充
12.7 分詞
12.7.1 Tokenizer
12.7.2 RegexTokenizer
12.7.3 管道分詞
12.8 標(biāo)準(zhǔn)化
12.9 歸一化
12.9.1 使用管道縮放一列
12.9.2 在多列上使用 MinMaxScaler
12.9.3 使用Normalizer歸一化
12.10 字符串索引
12.10.1 對單列應(yīng)用StringIndexer
12.10.2 對多列應(yīng)用StringIndexer
12.11 向量組合
12.12 分桶
12.12.1 Bucketizer
12.12.2 QuantileDiscretizer
12.13 對數(shù)轉(zhuǎn)換
12.14 獨熱編碼
12.15 TF-IDF
12.16 FeatureHasher
12.17 SQLTransformer
12.18 小結(jié)

書名：Spark大數(shù)據(jù)算法

作者：Mahmoud Parsian 著

譯者：蘇金國譯

國內(nèi)出版社：中國電力出版社

出版時間：2024年05月

頁數(shù)：485

書號：978-7-5198-8772-8

原版書書名：Data Algorithms with Spark

原版書出版商：O'Reilly Media

Mahmoud Parsian

Mahmoud Parsian，計算機科學(xué)博士，是一位熱衷于實踐的軟件專家，作為開發(fā)人員、設(shè)計人員、架構(gòu)師和作者，他有30多年的軟件開發(fā)經(jīng)驗。目前領(lǐng)導(dǎo)著Illumina的大數(shù)據(jù)團隊，在過去15年間，他主要從事Java (服務(wù)器端)、數(shù)據(jù)庫、MapReduce和分布式計算的有關(guān)工作。Mahmoud還著有《JDBC Recipes》和《JDBC Metadata， MySQL，and Oracle Recipes》等書（均由Apress出版）。

查看Mahmoud Parsian更多信息

本書的封面動物是一只棘尾雷雀（學(xué)名：Aphrastura spinicauda）。這種小型鳥常見于智利和阿根廷的溫帶森林以及亞熱帶干草地和灌木叢。棘尾雷雀有黑色的頭部和喙，頸部和肚子為白色，還有延伸到脖子后面的橙色的“眉毛”。它們的上覆羽為黑色，頂端白色，翅飛羽卻是紅橙色，帶淺棕色條紋。棘尾雷雀全身以及獨特的尾巴混合了黑色、棕色和鐵銹色羽毛，并有狹窄突出的尾羽，這也是它得名“棘尾”的原因。
這些鳥只有13~14厘米長，重約10~13克，不到半盎司！它們非常活躍，充滿好奇，而且喜歡鳴叫，在樹葉、苔蘚、地衣、樹枝和樹干中覓食，偶爾也會在地面上尋找食物。它們在南半球春季和夏季（10月到下一年的1月）產(chǎn)卵，在樹干、縫隙甚至屋頂下筑巢。雌鳥會在由藤蔓、樹根、草和羽毛搭建的巢中產(chǎn)下3~4枚卵，雄鳥和雌鳥共同孵化兩周左右。與大多數(shù)鳥類不同，棘尾雷雀不遷徙，但它們是一夫一妻制，通常成對出現(xiàn)，或者常常組成不超過15只鳥的小群體。棘尾雷雀的數(shù)量很穩(wěn)定，被國際自然保護聯(lián)盟認為是最不受關(guān)注的物種。O’Reilly封面上的很多動物都瀕臨滅絕；所有這些動物對我們的世界都很重要。

購買選項

定價：148.00元

書號：978-7-5198-8772-8

出版社：中國電力出版社

聯(lián)系出版社郵購

91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片