完美世界辰东,好看的电视剧,武道至尊帝临小说

數(shù)據(jù)算法

蘇金國, 楊健康譯

出版時(shí)間：2016年12月

頁數(shù)：696

《數(shù)據(jù)算法：Hadoop/Spark大數(shù)據(jù)處理技巧》介紹了很多基本設(shè)計(jì)模式、優(yōu)化技術(shù)和數(shù)據(jù)挖掘及機(jī)器學(xué)習(xí)解決方案，以解決生物信息學(xué)、基因組學(xué)、統(tǒng)計(jì)和社交網(wǎng)絡(luò)分析等領(lǐng)域的很多問題。這還概要介紹了MapReduce、Hadoop和Spark。
主要內(nèi)容包括：
· 完成超大量交易的購物籃分析。
· 數(shù)據(jù)挖掘算法（K-均值、KNN和樸素貝葉斯）。
· 使用超大基因組數(shù)據(jù)完成DNA和RNA測(cè)序。
· 樸素貝葉斯定理和馬爾可夫鏈實(shí)現(xiàn)數(shù)據(jù)和市場(chǎng)預(yù)測(cè)。
· 推薦算法和成對(duì)文檔相似性。
· 線性回歸、Cox回歸和皮爾遜（Pearson）相關(guān)分析。
· 等位基因頻率和DNA挖掘。
· 社交網(wǎng)絡(luò)分析（推薦系統(tǒng)、三角形計(jì)數(shù)和情感分析）。

目錄
產(chǎn)品信息
關(guān)于作者

序
前言
第1章二次排序：簡(jiǎn)介
二次排序問題解決方案
MapReduce/Hadoop的二次排序解決方案
Spark的二次排序解決方案
第2章二次排序：詳細(xì)示例
二次排序技術(shù)
二次排序的完整示例
運(yùn)行示例——老版本Hadoop API
運(yùn)行示例——新版本Hadoop API
第3章 Top 10列表
Top N設(shè)計(jì)模式的形式化描述
MapReduce/Hadoop實(shí)現(xiàn)：唯一鍵
Spark實(shí)現(xiàn)：唯一鍵
Spark實(shí)現(xiàn)：非唯一鍵
使用takeOrdered()的Spark Top 10解決方案
MapReduce/Hadoop Top 10解決方案：非唯一鍵
第4章左外連接
左外連接示例
MapReduce左外連接實(shí)現(xiàn)
Spark左外連接實(shí)現(xiàn)
使用leftOuterJoin()的Spark實(shí)現(xiàn)
第5章反轉(zhuǎn)排序
反轉(zhuǎn)排序模式示例
反轉(zhuǎn)排序模式的MapReduce/Hadoop實(shí)現(xiàn)
運(yùn)行示例
第6章移動(dòng)平均
示例1：時(shí)間序列數(shù)據(jù)（股票價(jià)格）
示例2：時(shí)間序列數(shù)據(jù)（URL訪問數(shù)）
形式定義
POJO移動(dòng)平均解決方案
MapReduce/Hadoop移動(dòng)平均解決方案
第7章購物籃分析
MBA目標(biāo)
MBA的應(yīng)用領(lǐng)域
使用MapReduce的購物籃分析
Spark解決方案
運(yùn)行Spark實(shí)現(xiàn)的YARN腳本
第8章共同好友
輸入
POJO共同好友解決方案
MapReduce算法
解決方案1: 使用文本的Hadoop實(shí)現(xiàn)
解決方案2: 使用ArrayListOfLongsWritable的Hadoop實(shí)現(xiàn)
Spark解決方案
第9章使用MapReduce實(shí)現(xiàn)推薦引擎
購買過該商品的顧客還購買了哪些商品
經(jīng)常一起購買的商品
推薦連接
第10章基于內(nèi)容的電影推薦
輸入
MapReduce階段1
MapReduce階段2和階段3
Spark電影推薦實(shí)現(xiàn)
第11章使用馬爾可夫模型的智能郵件營銷
馬爾可夫鏈基本原理
使用MapReduce的馬爾可夫模型
Spark解決方案
第12章 K-均值聚類
什么是K-均值聚類
聚類的應(yīng)用領(lǐng)域
K-均值聚類方法非形式化描述：分區(qū)方法
K-均值距離函數(shù)
K-均值聚類形式化描述
K-均值聚類的MapReduce解決方案
K-均值算法Spark實(shí)現(xiàn)
第13章 k-近鄰
kNN分類
距離函數(shù)
kNN示例
kNN算法非形式化描述
kNN算法形式化描述
kNN的類Java非MapReduce解決方案
Spark的kNN算法實(shí)現(xiàn)
第14章樸素貝葉斯
訓(xùn)練和學(xué)習(xí)示例
條件概率
深入分析樸素貝葉斯分類器
樸素貝葉斯分類器：符號(hào)數(shù)據(jù)的MapReduce解決方案
樸素貝葉斯分類器Spark實(shí)現(xiàn)
使用Spark和Mahout
第15章情感分析
情感示例
情感分?jǐn)?shù)：正面或負(fù)面
一個(gè)簡(jiǎn)單的MapReduce情感分析示例
真實(shí)世界的情感分析
第16章查找、統(tǒng)計(jì)和列出大圖中的所有三角形
基本的圖概念
三角形計(jì)數(shù)的重要性
MapReduce/Hadoop解決方案
Spark解決方案
第17章 K-mer計(jì)數(shù)
K-mer計(jì)數(shù)的輸入數(shù)據(jù)
K-mer計(jì)數(shù)應(yīng)用
K-mer計(jì)數(shù)MapReduce/Hadoop解決方案
K-mer計(jì)數(shù)Spark解決方案
第18章 DNA測(cè)序
DNA測(cè)序的輸入數(shù)據(jù)
輸入數(shù)據(jù)驗(yàn)證
DNA序列比對(duì)
DNA測(cè)試的MapReduce算法
第19章 Cox回歸
Cox模型剖析
使用R的Cox回歸
Cox回歸應(yīng)用
Cox回歸POJO解決方案
MapReduce輸入
使用MapReduce的Cox回歸
第20章 Cochran-Armitage趨勢(shì)檢驗(yàn)
Cochran-Armitage算法
Cochran-Armitage應(yīng)用
MapReduce解決方案
第21章等位基因頻率
基本定義
形式化問題描述
等位基因頻率分析的MapReduce解決方案
MapReduce解決方案，階段1
MapReduce解決方案，階段2
MapReduce解決方案，階段3
染色體X 和Y的特殊處理
第22章 T檢驗(yàn)
對(duì)bioset完成T檢驗(yàn)
MapReduce問題描述
輸入
期望輸出
MapReduce解決方案
Spark實(shí)現(xiàn)
第23章皮爾遜相關(guān)系數(shù)
皮爾遜相關(guān)系數(shù)公式
皮爾遜相關(guān)系數(shù)示例
皮爾遜相關(guān)系數(shù)數(shù)據(jù)集
皮爾遜相關(guān)系數(shù)POJO解決方案
皮爾遜相關(guān)系數(shù)MapReduce解決方案
皮爾遜相關(guān)系數(shù)的Spark解決方案
運(yùn)行Spark程序的YARN腳本
使用Spark計(jì)算斯皮爾曼相關(guān)系數(shù)
第24章 DNA堿基計(jì)數(shù)
FASTA格式
FASTQ格式
MapReduce解決方案：FASTA格式
運(yùn)行示例
MapReduce解決方案: FASTQ格式
Spark 解決方案: FASTA格式
Spark解決方案: FASTQ格式
第25章 RNA測(cè)序
數(shù)據(jù)大小和格式
MapReduce工作流
RNA測(cè)序分析概述
RNA測(cè)序MapReduce算法
第26章基因聚合
輸入
輸出
MapReduce解決方案（按單個(gè)值過濾和按平均值過濾）
基因聚合的Spark解決方案
Spark解決方案：按單個(gè)值過濾
Spark解決方案：按平均值過濾
第27章線性回歸
基本定義
簡(jiǎn)單示例
問題描述
輸入數(shù)據(jù)
期望輸出
使用SimpleRegression的MapReduce解決方案
Hadoop實(shí)現(xiàn)類
使用R線性模型的MapReduce解決方案
第28章 MapReduce和幺半群
概述
幺半群的定義
幺半群和非幺半群示例
MapReduce示例：非幺半群
MapReduce示例：幺半群
使用幺半群的Spark示例
使用幺半群的結(jié)論
函子和幺半群
第29章小文件問題
解決方案1：在客戶端合并小文件
解決方案2：用CombineFileInputFormat解決小文件問題
其他解決方案
第30章 MapReduce的大容量緩存
實(shí)現(xiàn)方案
緩存問題形式化描述
一個(gè)精巧、可伸縮的解決方案
實(shí)現(xiàn)LRUMap緩存
使用LRUMap的MapReduce解決方案
第31章 Bloom過濾器
Bloom過濾器性質(zhì)
一個(gè)簡(jiǎn)單的Bloom過濾器示例

書名：數(shù)據(jù)算法

作者：Mahmoud Parsian 著

譯者：蘇金國, 楊健康譯

國內(nèi)出版社：中國電力出版社

出版時(shí)間：2016年12月

頁數(shù)：696

書號(hào)：978-7-5123-9594-7

原版書書名：Data Algorithms

原版書出版商：O'Reilly Media

Mahmoud Parsian

Mahmoud Parsian，計(jì)算機(jī)科學(xué)博士，是一位熱衷于實(shí)踐的軟件專家，作為開發(fā)人員、設(shè)計(jì)人員、架構(gòu)師和作者，他有30多年的軟件開發(fā)經(jīng)驗(yàn)。目前領(lǐng)導(dǎo)著Illumina的大數(shù)據(jù)團(tuán)隊(duì)，在過去15年間，他主要從事Java (服務(wù)器端)、數(shù)據(jù)庫、MapReduce和分布式計(jì)算的有關(guān)工作。Mahmoud還著有《JDBC Recipes》和《JDBC Metadata， MySQL，and Oracle Recipes》等書（均由Apress出版）。

查看Mahmoud Parsian更多信息

購買選項(xiàng)

定價(jià)：128.00元

書號(hào)：978-7-5123-9594-7

出版社：中國電力出版社

聯(lián)系出版社郵購

91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片