Apache Drill學(xué)習(xí)手冊
李凡希 譯
出版時間:2020年05月
頁數(shù):332
跟上Apache Drill的步伐!Apache Drill是一個可擴展的分布式SQL查詢引擎,它可以從各種主流文件格式中讀取數(shù)據(jù),比如Parquet、JSON和CSV。它可以訪問HDFS或類似S3這樣的原生云存儲系統(tǒng),可以與Hive metastore集成,也可以與HBase、MongoDB這樣的分布式數(shù)據(jù)庫或傳統(tǒng)的關(guān)系型數(shù)據(jù)庫集成。它可以在你的筆記本電腦上運行,也可以被部署在超大規(guī)模的集群中。
在本書中,Charels Givre和Paul Rogers兩位Drill項目的Committer向分析師和數(shù)據(jù)科學(xué)家展示了如何使用這個強大的工具對原始數(shù)據(jù)進(jìn)行查詢和分析。當(dāng)今的數(shù)據(jù)科學(xué)家通常需要花費至少80%的時間在收集和清洗數(shù)據(jù)上,通過閱讀本書你會了解到如何使用Drill更高效地分析數(shù)據(jù),降低產(chǎn)出數(shù)據(jù)分析結(jié)果所需要的時間。
● 使用Drill來清洗、準(zhǔn)備和匯總原始數(shù)據(jù)供后期分析使用。
● 對日志文件、Parquet文件、JSON和其他復(fù)雜的數(shù)據(jù)文件進(jìn)行查詢。
● 使用標(biāo)準(zhǔn)SQL對Hadoop、關(guān)系型數(shù)據(jù)庫、MongoDB和Kafka進(jìn)行查詢。
● 通過各種編程語言訪問Drill。
● 使用Drill分析各種結(jié)構(gòu)復(fù)雜或存在二義性的數(shù)據(jù)。
● 通過自定義函數(shù)擴展Drill的功能,完成復(fù)雜的分析任務(wù)。
● 為網(wǎng)絡(luò)安全、圖片元數(shù)據(jù)或機器學(xué)習(xí)數(shù)據(jù)提供分析能力。
- 前言
- 第1章 Apache Drill入門
- 什么是Apache Drill
- 第2章 安裝與運行
- 準(zhǔn)備系統(tǒng)環(huán)境
- 在Windows上安裝Drill
- 在macOS或Linux上安裝嵌入模式的Drill
- 在macOS或 Linux上安裝分布式模式的Drill
- 連接集群
- 小結(jié)
- 第3章 Apache Drill概述
- Apache Hadoop生態(tài)
- Drill操作概述
- 小結(jié)
- 第4章 查詢包含分隔符的數(shù)據(jù)
- 通過Drill查詢數(shù)據(jù)的幾種方式
- Drill SQL查詢格式
- 理解Drill的數(shù)據(jù)類型
- 使用字符串處理函數(shù)清洗和準(zhǔn)備數(shù)據(jù)
- 操作Drill中的日期和時間
- 創(chuàng)建視圖
- 使用Drill進(jìn)行數(shù)據(jù)分析
- 查詢包含分隔符數(shù)據(jù)的常見問題
- 小結(jié)
- 第5章 分析復(fù)合與嵌套數(shù)據(jù)
- 數(shù)組與Map
- 使用Drill分析日志文件
- 小結(jié)
- 第6章 把Drill連接到數(shù)據(jù)源
- 查詢多種數(shù)據(jù)源
- 小結(jié)
- 第7章 連接Drill
- 理解Drill的接口
- 使用Python連接Drill
- 用R語言連接Drill
- 通過Java連接Drill
- 在PHP中查詢Drill
- 使用Node.js查詢Drill
- 在BI工具中使用Drill作為數(shù)據(jù)源
- 小結(jié)
- 第8章 用Drill完成數(shù)據(jù)工程工作
- 讀時Schema
- 數(shù)據(jù)源推導(dǎo)
- 文件類型推導(dǎo)
- Schema推導(dǎo)概述
- 分布式掃描
- 在文件間保證Schema一致
- JSON對象
- 在Drill中使用Parquet文件格式
- 分區(qū)數(shù)據(jù)目錄
- 處理生產(chǎn)環(huán)境中的查詢
- 小結(jié)
- 第9章 在生產(chǎn)環(huán)境部署Drill
- 安裝Drill
- 配置存儲
- 準(zhǔn)入控制
- 其他配置
- 監(jiān)控
- 其他部署選項
- 小結(jié)
- 第10章 搭建開發(fā)環(huán)境
- 安裝Maven
- 創(chuàng)建Drill的編譯環(huán)境
- 安裝IDE
- 小結(jié)
- 第11章 編寫用戶自定義函數(shù)
- 用例:找出合法的信用卡號碼
- Drill中的用戶自定義函數(shù)是怎么工作的
- Drill的簡單UDF結(jié)構(gòu)
- 構(gòu)建與安裝UDF
- 復(fù)合函數(shù):返回Map或數(shù)組的UDF
- 編寫聚合UDF
- 小結(jié)
- 第12章 編寫格式插件
- 正則表達(dá)式格式插件
- 基于Easy框架創(chuàng)建格式插件
- 創(chuàng)建正則表達(dá)式格式插件配置類
- 創(chuàng)建格式插件類
- 記錄讀取器
- 測試讀取器
- 其他細(xì)節(jié)
- 小結(jié)
- 第13章 特殊用法
- 查找在特定區(qū)域拍攝的照片
- 分析Excel文件
- 用Drill分析網(wǎng)絡(luò)數(shù)據(jù)包(PCAP文件)
- 使用Drill分析Twitter數(shù)據(jù)
- 在機器學(xué)習(xí)流程中使用Drill
- 小結(jié)
- 附錄A Drill函數(shù)列表
- 附錄B Drill格式化字符串
書名:Apache Drill學(xué)習(xí)手冊
譯者:李凡希 譯
國內(nèi)出版社:中國電力出版社
出版時間:2020年05月
頁數(shù):332
書號:978-7-5198-4398-4
原版書書名:Learning Apache Drill
原版書出版商:O'Reilly Media
Charles Givre
Charles Givre擁有CISSP認(rèn)證,是德意志銀行中央安全辦公室(CSO)的首席數(shù)據(jù)科學(xué)家,還是布蘭迪斯大學(xué)專業(yè)研究生院的戰(zhàn)略分析項目的主席。他曾在Strata、BlackHat等國際會議上進(jìn)行了有關(guān)數(shù)據(jù)科學(xué)和安全的演講和培訓(xùn)。他是Apache Drill項目的PMC成員。他擁有亞利桑那大學(xué)的計算機科學(xué)理學(xué)學(xué)士學(xué)位和長號演奏音樂學(xué)士學(xué)位以及布蘭迪斯大學(xué)的文學(xué)碩士學(xué)位。Charles的博客地址是thedataist.com,Twitter賬號是@cgivre。閑暇時間他會跟妻子和孩子們一起玩或是修復(fù)英國跑車。
Paul Rogers
Paul Rogers是Apache Drill項目的PMC成員并長期進(jìn)行系統(tǒng)開發(fā)。Paul曾就職于Informix(關(guān)系型數(shù)據(jù)庫)、Rational(Rational Rose,UML工具)、Versant(對象數(shù)據(jù)庫)、Actuate(早期的BI工具供應(yīng)商)、Skytide(早期的大數(shù)據(jù)分析公司)、Oracle、MapR和Cloudera。他對系統(tǒng)的內(nèi)部實現(xiàn)很感興趣:他開發(fā)了Drill-on-YARN功能并優(yōu)化了Drill的向量內(nèi)存管理。Paul擁有加州大學(xué)圣塔芭芭拉分校的理學(xué)學(xué)士學(xué)位和加州大學(xué)伯克利分校的工商管理碩士學(xué)位。
本書封面上的動物是山魈(學(xué)名Mandrillus sphinx),它屬于猴科(即舊世界猴,學(xué)名Cercopithecidae)山魈屬。鬼狒(Drill)是山魈屬中的另一種的動物。它們因為與狒狒很相像而一度被歸屬于狒狒屬。
這些靈長類的動物主要棲息地是非洲的喀麥隆南部、加蓬、剛果和赤道幾內(nèi)亞的熱帶雨林。它們通常以部落的形式成群生活,繁殖季節(jié)是七月到九月,并在十二月到次年四月之間生育下一代。山魈是世界上體型最大的猴子,它們以水果和昆蟲等雜食為生。
山魈的皮毛是橄欖綠色或深灰色,腹部為白色。它們的臉上沒有毛,鼻子兩側(cè)有很有特色的藍(lán)色脊,并且中間有一條紅色的條紋。山魈的臀部也是彩色的,生殖器周圍有藍(lán)色、紅色、粉紅色和紫色的標(biāo)記。這些顏色在成年雄性山魈身上更為明顯。
吉尼斯世界紀(jì)錄中記載的最大山魈的體重達(dá)到130磅(60千克),但普通山魈的體重大約在22~33磅(雌性)或40~80磅(雄性)左右。山魈的天敵是豹子,但年輕的山魈也常常受到來自冠雕、非洲巖蟒或其它毒蛇的攻擊。成年雄性山魈有時可以通過攻擊性的對視、用力搖頭或拍打地面來抵抗豹子的攻擊。它們有時還會使用一些更為安靜的交流方式,比如露出牙齒或晃動腦袋。國際自然保護(hù)聯(lián)盟把山魈歸為易危物種。
出現(xiàn)在O’Reilly圖書封面上的很多動物都瀕臨滅絕,這些動物對于世界來說都很重要。要了解如何參與保護(hù)這些動物,請訪問animals.oreilly.com。
封面圖片來自Lydekker的Royal Natural History。