數(shù)據(jù)工程之道:設(shè)計(jì)和構(gòu)建健壯的數(shù)據(jù)系統(tǒng)
王夢(mèng)蛟, 陽(yáng)沁珂, 李佳寧, 李卓恒 譯
出版時(shí)間:2024年03月
頁(yè)數(shù):357
“數(shù)據(jù)工程發(fā)展至今已經(jīng)經(jīng)歷過多輪迭代。從事數(shù)據(jù)工程的人員從數(shù)據(jù)庫(kù)設(shè)計(jì)師開始,發(fā)展到數(shù)據(jù)庫(kù)管理員、CIO、數(shù)據(jù)架構(gòu)師。這本書揭示了數(shù)據(jù)行業(yè)的迭代和發(fā)展方向,是數(shù)據(jù)工程領(lǐng)域?qū)I(yè)提升和職業(yè)發(fā)展的必讀書?!?br />
——Bill Inmon
數(shù)據(jù)倉(cāng)庫(kù)之父
“這是一本非常好的介紹移動(dòng)、處理和操作數(shù)據(jù)的書。我向所有想要快速提高數(shù)據(jù)工程或者數(shù)據(jù)分析能力的人,以及想要查漏補(bǔ)缺的從業(yè)人員強(qiáng)烈推薦這本書?!?br />
——Jordan Tigani
MotherDuck的創(chuàng)始人和CEO,BigQuery的初創(chuàng)工程師和聯(lián)合創(chuàng)始人
數(shù)據(jù)工程在過去的十幾年發(fā)展迅速,許多軟件工程師、數(shù)據(jù)科學(xué)家和分析師想要追尋數(shù)據(jù)工程的全景。通過這本實(shí)用的書,你將學(xué)會(huì)通過數(shù)據(jù)工程生命周期框架評(píng)估現(xiàn)有的最佳技術(shù),從而規(guī)劃和構(gòu)建系統(tǒng)來滿足組織和客戶的需求。
作者將帶領(lǐng)你了解數(shù)據(jù)工程生命周期,并展示各種云技術(shù)的組合運(yùn)用來滿足下游數(shù)據(jù)消費(fèi)者的需求。你將了解如何應(yīng)用數(shù)據(jù)生成、攝取、編排、轉(zhuǎn)換、存儲(chǔ)和治理的概念,無論底層技術(shù)如何,這些概念在任何數(shù)據(jù)環(huán)境中都至關(guān)重要。
本書將幫助你:
● 全面概覽數(shù)據(jù)工程領(lǐng)域。
● 使用端到端的最佳實(shí)踐框架來評(píng)估數(shù)據(jù)工程問題。
● 看穿營(yíng)銷炒作,選擇正確的技術(shù)、數(shù)據(jù)架構(gòu)和流程。
● 使用數(shù)據(jù)工程生命周期來設(shè)計(jì)和構(gòu)建健壯的架構(gòu)。
● 將數(shù)據(jù)治理和數(shù)據(jù)安全融入數(shù)據(jù)工程生命周期。
- 前言
- 第一部分 基礎(chǔ)和構(gòu)建塊
- 第1章 數(shù)據(jù)工程概述
- 1.1 什么是數(shù)據(jù)工程
- 1.2 數(shù)據(jù)工程技能和活動(dòng)
- 1.3 組織內(nèi)部的數(shù)據(jù)工程師
- 1.4 總結(jié)
- 1.5 補(bǔ)充資料
- 第2章 數(shù)據(jù)工程生命周期
- 2.1 什么是數(shù)據(jù)工程生命周期
- 2.2 數(shù)據(jù)工程生命周期中的主要底層設(shè)計(jì)
- 2.3 總結(jié)
- 2.4 補(bǔ)充資料
- 第3章 設(shè)計(jì)好的數(shù)據(jù)架構(gòu)
- 3.1 什么是數(shù)據(jù)架構(gòu)
- 3.2 好的數(shù)據(jù)架構(gòu)的原則
- 3.3 主要架構(gòu)概念
- 3.4 數(shù)據(jù)架構(gòu)的示例和類型
- 3.5 誰參與了數(shù)據(jù)架構(gòu)的設(shè)計(jì)
- 3.6 總結(jié)
- 3.7 補(bǔ)充資料
- 第4章 根據(jù)數(shù)據(jù)生命周期選擇技術(shù)
- 4.1 團(tuán)隊(duì)大小和能力
- 4.2 加速市場(chǎng)化
- 4.3 互操作性
- 4.4 成本優(yōu)化和商業(yè)價(jià)值
- 4.5 現(xiàn)在與未來:不變的與暫時(shí)的技術(shù)
- 4.6 部署位置
- 4.7 構(gòu)建與購(gòu)買
- 4.8 單體與模塊化
- 4.9 無服務(wù)器與服務(wù)器
- 4.10 優(yōu)化、性能和基準(zhǔn)戰(zhàn)爭(zhēng)
- 4.11 底層設(shè)計(jì)及其對(duì)技術(shù)選擇的影響
- 4.12 總結(jié)
- 4.13 補(bǔ)充資料
- 第二部分 深入數(shù)據(jù)工程生命周期
- 第5章 源系統(tǒng)中的數(shù)據(jù)生成
- 5.1 數(shù)據(jù)源:數(shù)據(jù)是如何生成的?
- 5.2 源系統(tǒng):主要觀點(diǎn)
- 5.3 源系統(tǒng)實(shí)際細(xì)節(jié)
- 5.4 你和誰一起工作
- 5.5 數(shù)據(jù)底層設(shè)計(jì)及其對(duì)源系統(tǒng)的影響
- 5.6 總結(jié)
- 5.7 補(bǔ)充資料
- 第6章 存儲(chǔ)
- 6.1 數(shù)據(jù)存儲(chǔ)的原材料
- 6.2 數(shù)據(jù)存儲(chǔ)系統(tǒng)
- 6.3 數(shù)據(jù)工程存儲(chǔ)抽象
- 6.4 存儲(chǔ)的重要思想和趨勢(shì)
- 6.5 你和誰一起工作
- 6.6 底層設(shè)計(jì)
- 6.7 總結(jié)
- 6.8 補(bǔ)充資料
- 第7章 獲取
- 7.1 什么是數(shù)據(jù)獲取
- 7.2 數(shù)據(jù)獲取階段的關(guān)鍵工程考慮因素
- 7.3 批量獲取的考慮因素
- 7.4 消息和流獲取的考慮因素
- 7.5 獲取數(shù)據(jù)的方式
- 7.6 你和誰一起工作
- 7.7 底層設(shè)計(jì)
- 7.8 總結(jié)
- 7.9 補(bǔ)充資料
- 第8章 查詢、建模和轉(zhuǎn)換
- 8.1 查詢
- 8.2 數(shù)據(jù)建模
- 8.3 轉(zhuǎn)換
- 8.4 你和誰一起工作
- 8.5 底層設(shè)計(jì)
- 8.6 總結(jié)
- 8.7 補(bǔ)充資料
- 第9章 為分析、機(jī)器學(xué)習(xí)和反向ETL提供數(shù)據(jù)服務(wù)
- 9.1 提供數(shù)據(jù)服務(wù)的常見關(guān)注點(diǎn)
- 9.2 分析
- 9.3 機(jī)器學(xué)習(xí)
- 9.4 數(shù)據(jù)工程師需要理解的機(jī)器學(xué)習(xí)知識(shí)
- 9.5 為分析和機(jī)器學(xué)習(xí)提供數(shù)據(jù)服務(wù)的方法
- 9.6 反向ETL
- 9.7 你和誰一起工作
- 9.8 底層設(shè)計(jì)
- 9.9 總結(jié)
- 9.10 補(bǔ)充資料
- 第三部分 安全、隱私和數(shù)據(jù)工程的未來
- 第10章 安全和隱私
- 10.1 人員
- 10.2 流程
- 10.3 技術(shù)
- 10.4 總結(jié)
- 10.5 補(bǔ)充資料
- 第11章 數(shù)據(jù)工程的未來
- 11.1 常青的數(shù)據(jù)工程生命周期
- 11.2 復(fù)雜性的下降和易用的數(shù)據(jù)工具的興起
- 11.3 云數(shù)據(jù)操作系統(tǒng)及其高互通性
- 11.4 “企業(yè)級(jí)”數(shù)據(jù)工程
- 11.5 數(shù)據(jù)工程師的頭銜和職責(zé)將發(fā)生的變化
- 11.6 超越現(xiàn)代數(shù)據(jù)棧,邁向?qū)崟r(shí)數(shù)據(jù)棧
- 11.7 總結(jié)
- 附錄A 序列化和壓縮技術(shù)的細(xì)節(jié)
- 附錄B 云網(wǎng)絡(luò)
書名:數(shù)據(jù)工程之道:設(shè)計(jì)和構(gòu)建健壯的數(shù)據(jù)系統(tǒng)
譯者:王夢(mèng)蛟, 陽(yáng)沁珂, 李佳寧, 李卓恒 譯
國(guó)內(nèi)出版社:機(jī)械工業(yè)出版社
出版時(shí)間:2024年03月
頁(yè)數(shù):357
書號(hào):978-7-111-74527-3
原版書書名:Fundamentals of Data Engineering
原版書出版商:O'Reilly Media
Joe Reis
Joe Reis是一名“恢復(fù)中的數(shù)據(jù)科學(xué)家”,也是一名數(shù)據(jù)工程師和架構(gòu)師。
Matt Housley
Matt Housley是一名數(shù)據(jù)工程顧問和云專家。