流式系統(tǒng)
陳守元 譯
出版時(shí)間:2024年11月
頁數(shù):276
“如果你關(guān)心流式處理和批處理工作的正確性,那么這本書是必讀的。它對(duì)該主題的討論是我看到的思考最清晰、最合邏輯的,其思想也被精彩詮釋?!?br />
——Martin Kleppmann
劍橋大學(xué)
如今,流式數(shù)據(jù)在大數(shù)據(jù)領(lǐng)域中舉足輕重。隨著越來越多的企業(yè)試圖控制遍布世界的大規(guī)模無界數(shù)據(jù)集,流式系統(tǒng)終于達(dá)到了業(yè)界主流可使用的成熟度。通過本書提供的一系列實(shí)用指導(dǎo),數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家和開發(fā)者可以以與平臺(tái)無關(guān)的方式從概念層面學(xué)習(xí)如何處理流數(shù)據(jù)。
本書從第一作者的熱門博客文章“Streaming 101”和“Streaming 102”拓展而成。本書帶領(lǐng)讀者從入門內(nèi)容出發(fā),深入到探討對(duì)處理實(shí)時(shí)數(shù)據(jù)流的定義、位置、時(shí)機(jī)和方法的理解。讀者還會(huì)在本書另外兩位作者的帶領(lǐng)下深入研究水位和精確一次處理。
在本書中讀者將探索以下內(nèi)容:
● 流式數(shù)據(jù)處理模式和批處理數(shù)據(jù)處理模式的比較;
● 健壯的亂序數(shù)據(jù)處理背后的核心原則和概念;
● 如何用水位跟蹤無界數(shù)據(jù)集的處理進(jìn)度和完整性;
● “精確一次”數(shù)據(jù)處理技術(shù)如何確保正確性;
● 流和表的概念是如何構(gòu)成批處理數(shù)據(jù)處理和流式數(shù)據(jù)處理的基
礎(chǔ)的;
● 用真實(shí)的示例闡述強(qiáng)大的持久狀態(tài)機(jī)制背后的實(shí)際動(dòng)機(jī);
● 時(shí)變關(guān)系如何在流式處理與大家熟悉的SQL和關(guān)系代數(shù)的世界之間提供連接。
- 第一部分 Beam模型
- 第1章 流式入門 3
- 1.1 術(shù)語:什么是流式
- 1.2 數(shù)據(jù)處理模式
- 1.3 小結(jié)
- 第2章 數(shù)據(jù)處理的來龍去脈
- 2.1 路線圖
- 2.2 批處理基礎(chǔ):定義及位置
- 2.3 開始流式處理:時(shí)機(jī)及方法
- 2.4 小結(jié)
- 第3章 水位
- 3.1 定義
- 3.2 源水位的創(chuàng)建
- 3.3 水位傳播
- 3.4 百分位數(shù)水位
- 3.5 處理時(shí)間水位
- 3.6 案例分析
- 3.7 小結(jié)
- 第4章 高級(jí)開窗
- 4.1 時(shí)機(jī)/位置:處理時(shí)間開窗
- 4.2 位置:會(huì)話
- 4.3 位置:自定義開窗
- 4.4 小結(jié)
- 第5章 精確一次及副作用
- 5.1 為什么精確一次這么重要
- 5.2 準(zhǔn)確性與完整性
- 5.3 確保在混洗中精確一次
- 5.4 解決確定性
- 5.5 性能
- 5.6 源端的精確一次
- 5.7 匯端的精確一次
- 5.8 使用場(chǎng)景
- 5.9 其他系統(tǒng)
- 5.10 小結(jié)
- 第二部分 流和表
- 第6章 流和表
- 6.1 流和表的基礎(chǔ):流表相對(duì)性的特殊理論
- 6.2 批處理與流和表
- 6.3 流和表世界的定義、位置、時(shí)機(jī)和方法
- 6.4 流表相對(duì)性的通用理論
- 6.5 小結(jié)
- 第7章 持久狀態(tài)的實(shí)踐
- 7.1 動(dòng)機(jī)
- 7.2 隱式狀態(tài)
- 7.3 通用狀態(tài)
- 7.4 小結(jié)
- 第8章 流式SQL
- 8.1 什么是流式SQL
- 8.2 回顧:流和表的偏好
- 8.3 展望:邁向健壯的流式SQL
- 8.4 小結(jié)
- 第9章 流式連接
- 9.1 所有連接都是流式連接
- 9.2 非開窗連接
- 9.3 開窗連接
- 9.4 小結(jié)
- 第10章 大規(guī)模數(shù)據(jù)處理的演進(jìn)
- 10.1 MapReduce
- 10.2 Hadoop
- 10.3 Flume
- 10.4 Storm
- 10.5 Spark
- 10.6 MillWheel
- 10.7 Kafka
- 10.8 Cloud Dataflow
- 10.9 Flink
- 10.10 Beam
- 10.11 小結(jié)
書名:流式系統(tǒng)
譯者:陳守元 譯
國(guó)內(nèi)出版社:人民郵電出版社
出版時(shí)間:2024年11月
頁數(shù):276
書號(hào):978-7-115-64548-7
原版書書名:Streaming Systems
原版書出版商:O'Reilly Media
Tyler Akidau
Tyler Akidau是谷歌的高級(jí)軟件工程師,他是數(shù)據(jù)處理語言與系統(tǒng)團(tuán)隊(duì)的技術(shù)負(fù)責(zé)人。他也是Apache Beam PMC的創(chuàng)始成員。
Slava Chernyak
Slava Chernyak是谷歌西雅圖辦公室的高級(jí)軟件工程師。他花了6年多的時(shí)間研究谷歌內(nèi)部使用的大規(guī)模流式數(shù)據(jù)處理系統(tǒng)。
Reuven Lax
Reuven Lax是谷歌西雅圖辦公室的高級(jí)軟件工程師,過去10多年他一直在幫助制定谷歌的數(shù)據(jù)處理和分析戰(zhàn)略。他也是Apache Beam PMC成員。
本書封面上的動(dòng)物是褐鱒(Salmo trutta),一種原產(chǎn)于歐洲北部的中型魚類,現(xiàn)在分布在全球各地。褐鱒一般重約99 克,長(zhǎng)40~80 厘米。它們?nèi)沓书W亮的棕色,并有許多黑色的斑點(diǎn)。
褐鱒主要以水生無脊椎動(dòng)物為食,盡管它們中的較大個(gè)體也捕食其他魚類。在產(chǎn)卵期間,雌性褐鱒會(huì)產(chǎn)下數(shù)千枚卵。褐鱒需要3~4 年才能長(zhǎng)大成熟。
褐鱒深受垂釣者的歡迎,在19 世紀(jì)和20 世紀(jì)初期,被引入世界各地的湖泊和河流。時(shí)至今日,褐鱒仍被商業(yè)化養(yǎng)殖并被放養(yǎng)用于休閑釣魚。褐鱒是可食用的,可以通過多種方式進(jìn)行烹飪,包括燒烤、煎炸和煙熏。