大數(shù)據(jù)湖最佳實踐
傅建慶, 崔齊挺, 鄭偉杰, 許鬧 譯
出版時間:2020年07月
頁數(shù):240
“Alex是位富有遠見的數(shù)據(jù)人。他把他的實踐見解融入到本書,探討了過渡到數(shù)據(jù)驅(qū)動型企業(yè)涉及的技術(shù)因素、對公司整體的影響以及由此產(chǎn)生的對業(yè)務(wù)的影響?!?br />
——Keyur Desai
TD Ameritrade首席數(shù)據(jù)官
“本書很好地闡述了各類數(shù)據(jù)湖的架構(gòu),包括它們提供了什么價值,帶來了哪些挑戰(zhàn),以及如何應(yīng)對這些挑戰(zhàn)?!?br />
——Jari Koister
FICO產(chǎn)品和技術(shù)副總裁
加州大學伯克利分校的數(shù)據(jù)科學教授
數(shù)據(jù)湖利用大數(shù)據(jù)技術(shù)為企業(yè)提供便捷的數(shù)據(jù)自助服務(wù)能力,這是一項別具一格的創(chuàng)新。但這適合每一個公司嗎?本書基于與100多個組織的從業(yè)者和高管的討論,涉及的組織類型包括Google、LinkedIn和Facebook這類數(shù)據(jù)驅(qū)動型公司以及政府和傳統(tǒng)企業(yè)。通過本書,你將了解什么是數(shù)據(jù)湖,為什么企業(yè)需要它,以及如何使用本書中的最佳實踐成功地構(gòu)建數(shù)據(jù)湖。
本書作者是Waterline Data的首席技術(shù)官兼創(chuàng)始人,他解釋了為什么舊系統(tǒng)、舊流程無法再支持企業(yè)的數(shù)據(jù)需求。在關(guān)于數(shù)據(jù)湖實施的一系列文章中,他介紹了來自各行業(yè)數(shù)據(jù)專家的數(shù)據(jù)湖方案、分析項目、經(jīng)驗以及最佳實踐。
● 數(shù)據(jù)倉庫、大數(shù)據(jù)、數(shù)據(jù)科學的簡單介紹。
● 了解企業(yè)建立數(shù)據(jù)湖的各種途徑。
● 探索如何構(gòu)建自助服務(wù)模型,以及如何讓分析師便捷訪問數(shù)據(jù)的最佳實踐。
● 使用不同的方法來構(gòu)建數(shù)據(jù)湖。
● 了解不同行業(yè)專家實現(xiàn)數(shù)據(jù)湖的方法。
- 前言
- 第1章 數(shù)據(jù)湖概述
- 數(shù)據(jù)湖的成熟度
- 創(chuàng)建成功的數(shù)據(jù)湖
- 成功實施數(shù)據(jù)湖的路線圖
- 構(gòu)建數(shù)據(jù)湖
- 小結(jié)
- 第2章 歷史背景
- 數(shù)據(jù)自助服務(wù)驅(qū)動——數(shù)據(jù)庫的誕生
- 分析必要性驅(qū)動——數(shù)據(jù)倉庫的誕生
- 數(shù)據(jù)倉庫生態(tài)系統(tǒng)
- 小結(jié)
- 第3章 大數(shù)據(jù)和數(shù)據(jù)科學概述
- Hadoop引領(lǐng)大數(shù)據(jù)的歷史性轉(zhuǎn)變
- 數(shù)據(jù)科學
- 你的分析機構(gòu)應(yīng)該關(guān)注什么?
- 機器學習
- 小結(jié)
- 第4章 建立數(shù)據(jù)湖
- 為什么是Hadoop
- 防止數(shù)據(jù)水洼擴散
- 利用大數(shù)據(jù)的優(yōu)勢
- 小結(jié)
- 第5章 從數(shù)據(jù)池/大數(shù)據(jù)倉庫到數(shù)據(jù)湖
- 數(shù)據(jù)倉庫的基本功能
- 遷移至數(shù)據(jù)池
- 數(shù)據(jù)池演化為數(shù)據(jù)湖——加載數(shù)據(jù)倉庫中未包含的數(shù)據(jù)
- 實時數(shù)據(jù)湖
- Lambda架構(gòu)
- 數(shù)據(jù)轉(zhuǎn)換
- 目標系統(tǒng)
- 小結(jié)
- 第6章 自助服務(wù)優(yōu)化
- 自助服務(wù)起源
- 業(yè)務(wù)分析師
- 數(shù)據(jù)湖數(shù)據(jù)整理
- 分析和可視化
- 自助式商業(yè)智能的新世界
- 小結(jié)
- 第7章 數(shù)據(jù)湖架構(gòu)
- 規(guī)劃數(shù)據(jù)湖
- 多數(shù)據(jù)湖
- 云上數(shù)據(jù)湖
- 虛擬數(shù)據(jù)湖
- 小結(jié)
- 第8章 數(shù)據(jù)湖元數(shù)據(jù)
- 組織數(shù)據(jù)
- 打標
- 邏輯數(shù)據(jù)管理
- 連接分散的數(shù)據(jù)
- 建立血緣關(guān)系
- 數(shù)據(jù)預(yù)置
- 創(chuàng)建目錄的工具
- 數(shù)據(jù)洋
- 小結(jié)
- 第9章 數(shù)據(jù)訪問控制
- 授權(quán)與訪問控制
- 基于標簽的控制策略
- 數(shù)據(jù)脫敏
- 自助服務(wù)訪問管理
- 小結(jié)
- 第10章 行業(yè)案例
- 金融服務(wù)大數(shù)據(jù)
- 數(shù)據(jù)湖為金融服務(wù)領(lǐng)域帶來的價值
- 保險行業(yè)中的數(shù)據(jù)湖
- 智慧城市
- 醫(yī)療大數(shù)據(jù)
書名:大數(shù)據(jù)湖最佳實踐
譯者:傅建慶, 崔齊挺, 鄭偉杰, 許鬧 譯
國內(nèi)出版社:中國電力出版社
出版時間:2020年07月
頁數(shù):240
書號:978-7-5198-4590-2
原版書書名:The Enterprise Big Data Lake
原版書出版商:O'Reilly Media
Alex Gorelik
Alex Gorelik最近30年一直從事開發(fā)和部署最先進的數(shù)據(jù)相關(guān)技術(shù),致力于幫助BAE (Eurofighter)、Unilever、IBM、Royal Caribbean、Kaiser和Goldman Sachs等大公司以及其他幾十個公司解決棘手的相關(guān)數(shù)據(jù)問題。
Alex是一家ETL公司(即Acta,被Gartner認為是一家有遠見的公司,已被Business Objects/ SAP收購)的聯(lián)合創(chuàng)始人兼CTO,他在大型分析和數(shù)據(jù)倉庫領(lǐng)域進行過數(shù)年的實踐咨詢,擁有數(shù)據(jù)倉庫建設(shè)方面的第一手經(jīng)驗。他的第二家公司Exeros(已被IBM收購)專注于幫助大型企業(yè)理解并管理數(shù)據(jù)。作為IBM的杰出工程師以及Informatica的高級副總裁和總經(jīng)理,他領(lǐng)導了Hadoop技術(shù)的開發(fā)和運用。最后,作為常駐Menlo Ventures的企業(yè)家以及Waterline的創(chuàng)始人兼CTO,他曾與管理大數(shù)據(jù)湖以及從事數(shù)據(jù)科學的權(quán)威專家們一起合作,這些專家普遍來自于Google、LinkedIn、大型銀行、政府機構(gòu)這樣的大型企業(yè)。Alex擁有哥倫比亞大學的計算機科學碩士學位和斯坦福大學的計算機科學博士學位,他現(xiàn)在與妻子和四個孩子住在舊金山。
本書封面的動物是一只紅胸秋沙鴨(學名:Mergus serrator),一種在北美、歐洲和亞洲各地均有發(fā)現(xiàn)的鋸齒鴨。它是一種候鳥,春季會向北遷徙至淡水湖泊和河流進行繁殖,冬季向南遷徙至沿海地區(qū)。名稱中的“serrator”指的是其喙的鋸齒狀邊緣,它有助于捕食魚類、青蛙、水生昆蟲和甲殼類動物,這種鴨子擅長潛水以及水下尋找食物。
紅胸秋沙鴨具有鮮明的性別特征。雄性具有紅色胸部、深綠色頭部和黑色背部,頸部和腹部則為白色。雌性(如本書封面所示)的色彩則較為柔和,具有紅色頭部和灰色身體。兩者都有尖尖的羽毛。紅胸秋沙鴨可以長到50~60cm。在繁殖季節(jié),雄性會在多個雌性面前通過求愛表演來贏得雌性的青睞,雌性會在靠近水邊的地面上筑巢。
紅胸秋沙鴨擁有鴨類的最快飛行記錄:160km/h(在試圖躲避飛機時)。
O’Reilly圖書封面上的許多動物都瀕臨滅絕,它們對這個世界都很重要。要了解更多關(guān)于如何提供幫助,請訪問animals.oreilly.com。