女人书籍排行榜,我欲封天

構建數據和機器學習平臺

Marco Tranquillin, Valliappa Lakshmanan, Firat Tekiner 著

杜春曉譯

出版時間：2025年06月

頁數：350

“本書很好地介紹了設計和構建跟機構戰(zhàn)略方向對齊的現代化云數據和機器學習平臺所用概念、模式和組件。我真希望自己幾年前就曾讀過它?！?br /> ——Robert Sahlin
Mathem公司數據平臺負責人
所有云架構師都要掌握數據平臺的構建方法，只有這樣，企業(yè)才能快速和高效地利用數據驅動決策，并交付企業(yè)范圍的智能。這本指南介紹如何利用亞馬遜AWS、微軟Azure、谷歌GCP平臺和Snowflake、Databricks等多云工具來設計、構建和打造現代化的云原生數據和機器學習平臺。
三位作者利用真實企業(yè)架構，介紹了云環(huán)境從數據攝取到激活的整個數據生命周期。閱讀本書，你將學到如何轉換、加固和改造數據倉庫和數據湖等熟悉的解決方案，使其走向現代化。你將能利用最新的AI/ML模式，獲取準確和更快的洞察力，繼而贏得競爭優(yōu)勢。
你將學到如何：
● 設計現代化和安全的云原生或混合式數據分析和機器學習平臺。
● 整合數據到妥善治理、可擴展和有彈性的數據平臺，以數據加速創(chuàng)新。
● 實現企業(yè)數據訪問的民主化，治理業(yè)務團隊抽取洞察力的方式，并構建AI/ML能力。
● 賦予業(yè)務團隊用流處理流水線實時決策的能力。
● 構建MLOps平臺，采用預測分析和規(guī)范性分析方法。

目錄
產品信息
關于作者
封面介紹

前言
第1章數據平臺現代化概覽
1.1 數據生命周期
1.1.1 智慧之旅
1.1.2 水管類比
1.1.3 采集
1.1.4 存儲
1.1.5 處理和轉換
1.1.6 分析和可視化
1.1.7 激活
1.2 傳統(tǒng)方法的局限性
1.2.1 反模式：用ETL打破數據孤島
1.2.2 反模式：集中控制
1.2.3 反模式：數據集市和Hadoop
1.3 創(chuàng)建統(tǒng)一的分析平臺
1.3.1 從內部平臺改為云平臺
1.3.2 數據集市和數據湖的缺點
1.3.3 融合數據倉庫和數據湖
1.4 混合云
1.4.1 混合的必要性
1.4.2 混合云的挑戰(zhàn)
1.4.3 混合方案為什么可行
1.4.4 邊緣計算
1.5 采用AI
1.5.1 機器學習
1.5.2 采用機器學習
1.6 AI為什么要上云
1.6.1 云基礎設施
1.6.2 普及機器學習
1.6.3 實時
1.6.4 MLOps
1.7 核心原則
1.8 小結
第2章數據創(chuàng)新戰(zhàn)略步驟
2.1 步驟1：戰(zhàn)略規(guī)劃
2.1.1 戰(zhàn)略目標
2.1.2 識別干系人
2.1.3 變更管理
2.2 步驟2：采用云方法，降低總擁有成本
2.2.1 為什么云的成本更低
2.2.2 上云能省多少錢
2.2.3 上云時機
2.3 步驟3：打破孤島
2.3.1 統(tǒng)一數據訪問
2.3.2 選擇存儲
2.3.3 構建語義層
2.4 步驟4：在上下文更快決策
2.4.1 從批處理到流處理
2.4.2 上下文信息
2.4.3 成本管理
2.5 步驟5：用AI方案包跨越式發(fā)展
2.5.1 預測分析
2.5.2 理解和生成非結構化數據
2.5.3 個性化
2.5.4 解決方案包
2.6 步驟6：運營由AI驅動的工作流
2.6.1 找到自動決策和AI輔助的最佳平衡點
2.6.2 營造數據文化
2.6.3 充實數據科學團隊
2.7 步驟7：將數據作為產品來管理
2.7.1 將產品管理原則應用于數據
2.7.2 理解并維護企業(yè)的數據流地圖
2.7.3 識別關鍵指標
2.7.4 共識標準、承諾的路線圖和愿景性待辦事項
2.7.5 為現有客戶構建產品
2.7.6 管理變更，勇于擔責
2.7.7 客戶訪談，發(fā)現數據需求
2.7.8 充分利用白板和原型
2.7.9 只構建立即就能投入使用的產品
2.7.10 標準化常用實體和KPI
2.7.11 數據平臺提供自助服務
2.8 小結
第3章為數據團隊而設計
3.1 數據處理機構分類
3.2 數據分析驅動型機構
3.2.1 愿景
3.2.2 角色
3.2.3 技術框架
3.3 數據工程驅動型機構
3.3.1 愿景
3.3.2 角色
3.3.3 技術框架
3.4 數據科學驅動型機構
3.4.1 愿景
3.4.2 角色
3.4.3 技術框架
3.5 小結
第4章遷移框架
4.1 數據工作流現代化
4.1.1 全局觀
4.1.2 工作流現代化
4.1.3 工作流自身的改造
4.2 四步走遷移框架
4.2.1 準備和發(fā)現
4.2.2 評估和規(guī)劃
4.2.3 執(zhí)行
4.2.4 優(yōu)化
4.3 評估遷移方案的總成本
4.3.1 審計現有基礎設施
4.3.2 索取信息、建議和報價
4.3.3 概念驗證和最小可行產品
4.4 建立安全和數據治理機制
4.4.1 框架
4.4.2 成果
4.4.3 數據生命周期的治理工作
4.5 架構、流水線和數據遷移
4.5.1 架構遷移
4.5.2 流水線遷移
4.5.3 數據遷移
4.5.4 遷移階段
4.6 小結
第5章構建數據湖
5.1 數據湖和云完美結合
5.1.1 數據湖本地部署的難點
5.1.2 云數據湖的優(yōu)點
5.2 設計和實現
5.2.1 批處理和流處理
5.2.2 數據目錄
5.2.3 Hadoop生態(tài)
5.2.4 云數據湖參考架構
5.3 集成數據湖：真正的超級力量
5.3.1 用API擴展數據湖
5.3.2 數據湖演化：Apache Iceberg、Apache Hudi和 Delta Lake
5.3.3 用筆記本作交互分析
5.4 數據處理和報表民主化
5.4.1 建立對數據的信任
5.4.2 數據攝取仍是IT部門的工作
5.5 數據湖機器學習
5.5.1 用原始數據訓練
5.5.2 數據湖中作預測
5.6 小結
第6章用企業(yè)數據倉庫創(chuàng)新
6.1 現代化數據平臺
6.1.1 機構目標
6.1.2 技術難點
6.1.3 技術趨勢和工具
6.2 中心輻射架構
6.2.1 數據攝取
6.2.2 商業(yè)智能
6.2.3 轉換
6.2.4 機構結構
6.3 數據倉庫賦能數據科學家
6.3.1 查詢接口
6.3.2 Storage API
6.3.3 不移動數據的機器學習
6.4 小結
第7章湖倉一體融合架構
7.1 需要唯一架構
7.1.1 用戶角色
7.1.2 反模式：各系統(tǒng)分離
7.1.3 反模式：數據重復
7.2 融合架構
7.2.1 兩種形式
7.2.2 云存儲上的湖倉一體
7.2.3 SQL優(yōu)先湖倉一體
7.2.4 融合的好處
7.3 小結
第8章流式架構
8.1 流處理的價值
8.1.1 行業(yè)應用場景
8.1.2 流處理應用場景
8.2 流式攝取
8.2.1 流式ETL
8.2.2 流式ELT
8.2.3 流式插入
8.2.4 邊緣設備（IoT）流處理
8.2.5 流數據存儲
8.3 實時看板
8.3.1 實時查詢
8.3.2 物化視圖
8.4 流式分析
8.4.1 時間序列分析
8.4.2 點擊流分析
8.4.3 異常檢測
8.4.4 彈性流處理
8.5 機器學習實現持續(xù)智能
8.5.1 用流數據訓練模型
8.5.2 流式機器學習推斷
8.5.3 自動操作
8.6 小結
第9章利用混合和邊緣架構擴展數據平臺
9.1 為什么采用多云
9.1.1 單云更簡潔、成本效益更高
9.1.2 多云不可避免
9.1.3 多云可以成為一種策略
9.2 多云架構模式
9.2.1 統(tǒng)一管理
9.2.2 一次編寫，到處運行
9.2.3 從本地平臺突擊上云
9.2.4 從本地傳遞上云
9.2.5 流式數據集成
9.3 采用多云策略
9.3.1 框架
9.3.2 時間尺度
9.3.3 定義多云策略的目標架構
9.4 為什么采用邊緣計算
9.4.1 帶寬、時延和不穩(wěn)定連接
9.4.2 應用場景
9.4.3 邊緣計算的優(yōu)勢
9.4.4 挑戰(zhàn)
9.5 邊緣計算架構模式
9.5.1 智能設備
9.5.2 智能網關
9.5.3 機器學習激活
9.6 采用邊緣計算
9.6.1 初始背景
9.6.2 項目
9.6.3 最終成果和下一步計劃
9.7 小結
第10章 AI應用架構
10.1 這是AI和機器學習問題嗎
10.1.1 AI的子領域
10.1.2 生成式AI
10.1.3 適合用機器學習解決的問題
10.2 購買、改造或構建
10.2.1 對數據的考量
10.2.2 何時購買
10.2.3 你可以買什么
10.2.4 如何改造已有模型
10.3 AI架構
10.3.1 理解非結構化數據
10.3.2 生成非結構化數據
10.3.3 預測結果
10.3.4 預測數值
10.3.5 異常檢測
10.3.6 個性化
10.3.7 自動化
10.4 負責任的AI
10.4.1 AI原則
10.4.2 機器學習的公平性
10.4.3 可解釋性
10.5 小結
第11章構建機器學習平臺
11.1 機器學習活動
11.2 開發(fā)機器學習模型
11.2.1 標注環(huán)境
11.2.2 開發(fā)環(huán)境
11.2.3 用戶環(huán)境
11.2.4 準備數據
11.2.5 訓練機器學習模型
11.3 部署機器學習模型
11.3.1 端點部署
11.3.2 評估模型
11.3.3 混合和多云
11.3.4 訓練—服務偏差
11.4 自動化
11.4.1 自動化訓練和部署
11.4.2 用流水線編排
11.4.3 持續(xù)評估和訓練
11.5 選擇機器學習框架
11.5.1 團隊技能
11.5.2 任務考量
11.5.3 以用戶為中心
11.6 小結
第12章數據平臺現代化：典型案例
12.1 新時代新技術
12.1.1 亟待改革
12.1.2 不只是技術問題
12.2 旅程伊始
12.2.1 當前環(huán)境
12.2.2 目標環(huán)境
12.2.3 概念驗證的應用場景
12.3 云供應商提交的RFP響應文件
12.3.1 目標環(huán)境
12.3.2 遷移方法
12.4 RFP評估過程
12.4.1 概念驗證的范圍
12.4.2 執(zhí)行概念驗證
12.4.3 最終決策
12.5 結語
12.6 小結

書名：構建數據和機器學習平臺

作者：Marco Tranquillin, Valliappa Lakshmanan, Firat Tekiner 著

譯者：杜春曉譯

國內出版社：中國電力出版社

出版時間：2025年06月

頁數：350

書號：978-7-5198-9956-1

原版書書名：Architecting Data and Machine Learning Platforms

原版書出版商：O'Reilly Media

Marco Tranquillin

Marco Tranquillin是資深顧問，幫機構用云計算實現技術轉型。

查看Marco Tranquillin更多信息

Valliappa Lakshmanan

Valliappa (Lak) Lakshmanan是Google Cloud的數據分析和AI解決方案負責人。他的團隊借助BigQuery和Google Cloud上的其他數據分析、機器學習產品，構建軟件解決方案來解決業(yè)務問題。

Valliappa Lakshmanan是知名高管，與管理層其他同仁和數據科學團隊一起用數據和AI創(chuàng)造價值。

查看Valliappa Lakshmanan更多信息

Firat Tekiner

Firat Tekiner是創(chuàng)新型產品經理，為全球大型機構開發(fā)并交付數據產品和AI系統(tǒng)。

查看Firat Tekiner更多信息

本書封面上的鳥是栗喉蜂虎（學名：Merops philippinus），為蜂虎科成員，身形纖細，色彩斑斕。
顧名思義，栗喉蜂虎主要以蜜蜂、胡蜂和黃蜂為食。它們喜歡在海邊的棲息地上空飛舞，捕食這些蜂類和其他飛蟲。像所有近雀形目鳥類一樣，它們是陸地鳥類，但通常在沙堤、緩和的山腰挖洞筑巢，而不是在樹上。
栗喉蜂虎廣泛分布于南亞和東南亞地區(qū)，隨季節(jié)遷徙。由于其分布廣且數量穩(wěn)定，世界自然保護聯盟（IUCN）將其列為無危物種。

購買選項

定價：98.00元

書號：978-7-5198-9956-1

出版社：中國電力出版社

聯系出版社郵購

91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片