基于云計算的數(shù)據(jù)科學
馬睿 譯
出版時間:2020年01月
頁數(shù):409
本書將帶領你了解如何使用Google云計算平臺,輕松構建復雜的統(tǒng)計和機器學習解決方案,解決實際業(yè)務問題。本書作為一本動手指南,為開發(fā)人員展示了如何在數(shù)據(jù)科學領域實現(xiàn)端到端的數(shù)據(jù)管道,以及如何在Google云計算平臺上使用統(tǒng)計和機器學習的方法和工具。通過閱讀本書,你將學習多種數(shù)據(jù)科學方法,并使用這些方法在示例項目上制定業(yè)務決策。
隨后,你就可以在Google云計算平臺上針對自己的項目構建統(tǒng)計和機器學習解決方案了,同時探索該平臺為數(shù)據(jù)科學提供的更多革命性和協(xié)作特性。
在本書中,你將學到:
● 使用App Engine應用實現(xiàn)自動化定期數(shù)據(jù)攝取。
● 在Google Data Studio中創(chuàng)建并生成數(shù)據(jù)儀表板。
● 構建實時數(shù)據(jù)分析管道,實現(xiàn)流式數(shù)據(jù)分析。
● 使用Google BigQuery實現(xiàn)可交互式數(shù)據(jù)探索。
● 在Cloud Dataproc群集上創(chuàng)建貝葉斯模型。
● 使用Spark構建邏輯回歸機器學習模型。
● 使用Cloud Dataflow數(shù)據(jù)管道計算時間聚合特征。
● 使用TensorFlow構建高性能預測模型。
● 將你的模型部署為微服務,并且從批處理和實時數(shù)據(jù)管道中使用它。
- 前言
- 第1章 用數(shù)據(jù)做出更好的決策
- 許多相似的決策
- 數(shù)據(jù)工程師的角色
- 云計算讓數(shù)據(jù)工程師成為可能
- 云計算使數(shù)據(jù)科學能力得到倍增
- 用案例研究揭示難解的真相
- 基于概率的決策
- 數(shù)據(jù)和工具
- 本章總結
- 第2章 將數(shù)據(jù)攝取到云端
- 航空公司準點數(shù)據(jù)
- 為什么不就地存儲數(shù)據(jù)?
- 攝取數(shù)據(jù)
- 每月下載計劃
- 本章總結
- 代碼實驗
- 第3章 創(chuàng)建引人注目的儀表板
- 使用數(shù)據(jù)儀表板對模型進行解釋
- 為什么要先構建數(shù)據(jù)儀表板?
- 準確、忠實于數(shù)據(jù)且良好的設計
- 將數(shù)據(jù)加載到 Google Cloud SQL
- 創(chuàng)建Google Cloud SQL實例
- 與Google云計算平臺交互
- 控制對MySQL的訪問
- 創(chuàng)建表
- 向表中填充數(shù)據(jù)
- 建立第一個模型
- 構建數(shù)據(jù)儀表板
- Data Studio入門
- 本章總結
- 第4章 流數(shù)據(jù):發(fā)布和攝取
- 設計事件饋送
- 時間校正
- Apache Beam/Cloud Dataflow
- 將事件流發(fā)布到Cloud Pub/Sub
- 實時流式處理
- 本章總結
- 第5章 交互式數(shù)據(jù)探索
- 探索性數(shù)據(jù)分析
- 將航班數(shù)據(jù)加載到BigQuery中
- Cloud Datalab中的探索性數(shù)據(jù)分析
- 質量控制
- 不同出發(fā)延誤條件下的抵達延誤
- 評估模型
- 本章總結
- 第6章 Cloud Dataproc上的貝葉斯分類器
- MapReduce和Hadoop生態(tài)系統(tǒng)
- 使用Spark SQL進行量化
- 使用Pig實現(xiàn)貝葉斯分類
- 本章總結
- 第7章 機器學習:Spark上的邏輯回歸
- 邏輯回歸
- 特征工程
- 本章總結
- 第8章 時間窗化的聚合特征
- 平均時間的需求
- Java中的Dataflow
- 計算平均時間
- 監(jiān)控、故障排除和性能調整
- 本章總結
- 第9章 使用TensorFlow的
- 機器學習分類器
- 使用更復雜的模型
- 將數(shù)據(jù)讀入TensorFlow
- 建立實驗
- 對ML模型進行改進
- 部署模型
- 本章總結
- 第10章 實時機器學習
- 調用預測服務
- 將預測結果添加到航班信息
- 流式數(shù)據(jù)管道
- 事務,吞吐量和延遲
- 評估模型的性能
- 本章總結
- 全書總結
- 附錄 有關機器學習數(shù)據(jù)集中敏感數(shù)據(jù)的注意事項
書名:基于云計算的數(shù)據(jù)科學
譯者:馬睿 譯
國內出版社:中國電力出版社
出版時間:2020年01月
頁數(shù):409
書號:978-7-5198-4013-6
原版書書名:Data Science on the Google Cloud Platform
原版書出版商:O'Reilly Media
Valliappa Lakshmanan
Valliappa (Lak) Lakshmanan是Google Cloud的數(shù)據(jù)分析和AI解決方案負責人。他的團隊借助BigQuery和Google Cloud上的其他數(shù)據(jù)分析、機器學習產品,構建軟件解決方案來解決業(yè)務問題。
Valliappa Lakshmanan是知名高管,與管理層其他同仁和數(shù)據(jù)科學團隊一起用數(shù)據(jù)和AI創(chuàng)造價值。
本書的封面動物是黃胸鷸(學名:Calidris subruficollis)。雖然大多數(shù)鷸科都是水鳥,但黃胸鷸在海岸附近并不常見,它們在加拿大和阿拉斯加的苔原棲息地繁衍,冬季飛躍美國中西部地區(qū),遷徙數(shù)千英里到達南美洲。在英國和愛爾蘭也可以看到這種鳥。
黃胸鷸是一種小型鳥,長約7~9英寸,平均翼展18英寸,它們背上有棕色羽毛,因為胸前羽毛呈淺棕色,因此而得名。在交配季節(jié),鳥兒們聚集在一片用于展示自己的地盤(即“求偶場”),雄性將喙向上抬起,翅膀上揚,露出下部的白色羽毛,同時搖動身體。如果求偶成功,它們可能與多個雌性交配。雌性鷸鳥有獨立的筑巢場地,它們將蛋產淺淺的洞中,然后用青苔、葉子和其他植物蓋住。昆蟲是鷸鳥的主要食物來源,在狩獵時,它們靜止不動用視線觀察,當有獵物出現(xiàn)時,它們迅速沖出去,用又短又尖的喙捕捉。
在非繁殖季節(jié),黃胸鷸喜歡棲息在有矮小草叢的地方,如機場、耕地和高爾夫球場等,這也是它們在城市通常用于過冬的地方。目前,由于殺蟲劑的使用以及北極繁殖區(qū)的棲息地受到破壞,黃胸鷸已被列為瀕危物種。
本書封面圖片來自British Birds III。