绝色狂妃仙魅小说,女人书籍排行榜

初識數(shù)據(jù)科學(xué)

Sam Lau, Joseph Gonzalez, Deborah Nolan 著

門佳譯

出版時間：2026年03月

頁數(shù)：563

“我真希望在第一次用‘?dāng)?shù)據(jù)科學(xué)家’這個詞來描述做我們所做工作的人時能有這本書。如果你想從事數(shù)據(jù)科學(xué)/工程、AI或機(jī)器學(xué)習(xí)，這本書就是你的起點(diǎn)?！?br /> ——DJ Patil博士
美國第一位首席數(shù)據(jù)科學(xué)家

作為一名有抱負(fù)的數(shù)據(jù)科學(xué)家，你理解為什么組織機(jī)構(gòu)的重要決策都依賴于數(shù)據(jù) —— 無論是設(shè)計網(wǎng)站的公司、決定如何改善服務(wù)的城市，還是致力于阻止疾病傳播的科學(xué)家組織。你需要具備將一堆雜亂的數(shù)據(jù)提煉成可操作的洞見所需的技能。我們稱之為數(shù)據(jù)科學(xué)生命周期：收集、整理、分析數(shù)據(jù)并從中得出結(jié)論的過程。
本書是第一本兼顧編程和統(tǒng)計學(xué)基礎(chǔ)技能的書籍，內(nèi)容涵蓋了整個數(shù)據(jù)科學(xué)生命周期。它面向那些希望成為數(shù)據(jù)科學(xué)家或與數(shù)據(jù)科學(xué)家合作的讀者，以及希望跨越“技術(shù)/非技術(shù)”界限的數(shù)據(jù)分析師。如果具備基本的Python編程知識，你將學(xué)到如何使用像pandas這樣的行業(yè)標(biāo)準(zhǔn)工具來處理數(shù)據(jù)。
● 將感興趣的問題提煉為可通過數(shù)據(jù)研究的問題
● 進(jìn)行數(shù)據(jù)收集可能涉及的文本處理、Web抓取等技術(shù)
● 通過數(shù)據(jù)清洗、探索和可視化獲得有價值的洞見
● 學(xué)習(xí)如何使用建模來描述數(shù)據(jù)
● 將研究結(jié)果推廣到數(shù)據(jù)之外

目錄
產(chǎn)品信息
關(guān)于作者
封面介紹

前言
第一部分數(shù)據(jù)科學(xué)生命周期
第1章何為數(shù)據(jù)科學(xué)生命周期？
1.1 生命周期的各個階段
1.2 生命周期實(shí)例
1.3 小結(jié)
第2章數(shù)據(jù)與數(shù)據(jù)范圍
2.1 大數(shù)據(jù)和新機(jī)遇
示例：Google流感趨勢
2.2 目標(biāo)總體、接觸框架、樣本
2.2.1 示例：是什么讓在線社區(qū)成員變得活躍？
2.2.2 示例：誰會贏得選舉？
2.2.3 示例：環(huán)境危害如何影響個人健康？
2.3 工具與方案
2.4 測量自然現(xiàn)象
示例：空氣中的CO2濃度是多少？
2.5 準(zhǔn)確性
2.5.1 偏差類型
2.5.2 變異類型
2.6 小結(jié)
第3章模擬與數(shù)據(jù)設(shè)計
3.1 甕模型
3.1.1 抽樣設(shè)計
3.1.2 統(tǒng)計量的抽樣分布
3.1.3 模擬抽樣分布
3.1.4 超幾何分布模擬
3.2 示例：模擬選舉投票的偏差和方差
3.2.1 賓夕法尼亞州的甕模型
3.2.2 帶有偏差的甕模型
3.2.3 開展更大規(guī)模的民調(diào)
3.3 示例：模擬疫苗的隨機(jī)化試驗(yàn)
3.3.1 數(shù)據(jù)范圍
3.3.2 隨機(jī)分配的甕模型
3.4 示例：測量空氣質(zhì)量
3.5 小結(jié)
第4章使用匯總統(tǒng)計量建模
4.1 常數(shù)模型
4.2 損失最小化
4.2.1 平均絕對誤差
4.2.2 均方誤差
4.2.3 選擇損失函數(shù)
4.3 小結(jié)
第5章案例研究：為什么我的公交車總是晚點(diǎn)？
5.1 問題與范圍
5.2 數(shù)據(jù)整理
5.3 分析公交車時間
5.4 候車時間建模
5.5 小結(jié)
第二部分表格型數(shù)據(jù)
第6章使用pandas處理DataFrame
6.1 子集
6.1.1 數(shù)據(jù)范圍和問題
6.1.2 DataFrame和索引
6.1.3 切片
6.1.4 過濾行
6.1.5 示例：Luna這個名字是什么時候流行起來的？
6.2 聚合
6.2.1 基本分組聚合
6.2.2 多列分組
6.2.3 自定義聚合函數(shù)
6.2.4 透視
6.3 連接
6.3.1 內(nèi)連接
6.3.2 左連接、右連接和外連接
6.3.3 示例：嬰兒名字類別的流行度變化
6.4 數(shù)據(jù)變換
6.4.1 .apply()方法
6.4.2 示例：“L”開頭名字的流行度
6.4.3 .apply()的代價
6.5 DataFrame與其他數(shù)據(jù)表示方式有何不同？
6.5.1 DataFrame與電子表格
6.5.2 DataFrame與矩陣
6.5.3 DataFrame與關(guān)系表
6.6 小結(jié)
第7章使用SQL處理關(guān)系表
7.1 子集
7.1.1 SQL基礎(chǔ)：SELECT與FROM
7.1.2 什么是關(guān)系表？
7.1.3 切片
7.1.4 過濾行
7.1.5 示例：Luna這個名字最近才開始流行嗎？
7.2 聚合
7.2.1 使用GROUP BY進(jìn)行基本分組聚合
7.2.2 按多列分組
7.2.3 其他聚合函數(shù)
7.3 連接
7.3.1 內(nèi)連接
7.3.2 左連接和右連接
7.3.3 示例：名字類別的流行度
7.4 變換與公用表表達(dá)式
7.4.1 SQL 函數(shù)
7.4.2 使用WITH子句進(jìn)行多步驟查詢
7.4.3 示例：“L”開頭名字的流行度
7.5 小結(jié)
第三部分理解數(shù)據(jù)
第8章文件整理
8.1 數(shù)據(jù)源示例
8.1.1 藥物濫用預(yù)警網(wǎng)絡(luò)（DAWN）調(diào)查
8.1.2 舊金山餐館食品安全
8.2 文件格式
8.2.1 分隔格式
8.2.2 固定寬度格式
8.2.3 層級結(jié)構(gòu)格式
8.2.4 松散格式文本
8.3 文件編碼
8.4 文件大小
8.5 shell與命令行工具
8.6 數(shù)據(jù)表的結(jié)構(gòu)和粒度
8.6.1 inspections和violations的粒度
8.6.2 DAWN調(diào)查數(shù)據(jù)的結(jié)構(gòu)和粒度
8.7 小結(jié)
第9章 DataFrame整理
9.1 示例：整理來自莫納羅亞天文臺的CO2測量數(shù)據(jù)
9.1.1 質(zhì)量檢查
9.1.2 處理缺失數(shù)據(jù)
9.1.3 重塑數(shù)據(jù)表
9.2 質(zhì)量檢查
9.2.1 基于范圍的質(zhì)量
9.2.2 測量值和記錄值的質(zhì)量
9.2.3 跨特征的質(zhì)量檢查
9.2.4 用于分析的數(shù)據(jù)質(zhì)量
9.2.5 修復(fù)數(shù)據(jù)與否
9.3 缺失的值與記錄
9.4 變換與時間戳
9.4.1 時間戳變換
9.4.2 使用管道處理變換
9.5 修改結(jié)構(gòu)
9.6 示例：整理餐館安全違規(guī)記錄
9.6.1 縮小關(guān)注點(diǎn)
9.6.2 聚合違規(guī)行為
9.6.3 從違規(guī)描述中提取信息
9.7 小結(jié)
第10章探索性數(shù)據(jù)分析
10.1 特征類型
10.1.1 示例：犬種
10.1.2 定性特征變換
10.1.3 特征類型的重要性
10.2 數(shù)據(jù)分布分析要點(diǎn)
10.3 特征關(guān)系分析要點(diǎn)
10.3.1 兩個定量特征
10.3.2 一個定性特征和一個定量特征
10.3.3 兩個定性特征
10.4 多變量環(huán)境中的比較
10.5 探索指南
10.6 示例：房屋售價
10.6.1 理解價格
10.6.2 接下來怎樣？
10.6.3 研究其他特征
10.6.4 深入了解關(guān)系
10.6.5 固定地理位置
10.7 EDA分析結(jié)果
10.8 小結(jié)
第11章數(shù)據(jù)可視化
11.1 選擇合適的尺度揭示數(shù)據(jù)結(jié)構(gòu)
11.1.1 填充數(shù)據(jù)區(qū)域
11.1.2 何時包含0
11.1.3 通過變換揭示數(shù)據(jù)形態(tài)
11.1.4 通過傾斜校正揭示關(guān)系
11.1.5 通過拉直揭示關(guān)系
11.2 數(shù)據(jù)平滑與聚合
11.2.1 通過平滑技術(shù)揭示分布形態(tài)
11.2.2 通過平滑技術(shù)揭示關(guān)系與趨勢
11.2.3 平滑技術(shù)需要調(diào)優(yōu)
11.2.4 基于分位數(shù)簡化分布
11.2.5 何時不宜進(jìn)行平滑處理
11.3 促進(jìn)有意義的比較
11.3.1 突出關(guān)鍵差異
11.3.2 組的排序
11.3.3 避免堆疊
11.3.4 選擇配色方案
11.3.5 圖表比較指南
11.4 整合數(shù)據(jù)設(shè)計
11.4.1 隨時間收集的數(shù)據(jù)
11.4.2 觀測性研究
11.4.3 不均等抽樣
11.4.4 地理數(shù)據(jù)
11.5 添加背景信息
示例：100米短跑成績
11.6 使用plotly繪制圖表
11.6.1 Figure與Trace對象
11.6.2 修改布局
11.6.3 常見繪圖方法
11.6.4 添加標(biāo)注
11.7 其他可視化工具
11.7.1 matplotlib
11.7.2 圖形語法
11.8 小結(jié)
第12章空氣質(zhì)量測量的準(zhǔn)確性如何？
12.1 問題、數(shù)據(jù)設(shè)計與范圍
12.2 尋找共址傳感器
12.2.1 整理AQS站點(diǎn)列表
12.2.2 整理PurpleAir站點(diǎn)列表
12.2.3 匹配AQS和PurpleAir傳感器
12.3 整理和清洗AQS傳感器數(shù)據(jù)
12.3.1 檢查數(shù)據(jù)粒度
12.3.2 刪除不需要的列
12.3.3 檢查日期的有效性
12.3.4 檢查PM2.5測量值的質(zhì)量
12.4 整理PurpleAir傳感器數(shù)據(jù)
12.4.1 檢查數(shù)據(jù)粒度
12.4.2 處理缺失值
12.5 研究PurpleAir和AQS的測量值
12.6 創(chuàng)建模型，修正PurpleAir測量值
12.7 小結(jié)
第四部分其他數(shù)據(jù)源
第13章處理文本
13.1 文本示例及任務(wù)
13.1.1 將文本轉(zhuǎn)換為標(biāo)準(zhǔn)格式
13.1.2 提取部分文本以創(chuàng)建特征
13.1.3 將文本變換為特征
13.1.4 文本分析
13.2 字符串操作
13.2.1 使用Python字符串方法將文本轉(zhuǎn)換為標(biāo)準(zhǔn)格式
13.2.2 pandas 中的字符串方法
13.2.3 分割字符串以提取文本片段
13.3 正則表達(dá)式
13.3.1 字面拼接
13.3.2 量詞
13.3.3 多選結(jié)構(gòu)與分組
13.3.4 正則表達(dá)式參考表
13.4 文本分析
13.5 小結(jié)
第14章數(shù)據(jù)交換
14.1 NetCDF數(shù)據(jù)
14.2 JSON數(shù)據(jù)
14.3 HTTP
14.4 REST
14.5 XML、HTML、XPath
14.5.1 示例：從維基百科爬取比賽成績
14.5.2 XPath
14.5.3 示例：從ECB獲取匯率
14.6 小結(jié)
第五部分線性建模
第15章線性模型
15.1 簡單線性模型
15.2 示例：空氣質(zhì)量的簡單線性模型
15.2.1 線性模型的解釋
15.2.2 評估擬合效果
15.3 擬合簡單線性模型
15.4 多元線性模型
15.5 擬合多元線性模型
15.6 示例：機(jī)會之地在哪里？
15.6.1 使用通勤時間解釋向上流動性
15.6.2 利用多個變量解釋向上流動性
15.7 數(shù)值測量的特征工程
15.8 分類測量的特征工程
15.9 小結(jié)
第16章模型選擇
16.1 過擬合
示例：能源消耗
16.2 “訓(xùn)練集一測試集”劃分
16.3 交叉驗(yàn)證
16.4 正則化
16.5 模型偏差與方差
16.6 小結(jié)
第17章推斷和預(yù)測理論
17.1 分布：總體、經(jīng)驗(yàn)、抽樣
17.2 假設(shè)檢驗(yàn)基礎(chǔ)
17.2.1 示例：用于比較維基百科貢獻(xiàn)者生產(chǎn)力的秩檢驗(yàn)
17.2.2 示例：疫苗有效性的比例檢驗(yàn)
17.3 使用自助法進(jìn)行推斷
17.4 置信區(qū)間基礎(chǔ)
17.5 預(yù)測區(qū)間基礎(chǔ)
17.5.1 示例：預(yù)測公交車晚點(diǎn)時間
17.5.2 示例：預(yù)測螃蟹大小
17.5.3 示例：預(yù)測螃蟹的增量增長
17.6 用概率進(jìn)行推斷與預(yù)測
17.6.1 平均秩統(tǒng)計量理論的形式化
17.6.2 隨機(jī)變量的一般性質(zhì)
17.6.3 檢驗(yàn)與區(qū)間的概率基礎(chǔ)
17.6.4 模型選擇背后的概率
17.7 小結(jié)
第18章案例研究：如何給驢稱重
18.1 驢研究的問題與范圍
18.2 數(shù)據(jù)整理與轉(zhuǎn)換
18.3 數(shù)據(jù)探索
18.4 建模驢的體重
18.4.1 麻醉藥處方損失函數(shù)
18.4.2 擬合簡單線性模型
18.4.3 擬合多元線性模型
18.4.4 將定性特征引入模型
18.4.5 模型評估
18.5 小結(jié)
第六部分分類
第19章分類示例
19.1 示例：毀于風(fēng)害的樹木
19.2 建模與分類
19.2.1 常數(shù)模型
19.2.2 分析樹木大小與風(fēng)倒的關(guān)系
19.3 比例（與概率）建模
19.3.1 邏輯模型
19.3.2 對數(shù)幾率
19.3.3 使用邏輯曲線
19.4 邏輯模型的損失函數(shù)
19.5 從概率到分類
19.5.1 混淆矩陣
19.5.2 查準(zhǔn)率與查全率
19.6 小結(jié)
第20章數(shù)值優(yōu)化
20.1 梯度下降法基礎(chǔ)
20.2 最小化Huber損失
20.3 凸函數(shù)與可導(dǎo)損失函數(shù)
20.4 梯度下降的變體
20.4.1 隨機(jī)梯度下降
20.4.2 小批量梯度下降
20.4.3 牛頓法
20.5 小結(jié)
第21章案例研究：識別假新聞
21.1 研究問題與數(shù)據(jù)范圍
21.2 獲取與整理數(shù)據(jù)
21.3 分析數(shù)據(jù)
21.3.1 分析發(fā)布網(wǎng)站
21.3.2 分析發(fā)布時間
21.3.3 分析文章用詞
21.4 建模
21.4.1 獨(dú)詞模型
21.4.2 多詞模型
21.4.3 使用tf-idf進(jìn)行預(yù)測
21.5 小結(jié)
延伸閱讀
數(shù)據(jù)源

書名：初識數(shù)據(jù)科學(xué)

作者：Sam Lau, Joseph Gonzalez, Deborah Nolan 著

譯者：門佳譯

國內(nèi)出版社：東南大學(xué)出版社

出版時間：2026年03月

頁數(shù)：563

書號：978-7-5766-1290-5

原版書書名：Learning Data Science

原版書出版商：O'Reilly Media

Sam Lau

Sam Lau是加州大學(xué)圣地亞哥分校Halicioglu數(shù)據(jù)科學(xué)研究所的助理教學(xué)教授。Sam擁有十年的教學(xué)經(jīng)驗(yàn)，并曾在加州大學(xué)伯克利分校和加州大學(xué)圣地亞哥分校設(shè)計并教授一流的數(shù)據(jù)科學(xué)課程。

查看Sam Lau更多信息

Joseph Gonzalez

Joey Gonzalez是加州大學(xué)伯克利分校電子工程與計算機(jī)科學(xué)系副教授，是伯克利人工智能研究組成員，也是伯克利RISE實(shí)驗(yàn)室創(chuàng)始成員。他還共同創(chuàng)立了Turi Inc.和Aqueduct，為數(shù)據(jù)科學(xué)家開發(fā)各種工具。

查看Joseph Gonzalez更多信息

Deborah Nolan

Deborah Nolan是加州大學(xué)伯克利分校計算機(jī)、數(shù)據(jù)科學(xué)和社會學(xué)院的統(tǒng)計學(xué)名譽(yù)教授兼學(xué)生事務(wù)副院長。

查看Deborah Nolan更多信息

本書封面上的動物是可食用睡鼠（學(xué)名：Glis glis）。顧名思義，這種動物確實(shí)曾出現(xiàn)在人類的餐桌上。在古羅馬時代，烤制食用睡鼠備受青睞，如今在克羅地亞和斯洛文尼亞仍有食用這種動物的習(xí)俗?？墒乘蟮捏w形類似于松鼠：小耳朵、短腿、大腳掌，蓬松的長尾巴。前足四趾，后足五趾，身體大部分覆蓋著灰色或灰褐色的毛發(fā)，腹部呈白色，足底無毛，能分泌黏性物質(zhì)輔助攀爬。
這種夜行性動物大部分時間棲息在樹上，分布于歐洲以及西亞和中亞的部分地區(qū)。雖然國際自然保護(hù)聯(lián)盟（IUCN）將可食用睡鼠列為“無?！蔽锓N，但其仍面臨非法捕獵和棲息地喪失的威脅。

購買選項(xiàng)

定價：188.00元

書號：978-7-5766-1290-5

出版社：東南大學(xué)出版社

聯(lián)系出版社郵購

91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片