魔天记忘语小说,盗墓笔记有声小说,盗墓笔记

Python文本分析

Jens Albrecht, Sidharth Ramachandran, Christian Winkler 著

馬晶慧譯

出版時(shí)間：2022年08月

頁數(shù)：421

“我多么希望在剛開始從事研究的時(shí)候就擁有本書。作者的文字功底非常扎實(shí)，每個(gè)案例都經(jīng)過了精心研究，很容易上手，有機(jī)器學(xué)習(xí)使用需求的業(yè)務(wù)都可以利用這些案例。”
——K.V.S. Dileep
GreyAtom教育計(jì)劃開發(fā)主管

將文本轉(zhuǎn)換成有價(jià)值的信息是企業(yè)尋求競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵。隨著近年來自然語言處理（NLP）的發(fā)展，如今用戶可以通過各種方式來解決復(fù)雜的難題。但用戶不清楚選擇何種NLP工具或庫才能滿足業(yè)務(wù)需求，他們不知道應(yīng)該使用何種技術(shù)以及按照怎樣的順序使用這些技術(shù)。
這本實(shí)戰(zhàn)手冊(cè)為數(shù)據(jù)科學(xué)家和開發(fā)人員提供了文本分析與自然語言處理中常見任務(wù)的最佳實(shí)踐解決方案。書中介紹了各種Python真實(shí)案例研究，并提供了詳細(xì)的代碼示例，可以幫助你快速入門。
● 提取API與網(wǎng)頁的數(shù)據(jù)。
● 統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)的文本數(shù)據(jù)預(yù)處理。
● 機(jī)器學(xué)習(xí)分類、主題建模與摘要。
● 解釋AI模型與分類的結(jié)果。
● 利用單詞嵌入，探索及可視化語義相似性。
● 分析產(chǎn)品評(píng)論中的客戶情感。
● 根據(jù)命名實(shí)體及其關(guān)系創(chuàng)建知識(shí)圖。

目錄
產(chǎn)品信息
關(guān)于作者
封面介紹

前言
第1章洞悉文本數(shù)據(jù)
1.1 本章內(nèi)容概要
1.2 探索性數(shù)據(jù)分析
1.3 數(shù)據(jù)集簡(jiǎn)介
1.4 案例：使用Pandas獲取數(shù)據(jù)概要
1.4.1 計(jì)算列的匯總統(tǒng)計(jì)結(jié)果
1.4.2 檢查缺少的數(shù)據(jù)
1.4.3 繪制值的分布圖
1.4.4 比較各個(gè)類別的分布
1.4.5 可視化一段時(shí)間內(nèi)的變化
1.5 案例：構(gòu)建簡(jiǎn)單的文本預(yù)處理流水線
1.5.1 使用正則表達(dá)式分詞
1.5.2 刪除停用詞
1.5.3 通過一行代碼處理流水線
1.6 詞頻分析案例
1.6.1 案例：使用Counter統(tǒng)計(jì)單詞個(gè)數(shù)
1.6.2 案例：創(chuàng)建詞頻圖
1.6.3 案例：創(chuàng)建詞云
1.6.4 案例：TF-IDF排名
1.7 案例：查找上下文關(guān)鍵字
1.8 案例：n元語法分析
1.9 案例：比較不同時(shí)間段和類別的詞頻
1.9.1 創(chuàng)建詞頻時(shí)間表
1.9.2 創(chuàng)建詞頻熱圖
1.10 小結(jié)
第2章利用API提取文本
2.1 本章內(nèi)容概要
2.2 應(yīng)用程序編程接口
2.3 案例：使用requests模塊通過API提取數(shù)據(jù)
2.3.1 分頁
2.3.2 速率限制
2.4 案例：使用Tweepy提取推特?cái)?shù)據(jù)
2.4.1 獲取憑證
2.4.2 安裝與配置Tweepy
2.4.3 通過Search API提取數(shù)據(jù)
2.4.4 從用戶的時(shí)間線中提取數(shù)據(jù)
2.4.5 通過流API提取數(shù)據(jù)
2.5 小結(jié)
第3章網(wǎng)頁抓取與數(shù)據(jù)提取
3.1 本章內(nèi)容概要
3.2 抓取網(wǎng)頁與提取數(shù)據(jù)
3.3 路透社新聞存檔簡(jiǎn)介
3.4 URL生成
3.5 案例：下載和解讀robots.txt
3.6 案例：從sitemap.xml中尋找URL
3.7 案例：通過RSS查找URL
3.8 下載數(shù)據(jù)
3.9 案例：使用Python下載HTML頁面
3.10 案例：利用wget下載HTML頁面
3.11 提取半結(jié)構(gòu)化數(shù)據(jù)
3.12 案例：通過正則表達(dá)式提取數(shù)據(jù)
3.13 案例：使用HTML解析器提取數(shù)據(jù)
3.14 案例：爬蟲
3.14.1 案例介紹
3.14.2 錯(cuò)誤處理與生產(chǎn)級(jí)質(zhì)量的軟件
3.15 基于密度的文本提取
3.15.1 利用Readability讀取路透社的內(nèi)容
3.15.2 總結(jié)基于密度的文本提取
3.16 一體化解決方案
3.17 案例：使用Scrapy抓取路透社的存檔
3.18 爬蟲面臨的難題
3.19 總結(jié)和建議
第4章準(zhǔn)備統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的文本數(shù)據(jù)
4.1 本章內(nèi)容概要
4.2 數(shù)據(jù)預(yù)處理流水線
4.3 數(shù)據(jù)集介紹：Reddit Self-Posts
4.3.1 將數(shù)據(jù)加載到Pandas
4.3.2 案例：標(biāo)準(zhǔn)化屬性名稱
4.3.3 保存和加載數(shù)據(jù)框
4.4 清理文本數(shù)據(jù)
4.4.1 案例：使用正則表達(dá)式識(shí)別噪聲
4.4.2 案例：使用正則表達(dá)式剔除噪聲
4.4.3 案例：使用textacy規(guī)范化字符
4.4.4 案例：使用textacy根據(jù)模式遮擋數(shù)據(jù)
4.5 分詞
4.5.1 案例：使用正則表達(dá)式分詞
4.5.2 NLTK分詞
4.5.3 分詞建議
4.6 spaCy的語言處理
4.6.1 實(shí)例化流水線
4.6.2 處理文本
4.6.3 案例：自定義分詞
4.6.4 案例：處理停用詞
4.6.5 案例：根據(jù)詞性提取詞元
4.6.6 案例：提取名詞短語
4.6.7 案例：提取命名實(shí)體
4.7 大型數(shù)據(jù)集的特征提取
4.7.1 案例：創(chuàng)建一個(gè)一體化函數(shù)
4.7.2 案例：使用spaCy處理大型數(shù)據(jù)集
4.7.3 持久地保存結(jié)果
4.7.4 有關(guān)執(zhí)行時(shí)間的注意事項(xiàng)
4.8 補(bǔ)充說明
4.8.1 語言檢測(cè)
4.8.2 拼寫檢查
4.8.3 分詞規(guī)范化
4.9 小結(jié)和建議
第5章特征工程與句法相似性
5.1 本章內(nèi)容概要
5.2 實(shí)驗(yàn)數(shù)據(jù)集
5.3 案例：構(gòu)建自己的向量化器
5.3.1 枚舉詞匯表
5.3.2 向量化文檔
5.3.3 文檔詞條矩陣
5.3.4 相似性矩陣
5.4 詞袋模型
5.4.1 案例：使用scikit-learn的CountVectorizer
5.4.2 案例：計(jì)算相似性
5.5 TF-IDF模型
5.5.1 利用TfidfTransformer優(yōu)化文檔向量
5.5.2 介紹ABC數(shù)據(jù)集
5.5.3 案例：降低特征維度
5.5.4 案例：通過具體化改進(jìn)特征
5.5.5 案例：使用詞元向量化文本
5.5.6 案例：限定單詞類型
5.5.7 案例：刪除最常見的單詞
5.5.8 案例：通過n元語法添加上下文
5.6 ABC數(shù)據(jù)集的句法相似性
5.6.1 案例：查找與杜撰的標(biāo)題最相似的標(biāo)題
5.6.2 案例：查找大型語料庫中最相似的兩個(gè)文檔
5.6.3 案例：查找相關(guān)詞
5.6.4 有關(guān)語法相似性分析等運(yùn)行時(shí)間較長的程序的提示
5.7 小結(jié)
第6章文本分類算法
6.1 本章內(nèi)容概要
6.2 Java開發(fā)工具錯(cuò)誤數(shù)據(jù)集介紹
6.3 案例：構(gòu)建文本分類系統(tǒng)
6.3.1 第一步：準(zhǔn)備數(shù)據(jù)
6.3.2 第二步：分割訓(xùn)練與測(cè)試數(shù)據(jù)集
6.3.3 第三步：訓(xùn)練機(jī)器學(xué)習(xí)模型
6.3.4 第四步：模型評(píng)估
6.4 文本分類的最終解決方案
6.5 案例：利用交叉驗(yàn)證來評(píng)估實(shí)際的準(zhǔn)確率
6.6 案例：通過網(wǎng)格搜索微調(diào)超參數(shù)
6.7 案例回顧與小結(jié)
6.8 小結(jié)
6.9 補(bǔ)充閱讀
第7章解釋文本分類器
7.1 本章內(nèi)容概要
7.2 案例：使用預(yù)測(cè)概率確定分類置信度
7.3 案例：衡量預(yù)測(cè)模型中特征的重要性
7.4 案例：使用LIME解釋分類結(jié)果
7.5 案例：使用ELI5介紹分類結(jié)果
7.6 案例：使用Anchor解釋分類結(jié)果
7.6.1 使用遮蓋后的單詞分布
7.6.2 使用實(shí)際的單詞
7.7 小結(jié)
第8章非監(jiān)督學(xué)習(xí)：主題建模與聚類
8.1 本章內(nèi)容概要
8.2 數(shù)據(jù)集：聯(lián)合國一般性辯論
8.2.1 查看語料庫的統(tǒng)計(jì)信息
8.2.2 準(zhǔn)備工作
8.3 非負(fù)矩陣分解（NMF）
8.3.1 案例：使用NMF創(chuàng)建文檔的主題模型
8.3.2 案例：使用NMF創(chuàng)建段落的主題模型
8.4 潛在語義分析/索引
8.5 隱含狄利克雷分布
8.5.1 案例：使用LDA生成段落的主題模型
8.5.2 案例：可視化LDA的結(jié)果
8.6 案例：使用詞云來展示和比較主題模型
8.7 案例：計(jì)算文檔的主題分布以及隨時(shí)間的變化
8.8 Gensim主題建模
8.8.1 案例：Gensim的數(shù)據(jù)準(zhǔn)備
8.8.2 案例：利用Gensim執(zhí)行非負(fù)矩陣分解
8.8.3 案例：利用Gensim執(zhí)行LDA
8.8.4 案例：計(jì)算連貫分?jǐn)?shù)
8.8.5 案例：最佳主題數(shù)量
8.8.6 案例：使用Gensim創(chuàng)建層次狄利克雷過程
8.9 案例：使用聚集來挖掘文本數(shù)據(jù)的結(jié)構(gòu)
8.10 進(jìn)一步的想法
8.11 建議
8.12 小結(jié)
第9章文本摘要
9.1 本章內(nèi)容概要
9.2 文本摘要
9.2.1 提取式摘要
9.2.2 數(shù)據(jù)的預(yù)處理
9.3 案例：通過主題表示提取文本的摘要
9.3.1 通過TF-IDF識(shí)別重要的單詞
9.3.2 LSA算法
9.4 案例：通過指示表示總結(jié)文本
9.5 測(cè)量文本摘要方法的表現(xiàn)
9.6 案例：使用機(jī)器學(xué)習(xí)生成文本摘要
9.6.1 第一步：創(chuàng)建目標(biāo)標(biāo)簽
9.6.2 第二步：添加特征來輔助模型預(yù)測(cè)
9.6.3 第三步：構(gòu)建機(jī)器學(xué)習(xí)模型
9.7 小結(jié)
9.8 補(bǔ)充閱讀
第10章通過單詞嵌入探索語義關(guān)系
10.1 本章內(nèi)容概要
10.2 語義嵌入
10.2.1 單詞嵌入
10.2.2 單詞嵌入的類比推理
10.2.3 嵌入的類型
10.3 案例：預(yù)訓(xùn)練模型的相似性查詢
10.3.1 加載預(yù)訓(xùn)練模型
10.3.2 相似性查詢
10.4 案例：訓(xùn)練與評(píng)估自己的嵌入
10.4.1 數(shù)據(jù)準(zhǔn)備
10.4.2 案例：使用Gensim訓(xùn)練模型
10.4.3 案例：評(píng)估不同的模型
10.5 案例：可視化嵌入
10.5.1 案例：降維
10.5.2 案例：使用TensorFlow的嵌入投影
10.5.3 案例：構(gòu)建相似樹
10.6 小結(jié)
10.7 補(bǔ)充閱讀
第11章文本數(shù)據(jù)的情感分析
11.1 本章內(nèi)容概要
11.2 情感分析
11.3 亞馬遜客戶評(píng)論數(shù)據(jù)集
11.4 案例：基于詞典的情感分析
11.4.1 Bing Liu lexicon
11.4.2 基于詞典的方法的缺點(diǎn)
11.5 監(jiān)督學(xué)習(xí)方法
11.6 案例：向量化文本數(shù)據(jù)并應(yīng)用監(jiān)督機(jī)器學(xué)習(xí)算法
11.6.1 第一步：數(shù)據(jù)準(zhǔn)備
11.6.2 第二步：分割訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集
11.6.3 第三步：文本向量化
11.6.4 第四步：訓(xùn)練機(jī)器學(xué)習(xí)模型
11.7 深度學(xué)習(xí)的預(yù)訓(xùn)練語言模型
11.8 案例：遷移學(xué)習(xí)技術(shù)與預(yù)訓(xùn)練語言模型
11.8.1 第一步：加載模型與分詞
11.8.2 第二步：訓(xùn)練模型
11.8.3 第三步：模型評(píng)估
11.9 小結(jié)
11.10 補(bǔ)充閱讀
第12章知識(shí)圖譜
12.1 本章內(nèi)容概要
12.2 知識(shí)圖譜
12.3 數(shù)據(jù)集簡(jiǎn)介
12.4 識(shí)別命名實(shí)體
12.4.1 案例：基于規(guī)則的命名實(shí)體識(shí)別
12.4.2 案例：規(guī)范化命名實(shí)體
12.4.3 合并實(shí)體詞語
12.5 共指消解
12.5.1 案例：spaCy的詞語擴(kuò)展
12.5.2 案例：別名消解
12.5.3 案例：消解名稱的多樣性
12.5.4 案例：利用NeuralCoref執(zhí)行回指消解
12.5.5 命名規(guī)范化
12.5.6 實(shí)體鏈接
12.6 案例：創(chuàng)建共現(xiàn)圖
12.6.1 從文檔中提取共現(xiàn)
12.6.2 使用Gephi可視化共現(xiàn)圖
12.7 關(guān)系提取
12.7.1 案例：通過短語匹配提取關(guān)系
12.7.2 案例：使用依存樹提取關(guān)系
12.8 創(chuàng)建知識(shí)圖
12.9 小結(jié)
12.10 補(bǔ)充閱讀
第13章文本分析的生產(chǎn)應(yīng)用
13.1 本章內(nèi)容概要
13.2 利用Conda創(chuàng)建可復(fù)制的Python環(huán)境
13.3 案例：通過容器創(chuàng)建可復(fù)制的環(huán)境
13.4 案例：創(chuàng)建文本分析模型的REST API
13.5 案例：通過云服務(wù)部署和擴(kuò)展API
13.6 案例：版本自動(dòng)升級(jí)與自動(dòng)部署構(gòu)建
13.7 小結(jié)
13.8 補(bǔ)充閱讀

書名：Python文本分析

作者：Jens Albrecht, Sidharth Ramachandran, Christian Winkler 著

譯者：馬晶慧譯

國內(nèi)出版社：中國電力出版社

出版時(shí)間：2022年08月

頁數(shù)：421

書號(hào)：978-7-5198-6444-6

原版書書名：Blueprints for Text Analytics Using Python

原版書出版商：O'Reilly Media

Jens Albrecht

Jens Albrecht是紐倫堡理工學(xué)院計(jì)算機(jī)科學(xué)系的全職教授。主要從事數(shù)據(jù)管理與分析領(lǐng)域的研究，尤其側(cè)重于文本分析。他擁有計(jì)算機(jī)科學(xué)博士學(xué)位。2012年，他重新加入學(xué)術(shù)圈，在這之前他在該行業(yè)工作了十多年，曾擔(dān)任顧問和數(shù)據(jù)架構(gòu)師。他發(fā)表了很多有關(guān)大數(shù)據(jù)管理與分析的文章。

查看Jens Albrecht更多信息

Sidharth Ramachandran

Sidharth Ramachandran目前負(fù)責(zé)領(lǐng)導(dǎo)一個(gè)數(shù)據(jù)科學(xué)家團(tuán)隊(duì)，主要為消費(fèi)品行業(yè)構(gòu)建數(shù)據(jù)產(chǎn)品。他擁有十多年電信、銀行以及市場(chǎng)營銷等領(lǐng)域軟件工程與數(shù)據(jù)科學(xué)的工作經(jīng)驗(yàn)。他是WACAO的合伙創(chuàng)始人（WACAO是一款WhatsApp上的智能個(gè)人助理，Techcrunch曾介紹過該應(yīng)用）。他擁有IIT Roorkee的工程學(xué)學(xué)士學(xué)位以及IIM Kozhikode的MBA學(xué)位。他熱衷于通過技術(shù)解決實(shí)際問題，業(yè)余時(shí)間他喜歡鉆研個(gè)人項(xiàng)目。

查看Sidharth Ramachandran更多信息

Christian Winkler

Christian Winkler是一位數(shù)據(jù)科學(xué)家與和機(jī)器學(xué)習(xí)架構(gòu)師。他擁有理論物理學(xué)博士學(xué)位，在大數(shù)據(jù)與人工智能領(lǐng)域工作了20多年。尤其專注于可擴(kuò)展系統(tǒng)以及大規(guī)模文本處理的智能算法。他是datanizing GmbH的創(chuàng)始人，他喜歡在大會(huì)上發(fā)表演講，而且還發(fā)表了多篇機(jī)器學(xué)習(xí)/文本分析的文章。

查看Christian Winkler更多信息

本書封面上的動(dòng)物是彩鋸鱗蝰（英文名：Palestine saw-scaled viper，拉丁學(xué)名：Echis coloratus）。
這種毒蛇主要分布于中東和非洲東北部地區(qū)。在內(nèi)蓋夫以及朱迪亞沙漠地帶的巖質(zhì)沙漠中，這種毒蛇很常見，從海平面到海拔2500米以上的棲息地中都可以見到它們的身影。這種毒蛇的頭部呈三角錐狀，周身黃褐色，背面呈獨(dú)特的鋸齒形圖案。身長最大可至75厘米，它會(huì)根據(jù)熱源尋找獵物。

購買選項(xiàng)

定價(jià)：128.00元

書號(hào)：978-7-5198-6444-6

出版社：中國電力出版社

聯(lián)系出版社郵購

91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片