雪鹰领主,唐家三少

基于Spark NLP的自然語言處理

唐曉, 胡喬林, 陳新譯

出版時間：2022年09月

頁數(shù)：386

“這是一本寫得很好的書，它將帶你從語法和語言模型的基礎(chǔ)知識開始，并利用當(dāng)今可用的最佳深度學(xué)習(xí)和遷移學(xué)習(xí)技術(shù)，構(gòu)建現(xiàn)實世界的生產(chǎn)級AI應(yīng)用程序。”
——David Talby
John Snow 實驗室CTO

如果你想構(gòu)建一個使用自然語言文本的企業(yè)級應(yīng)用程序，但不確定從哪里開始或使用什么工具，本書將幫助你入門。Wisecube的首席數(shù)據(jù)科學(xué)家Alex Thomas向軟件工程師和數(shù)據(jù)科學(xué)家展示了如何使用深度學(xué)習(xí)和Apache Spark NLP庫，來構(gòu)建可擴展的自然語言處理（NLP）應(yīng)用程序。
通過在Spark處理框架上使用NLP的具體示例、實踐，進行理論解釋和動手練習(xí)，本書將會介紹從基本語言學(xué)和寫作系統(tǒng)到情感分析和搜索引擎的所有內(nèi)容。你還將探索一些開發(fā)基于文本的應(yīng)用程序會遇到的特殊問題，例如性能等。在下面四個部分中，你將學(xué)習(xí)NLP基礎(chǔ)知識和構(gòu)建模塊，然后再深入研究應(yīng)用程序和系統(tǒng)構(gòu)建：
● 基礎(chǔ)知識：了解自然語言處理、Apache Spark上的NLP和深度學(xué)習(xí)的基礎(chǔ)知識。
● 構(gòu)建模塊：學(xué)習(xí)構(gòu)建 NLP 應(yīng)用程序的技術(shù)（包括標(biāo)記化、句子分割和命名實體識別），并了解它們的工作方式和原因。
● 應(yīng)用程序：探索構(gòu)建你自己的NLP應(yīng)用程序的設(shè)計、開發(fā)和實驗過程。
● 構(gòu)建NLP系統(tǒng)：考慮生產(chǎn)和部署NLP模型的選項，包括支持哪些人類語言。

目錄
產(chǎn)品信息
關(guān)于作者
封面介紹

前言
第一部分基礎(chǔ)知識
第1章快速入門
1.1 簡介
1.2 其他工具
1.3 建立你自己的開發(fā)環(huán)境
1.3.1 前置條件
1.3.2 啟動Apache Spark
1.3.3 檢查代碼
1.4 熟悉Apache Spark
1.4.1 使用Spark NLP啟動Apache Spark
1.4.2 在Apache Spark中加載和查看數(shù)據(jù)
1.5 Spark NLP的Hello World示例
第2章自然語言基礎(chǔ)知識
2.1 什么是自然語言
2.1.1 語言的起源
2.1.2 口頭語言和書面語言
2.2 語言學(xué)
2.2.1 語音學(xué)和音系學(xué)
2.2.2 詞法學(xué)（形態(tài)學(xué)）
2.2.3 語法
2.2.4 語義學(xué)
2.3 社會語言學(xué)：方言、語域和其他變體
2.3.1 禮節(jié)
2.3.2 語境
2.4 語用學(xué)
2.4.1 羅曼·雅各布森
2.4.2 如何運用語用學(xué)
2.5 書寫系統(tǒng)
2.5.1 起源
2.5.2 字母
2.5.3 輔音音素文字
2.5.4 元音附標(biāo)文字
2.5.5 音節(jié)表
2.5.6 標(biāo)識象形符
2.6 編碼
2.6.1 ASCII
2.6.2 Unicode
2.6.3 UTF-8
2.7 練習(xí)：分詞
2.7.1 英語分詞
2.7.2 希臘語分詞
2.7.3 Ge'ez（阿姆哈拉語）分詞
2.8 資源
第3章 Apache Spark上的NLP
3.1 并行性、并發(fā)性、分布式計算
3.1.1 Apache Hadoop之前的并行化
3.1.2 MapReduce和 Apache Hadoop
3.1.3 Apache Spark
3.2 Apache Spark架構(gòu)
3.2.1 物理架構(gòu)
3.2.2 邏輯架構(gòu)
3.3 Spark SQL和Spark MLlib
3.3.1 Transformer（轉(zhuǎn)換器）
3.3.2 評估器和模型
3.3.3 預(yù)測結(jié)果評估
3.4 NLP庫
3.4.1 功能庫
3.4.2 注釋庫
3.4.3 其他庫中的自然語言處理功能
3.5 Spark NLP
3.5.1 注釋庫
3.5.2 階段
3.5.3 預(yù)訓(xùn)練管道
3.5.4 Finisher
3.6 練習(xí)：構(gòu)建主題模型
3.7 資源
第4章深度學(xué)習(xí)基礎(chǔ)知識
4.1 梯度下降
4.2 反向傳播
4.3 卷積神經(jīng)網(wǎng)絡(luò)CNN
4.3.1 濾波器
4.3.2 池化
4.4 循環(huán)神經(jīng)網(wǎng)絡(luò)RNN
4.4.1 通過時間的反向傳播
4.4.2 Elman網(wǎng)絡(luò)
4.4.3 LSTM
4.5 練習(xí)1
4.6 練習(xí)2
4.7 資源
第二部分構(gòu)建模塊
第5章文字處理
5.1 分詞
5.2 詞表縮減
5.2.1 詞干提取
5.2.2 詞形還原
5.2.3 詞干提取對比詞形還原
5.2.4 拼寫校對
5.2.5 標(biāo)準(zhǔn)化
5.3 bag-of-words模型
5.4 CountVectorizer
5.5 N-Gram
5.6 可視化：Word和文檔分發(fā)
5.7 練習(xí)
5.8 資源
第6章信息檢索
6.1 倒排索引
6.2 向量空間模型
6.2.1 刪除停用詞
6.2.2 逆向文件頻率
6.2.3 使用Spark
6.3 練習(xí)
6.4 資源
第7章分類和回歸
7.1 bag-of-word模型特征
7.2 正則表達式特征
7.3 特征選擇
7.4 模型
7.4.1 樸素貝葉斯算法
7.4.2 線性模型
7.4.3 決策/回歸樹
7.4.4 深度學(xué)習(xí)算法
7.5 迭代
7.6 練習(xí)
第8章使用Keras的序列模型
8.1 語句劃分
8.2 段落劃分
8.3 詞性標(biāo)注
8.4 條件隨機場
8.5 分塊和語法分析
8.6 語言模型
8.7 循環(huán)神經(jīng)網(wǎng)絡(luò)
8.8 練習(xí)：字符 N-Grams模型
8.9 練習(xí)：詞義語言模型
8.10 資源
第9章信息提取
9.1 命名實體識別
9.2 共指消解
9.3 斷言狀態(tài)檢測
9.4 關(guān)系提取
9.5 小結(jié)
9.6 練習(xí)
第10章主題建模
10.1 K-Means
10.2 潛在語義索引
10.3 非負(fù)矩陣分解
10.4 隱含狄利克雷分布模型
10.5 練習(xí)
第11章詞嵌入
11.1 Word2vec
11.2 GloVe
11.3 fastText
11.4 Transformer
11.5 ELMo、BERT和XLNet
11.6 Doc2vec
11.7 練習(xí)
第三部分應(yīng)用
第12章情感分析與情緒檢測
12.1 問題陳述與約束
12.2 規(guī)劃項目
12.3 設(shè)計解決方案
12.4 實施解決方案
12.5 測試并衡量解決方案
12.5.1 業(yè)務(wù)指標(biāo)
12.5.2 以模型為中心的指標(biāo)
12.5.3 基礎(chǔ)設(shè)施指標(biāo)
12.5.4 過程指標(biāo)
12.5.5 離線與在線模型測量
12.6 審查
12.6.1 初始部署
12.6.2 回退計劃
12.6.3 下一步
12.7 結(jié)論
第13章建立知識庫
13.1 問題陳述與約束
13.2 規(guī)劃項目
13.3 設(shè)計解決方案
13.4 實施解決方案
13.5 測試并衡量解決方案
13.5.1 業(yè)務(wù)指標(biāo)
13.5.2 以模型為中心的指標(biāo)
13.5.3 基礎(chǔ)設(shè)施指標(biāo)
13.5.4 過程指標(biāo)
13.6 審查
13.7 結(jié)論
第14章搜索引擎
14.1 問題陳述與約束
14.2 規(guī)劃項目
14.3 設(shè)計解決方案
14.4 實施解決方案
14.5 測試并衡量解決方案
14.5.1 業(yè)務(wù)指標(biāo)
14.5.2 以模型為中心的指標(biāo)
14.6 審查
14.7 結(jié)論
第15章聊天機器人
15.1 問題陳述與約束
15.2 規(guī)劃項目
15.3 設(shè)計解決方案
15.4 實施解決方案
15.5 測試并衡量解決方案
15.5.1 業(yè)務(wù)指標(biāo)
15.5.2 以模型為中心的指標(biāo)
15.6 審查
15.7 結(jié)論
第16章目標(biāo)字符識別
16.1 OCR任務(wù)的種類
16.1.1 印刷文本的圖像和PDF識別成文本
16.1.2 手寫文本圖像識別成文本
16.1.3 日常環(huán)境中的文本圖像識別成文本
16.1.4 文本圖像識別成目標(biāo)
16.1.5 關(guān)于不同書寫系統(tǒng)的說明
16.2 問題陳述與約束
16.3 規(guī)劃項目
16.4 實施解決方案
16.5 測試并衡量解決方案
16.6 以模型為中心的指標(biāo)
16.7 審查
16.8 結(jié)論
第四部分構(gòu)建NLP系統(tǒng)
第17章支持多種語言
17.1 語言類型學(xué)
17.2 場景：學(xué)術(shù)論文分類
17.3 不同語言中的文本處理
17.3.1 合成詞
17.3.2 形態(tài)復(fù)雜性
17.4 遷移學(xué)習(xí)與多語言深度學(xué)習(xí)
17.5 跨語種搜索
17.6 檢查清單
17.7 結(jié)論
第18章人工標(biāo)注
18.1 指南
18.2 場景：學(xué)術(shù)論文分類
18.3 標(biāo)注員內(nèi)部一致性
18.4 標(biāo)注迭代
18.5 標(biāo)注文本
18.5.1 分類
18.5.2 標(biāo)注
18.6 檢查清單
18.7 結(jié)論
第19章 NLP應(yīng)用程序的產(chǎn)品化
19.1 Spark NLP模型緩存
19.2 Spark NLP與TensorFlow集成
19.2.1 Spark優(yōu)化基礎(chǔ)
19.2.2 設(shè)計級優(yōu)化
19.2.3 分析工具
19.2.4 監(jiān)視
19.2.5 管理數(shù)據(jù)資源
19.2.6 測試基于NLP的應(yīng)用程序
19.2.7 單元測試
19.2.8 集成測試
19.2.9 冒煙測試與健全測試
19.2.10 性能測試
19.2.11 可用性測試
19.2.12 演示基于NLP的應(yīng)用程序
19.3 檢查清單
19.3.1 模型部署清單
19.3.2 擴展和性能檢查表
19.3.3 測試檢查清單
19.4 結(jié)論
術(shù)語表

書名：基于Spark NLP的自然語言處理

作者：Alex Thomas 著

譯者：唐曉, 胡喬林, 陳新譯

國內(nèi)出版社：中國電力出版社

出版時間：2022年09月

頁數(shù)：386

書號：978-7-5198-6967-0

原版書書名：Natural Language Processing with Spark NLP

原版書出版商：O'Reilly Media

Alex Thomas

Alex Thomas是Wisecube的首席數(shù)據(jù)科學(xué)家。他將自然語言處理和機器學(xué)習(xí)與臨床數(shù)據(jù)、身份數(shù)據(jù)、雇主和求職者數(shù)據(jù)，以及現(xiàn)在的生物化學(xué)數(shù)據(jù)結(jié)合使用。Alex從Apache Spark 0.9版就開始使用，并使用過NLP庫和框架，其中包括UIMA和OpenNLP。

查看Alex Thomas更多信息

本書封面上的動物是叫隼（學(xué)名：Milvago chimango），屬于隼科的猛禽。
叫隼生活在南美洲灌木叢中，通常在水邊，靠近城鎮(zhèn)和田野。它們成群結(jié)隊地生活，具有侵略性和領(lǐng)地意識。它們經(jīng)常追逐較大的猛禽。
雄性和雌性叫隼都會筑巢并保護巢穴，孵化和喂養(yǎng)幼鳥。這些鳥吃昆蟲、脊椎動物和腐肉，它們還可以在水面上捕魚。
叫隼在其棲息地是比較常見的。O’Reilly封面上的許多動物瀕臨滅絕，所有這些對世界都很重要。

購買選項

定價：128.00元

書號：978-7-5198-6967-0

出版社：中國電力出版社

聯(lián)系出版社郵購

91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片