自然語言處理實戰(zhàn):預訓練模型應用及其產(chǎn)品化
王書鑫, 李銳, 丁舶洋, 羅遠飛 譯
出版時間:2022年07月
頁數(shù):276
“本書富有啟發(fā)性。作者帶領(lǐng)你遨游于自然語言處理的復雜世界。每一章都讓你有所收獲。”
——Benjamin Muskalla
高級軟件工程師
在過去幾年中,自然語言處理技術(shù)的受歡迎程度呈現(xiàn)“爆炸式”增長。盡管Google、Facebook、OpenAI等前沿公司繼續(xù)發(fā)布著規(guī)模更大的語言模型,但許多開發(fā)團隊仍在努力構(gòu)建與時俱進的自然語言處理應用程序。本書將幫助你快速了解自然語言處理的新
技術(shù)及未來發(fā)展趨勢。
通過閱讀本書,你將學習如何為組織中的實際應用程序構(gòu)建、訓練和部署模型。作者使用突出現(xiàn)代自然語言處理最佳實踐的代碼和示例指導你完成整個過程。
本書的主要內(nèi)容包括:
● 使用先進的自然語言處理模型(如BERT和GPT3)來解決命名實體識別、文本分類、語義搜索和閱讀理解等自然語言處理任務。
● 開發(fā)性能可媲美甚至優(yōu)于開箱即用系統(tǒng)的自然語言處理模型。
● 了解Transformer架構(gòu)和現(xiàn)代技巧,比如席卷整個自然語言處理世界的遷移學習。
● 熟悉自然語言處理的工具和框架,包括spaCy、Hugging Face和fast.ai。
● 使用Python和PyTorch從頭開始構(gòu)建自然語言處理任務流水線的核心部分,包括分詞器、向量嵌入和語言模型。
● 將你的模型從Jupyter Notebook中產(chǎn)品化,并學習如何在生產(chǎn)環(huán)境中部署、監(jiān)控和維護它們。
- 前言
- 第一部分 浮光掠影
- 第1章 自然語言處理介紹
- 1.1 什么是自然語言處理
- 1.2 基本的自然語言處理
- 1.3 總結(jié)
- 第2章 Transformer和遷移學習
- 2.1 利用fast.ai庫進行訓練
- 2.2 利用Hugging Face系列庫進行推理
- 2.3 總結(jié)
- 第3章 NLP任務和應用程序
- 3.1 預訓練語言模型
- 3.2 遷移學習和微調(diào)
- 3.3 NLP任務
- 3.4 自然語言數(shù)據(jù)集
- 3.5 NLP任務1:命名實體識別
- 3.6 NLP任務2:文本分類
- 3.7 總結(jié)
- 第二部分 綱舉目張
- 第4章 分詞
- 4.1 一個極簡的分詞器
- 4.2 Hugging Face的分詞器
- 4.3 搭建自己的分詞器
- 4.4 總結(jié)
- 第5章 向量嵌入:計算機如何“理解”單詞
- 5.1 理解文本與讀取文本
- 5.2 詞向量
- 5.3 詞向量嵌入實踐
- 5.4 非詞條的嵌入
- 5.5 總結(jié)
- 第6章 循環(huán)神經(jīng)網(wǎng)絡和其他序列模型
- 6.1 循環(huán)神經(jīng)網(wǎng)絡
- 6.2 長短期記憶網(wǎng)絡
- 6.3 門控循環(huán)單元
- 6.4 總結(jié)
- 第7章 Transformer
- 7.1 從頭開始構(gòu)建Transformer
- 7.2 注意力機制
- 7.3 計算機視覺Transformer
- 7.4 總結(jié)
- 第8章 BERT方法論:博采眾長創(chuàng)新篇
- 8.1 ImageNet
- 8.2 通往NLP“ImageNet時刻”之路
- 8.3 預訓練的詞向量嵌入
- 8.4 序列模型
- 8.5 循環(huán)神經(jīng)網(wǎng)絡
- 8.6 注意力機制
- 8.7 Transformer架構(gòu)
- 8.8 NLP的“ImageNet時刻”
- 8.9 總結(jié)
- 第三部分 經(jīng)世致用
- 第9章 工欲善其事,必先利其器
- 9.1 深度學習框架
- 9.2 可視化與實驗跟蹤
- 9.3 AutoML
- 9.4 機器學習基礎(chǔ)設(shè)施和計算
- 9.5 邊緣/終端側(cè)推理
- 9.6 云推理和機器學習即服務
- 9.7 持續(xù)集成和持續(xù)交付
- 9.8 總結(jié)
- 第10章 可視化
- 10.1 我們的第一個Streamlit應用程序
- 10.2 總結(jié)
- 第11章 產(chǎn)品化
- 11.1 數(shù)據(jù)科學家、工程師和分析師
- 11.2 Databricks:你的統(tǒng)一數(shù)據(jù)分析平臺
- 11.3 Databricks的安裝
- 11.4 機器學習作業(yè)
- 11.5 MLflow
- 11.6 Databricks的替代品
- 11.7 總結(jié)
- 第12章 歸納提升
- 12.1 最后十課
- 12.2 最后的話
- 附錄A 大規(guī)模訓練
- 附錄B CUDA
書名:自然語言處理實戰(zhàn):預訓練模型應用及其產(chǎn)品化
譯者:王書鑫, 李銳, 丁舶洋, 羅遠飛 譯
國內(nèi)出版社:機械工業(yè)出版社
出版時間:2022年07月
頁數(shù):276
書號:978-7-111-70791-2
原版書書名:Applied Natural Language Processing in the Enterprise
原版書出版商:O'Reilly Media
Ankur A. Patel
Ankur A. Patel是7Park data數(shù)據(jù)科學部門的副總裁(隸屬于Vista Equity Partners投資組合公司)。在7Park data, Ankur和他的數(shù)據(jù)科學團隊使用替代數(shù)據(jù)為對沖基金和企業(yè)構(gòu)建數(shù)據(jù)產(chǎn)品,并為企業(yè)客戶開發(fā)機器學習服務(MLaaS)。
Ankur A. Patel是Glean和Mellow的聯(lián)合創(chuàng)始人。Glean使用自然語言處理技術(shù)生成供應商的支出情報信息,Mellow為程序員提供自然語言處理的API。此前,Ankur曾領(lǐng)導過7Park Data、ThetaRay、RSquared Macro、Bridgewater Associates(橋水聯(lián)合基金) 和JPMorgan(摩根大通)的團隊。他也是Hands-On Unsupervised Learning Using Python一書的作者。
Ajay Uppili Arasanipalai
Ajay Uppili Arasanipalai是美國伊利諾伊大學的一名學生,也是人工智能研究機構(gòu)Landskape AI的聯(lián)合創(chuàng)始人。作為伊利諾伊大學的ACM SIGAI分會的聯(lián)合主席,他為本科生組織了教育研討會和項目。Ajay撰寫了許多熱門文章,討論了最先進的深度學習技術(shù)。
本書封面上的鳥是南山八哥(Gracula indica)。椋鳥家族的這個成員原產(chǎn)于印度西南部(西高止山脈)和斯里蘭卡的森林。
這種有光澤的、彩虹色的黑色八哥頭上有亮黃色的垂飾,其獨特的圖案和大小使這種鳥區(qū)別于其他山八哥。它還有橙色的喙、腿和腳,翅膀上有小白斑。成蟲平均身長9英寸(1英寸大約為2.54厘米),包括它的短尾巴。與其他椋鳥一樣,南山八哥常與同類結(jié)伴
而行,無論是成對還是成群,都以其尖銳的自然聲音發(fā)聲。
它們的食物主要是水果和花蜜,包括無花果和薩普漿果。它們是雜食性的,也會吃昆蟲和其他小型獵物。
在野外,這些八哥有各種各樣的叫聲,其中一些是從其他鳥群成員那里學來的。一直以來,山八哥都被認為能很好地模仿人類的聲音,正因為如此,山八哥被人類飼養(yǎng),但也經(jīng)常被從野外捕捉(有時每年數(shù)千只),用于國際籠養(yǎng)鳥類貿(mào)易。