Transformer自然語言處理實(shí)戰(zhàn)
葉偉民, 葉志遠(yuǎn) 譯
出版時(shí)間:2024年01月
頁數(shù):342
“本書是介紹Transformers庫的典范,內(nèi)容清晰明了?!?br />
——Jeremy Howard
fast.ai聯(lián)合創(chuàng)始人,昆士蘭大學(xué)教授
“一本能為現(xiàn)代自然語言處理提供清晰指導(dǎo)的精彩指南,強(qiáng)烈推薦!”
——Christopher Manning
斯坦福大學(xué)計(jì)算機(jī)科學(xué)系機(jī)器學(xué)習(xí)領(lǐng)域首任Thomas M. Siebel教授
自Transformer在2017年發(fā)布以來,自然語言處理領(lǐng)域就邁入了一個(gè)全新的時(shí)代。以Transformer為基礎(chǔ)的模型,不斷推動著自然語言處理技術(shù)的進(jìn)步與革新。如今隨著ChatGPT的發(fā)布與流行,Transformer也被越來越多的人所了解和使用。
本書以Hugging Face Transformers庫為基礎(chǔ),旨在向讀者介紹Transformer模型的基礎(chǔ)知識和快速入門方式,幫助讀者完成訓(xùn)練和擴(kuò)展。三位作者都是Hugging Face Transformers的創(chuàng)建者,深諳Transformer的原理與架構(gòu),將通過實(shí)際案例“手把手”地幫助讀者構(gòu)建各種自然語言處理任務(wù),并不斷挖掘Transformer的無限潛力,從而實(shí)現(xiàn)更廣泛的應(yīng)用和創(chuàng)新。
通過本書,你將:
● 以NLP領(lǐng)域最具代表性的任務(wù)(文本分類、命名實(shí)體識別和問答系統(tǒng))為例,學(xué)習(xí)構(gòu)建、調(diào)試和優(yōu)化Transformer模型。
● 了解Transformer如何應(yīng)用于跨語言遷移學(xué)習(xí)。
● 學(xué)習(xí)如何在標(biāo)注數(shù)據(jù)稀缺的場景中應(yīng)用Transformer。
● 使用蒸餾、剪枝和量化等技術(shù)優(yōu)化Transformer。
● 學(xué)習(xí)如何對Transformer做分布式并行訓(xùn)練。
- 序
- 前言
- 第1章 歡迎來到Transformer的世界
- 1.1 編碼器-解碼器框架
- 1.2 注意力機(jī)制
- 1.3 NLP的遷移學(xué)習(xí)
- 1.4 Hugging FaceTransformers庫:提供規(guī)范化接口
- 1.5 Transformer應(yīng)用概覽
- 1.6 Hugging Face生態(tài)系統(tǒng)
- 1.7 Transformer的主要挑戰(zhàn)
- 1.8 本章小結(jié)
- 第2章 文本分類
- 2.1 數(shù)據(jù)集
- 2.2 將文本轉(zhuǎn)換成詞元
- 2.3 訓(xùn)練文本分類器
- 2.4 本章小結(jié)
- 第3章 Transformer架構(gòu)剖析
- 3.1 Transformer架構(gòu)
- 3.2 編碼器
- 3.3 解碼器
- 3.4 認(rèn)識Transformer
- 3.5本章小結(jié)
- 第4章 多語言命名實(shí)體識別
- 4.1 數(shù)據(jù)集
- 4.2 多語言Transformer
- 4.3 多語言詞元化技術(shù)
- 4.4 命名實(shí)體識別中的Transformers
- 4.5 自定義Hugging Face Transformers庫模型類
- 4.6 NER的詞元化
- 4.7 性能度量
- 4.8 微調(diào)XLM-RoBERTa
- 4.9 錯(cuò)誤分析
- 4.10 跨語言遷移
- 4.11 用模型小部件進(jìn)行交互
- 4.12 本章小結(jié)
- 第5章 文本生成
- 5.1 生成連貫文本的挑戰(zhàn)
- 5.2 貪婪搜索解碼
- 5.3 束搜索解碼
- 5.4 采樣方法
- 5.5 top-k和核采樣
- 5.6 哪種解碼方法最好
- 5.7 本章小結(jié)
- 第6章 文本摘要
- 6.1 CNN/DailyMail數(shù)據(jù)集
- 6.2 文本摘要pipeline
- 6.3 比較不同的摘要
- 6.4 度量生成文本的質(zhì)量
- 6.5 在CNN/DailyMail數(shù)據(jù)集上評估PEGASUS
- 6.6 訓(xùn)練摘要模型
- 6.7 本章小結(jié)
- 第7章 構(gòu)建問答系統(tǒng)
- 7.1 構(gòu)建基于評論的問答系統(tǒng)
- 7.2 評估并改進(jìn)問答pipeline
- 7.3 生成式問答
- 7.4 本章小結(jié)
- 第8章 Transformer模型調(diào)優(yōu)
- 8.1 以意圖識別為例
- 8.2 創(chuàng)建性能基準(zhǔn)
- 8.3 通過知識蒸餾減小模型大小
- 8.4 利用量化技術(shù)使模型運(yùn)算更快
- 8.5 基準(zhǔn)測試量化模型
- 8.6 使用ONNX和ONNX Runtime進(jìn)行推理優(yōu)化
- 8.7 使用權(quán)重剪枝使模型更稀疏
- 8.8 本章小結(jié)
- 第9章 零樣本學(xué)習(xí)和少樣本學(xué)習(xí)
- 9.1 構(gòu)建GitHub issue標(biāo)記任務(wù)
- 9.2 基線模型—樸素貝葉斯
- 9.3 零樣本學(xué)習(xí)
- 9.4 少樣本學(xué)習(xí)
- 9.5 利用無標(biāo)注數(shù)據(jù)
- 9.6 本章小結(jié)
- 第10章 從零訓(xùn)練Transformer模型
- 10.1 如何尋找大型數(shù)據(jù)集
- 10.2 構(gòu)建詞元分析器
- 10.3 從零訓(xùn)練一個(gè)模型
- 10.4 結(jié)果與分析
- 10.5 本章小結(jié)
- 第11章 未來發(fā)展趨勢
- 11.1 Transformer的擴(kuò)展
- 11.2 其他應(yīng)用領(lǐng)域
- 11.3 多模態(tài)的Transformer
- 11.4 繼續(xù)前行的建議
書名:Transformer自然語言處理實(shí)戰(zhàn)
譯者:葉偉民, 葉志遠(yuǎn) 譯
國內(nèi)出版社:機(jī)械工業(yè)出版社
出版時(shí)間:2024年01月
頁數(shù):342
書號:978-7-111-74192-3
原版書書名:Natural Language Processing with Transformers
原版書出版商:O'Reilly Media
Lewis Tunstall
Lewis Tunstall是Hugging Face機(jī)器學(xué)習(xí)工程師,致力于為NLP社區(qū)開發(fā)實(shí)用工具,并幫助人們更好地使用這些工具。
Leandro von Werra
Leandro von Werra是Hugging Face機(jī)器學(xué)習(xí)工程師,致力于代碼生成模型的研究與社區(qū)推廣工作。
Thomas Wolf
Thomas Wolf是Hugging Face首席科學(xué)官兼聯(lián)合創(chuàng)始人,他的團(tuán)隊(duì)肩負(fù)著促進(jìn)AI研究和普及的使命。
本書封面上的動物是虹彩吸蜜鸚鵡(Coconut Lorikeet,學(xué)名Trichoglossus haematodus)。它是長尾小鸚鵡和鸚鵡的近親,也被稱為綠頸鸚鵡,原產(chǎn)于大洋洲。
虹彩吸蜜鸚鵡的羽毛融入了熱帶和亞熱帶豐富多彩的環(huán)境,它的脖子上有黃綠色環(huán)帶,頭部為深藍(lán)色,頭部末端是橙紅色的喙,眼睛是橙色的,胸部羽毛是紅色的。虹彩吸蜜鸚鵡是七種吸蜜鸚鵡中尖尾最長的,從上往下看是綠色,從下往上看是黃色。它身長為10~12in(或25~30cm),重為3.8~4.8oz(或108~136g)。
虹彩吸蜜鸚鵡實(shí)行一夫一妻制,一次會排出兩顆卵。它們在80ft(約24m)高的桉樹上筑巢,在野外能生活15~20年。虹彩吸蜜鸚鵡因其美麗的羽毛而被當(dāng)成寵物進(jìn)行交易。由于被大范圍捕獲和人為破壞棲息地,它曾一度被列為瀕危物種。
O'Reilly出版社的圖書封面上的許多動物都瀕臨滅絕,它們對世界都很重要。