弱監(jiān)督學(xué)習(xí)實用指南:用更少的數(shù)據(jù)做更多的事情
任艷杰, 吳楚儀, 耿飚, 劉偉翼, 曹俊, 張祥 譯
出版時間:2022年12月
頁數(shù):196
“弱監(jiān)督和數(shù)據(jù)編程是軟件2.0的基礎(chǔ)?!度醣O(jiān)督實用指南》很好地介紹了該領(lǐng)域的技術(shù)、工具、挑戰(zhàn)和實踐專業(yè)知識。對于利用數(shù)據(jù)和AI構(gòu)建現(xiàn)代應(yīng)用程序的開發(fā)人員來說,這是一本必讀之書。”
——Vijay K. Narayanan
ServiceNow公司首席人工智能官
如今,絕大多數(shù)數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師基于高質(zhì)量的標(biāo)簽數(shù)據(jù)集訓(xùn)練學(xué)習(xí)模型。但是,人工構(gòu)建訓(xùn)練集既耗時又十分昂貴,以至于很多公司的機(jī)器學(xué)習(xí)項目無法完成。在本書中,有一種更為實用的方法,由Wee Hyong Tok、Amit Bahree和Senja Filipi展示如何使用弱監(jiān)督學(xué)習(xí)模型創(chuàng)建產(chǎn)品。
你將學(xué)習(xí)如何通過使用Snorkel(斯坦福大學(xué)人工智能實驗室的一個衍生產(chǎn)品),在弱標(biāo)簽數(shù)據(jù)集上建立自然語言處理和計算機(jī)視覺項目。因為很多公司研究的機(jī)器學(xué)習(xí)項目從未走出他們的實驗室,所以本書還提供了如何在真實案例中使用構(gòu)建的深度學(xué)習(xí)模型的指南。
● 了解弱監(jiān)督領(lǐng)域的最新進(jìn)展,包括將其用在數(shù)據(jù)科學(xué)過程中的方法
● 使用Snorkel AI進(jìn)行弱監(jiān)督和數(shù)據(jù)編程
● 獲取使用Snorkel標(biāo)記文本和圖像數(shù)據(jù)集的代碼示例
● 使用弱標(biāo)簽數(shù)據(jù)集進(jìn)行文本和圖像分類
● 了解使用 Snorkel 處理大型數(shù)據(jù)集和使用 Spark 集群擴(kuò)展標(biāo)簽的注意事項
- 黃學(xué)東序
- Alex Ratner序
- 前言
- 第1章 弱監(jiān)督介紹
- 什么是弱監(jiān)督?
- Snorkel弱監(jiān)督實例
- 弱監(jiān)督的基本方法
- 數(shù)據(jù)編程
- 獲取訓(xùn)練數(shù)據(jù)
- 總結(jié)
- 第2章使用Snorkel框架深入數(shù)據(jù)編程
- Snorkel數(shù)據(jù)編程框架
- 從標(biāo)簽函數(shù)開始
- 使用LabelModel達(dá)成標(biāo)簽一致性
- 改進(jìn)標(biāo)簽功能的策略
- 使用Snorkel Transformers進(jìn)行數(shù)據(jù)增強(qiáng)
- 總結(jié)
- 第3章 標(biāo)記行為
- 標(biāo)記文本數(shù)據(jù)集:識別假新聞
- 標(biāo)記圖像數(shù)據(jù)集:識別室內(nèi)與室外圖像
- 總結(jié)
- 第4章 使用Snorkel標(biāo)記的數(shù)據(jù)集進(jìn)行文本分類
- 自然語言處理(NLP)入門
- 硬性標(biāo)簽與概率性標(biāo)簽
- 使用ktrain進(jìn)行文本分類
- 使用Hugging Face和Transformers
- 總結(jié)
- 第5章 使用Snorkel標(biāo)注的數(shù)據(jù)集進(jìn)行圖像分類
- 視覺目標(biāo)識別概述
- 使用PyTorch進(jìn)行圖像分類
- 總結(jié)
- 第6章 擴(kuò)展性和分布式訓(xùn)練
- 可擴(kuò)展性的需求
- 分布式訓(xùn)練
- Apache Spark引言
- 用Azure Databricks實現(xiàn)擴(kuò)展
- Databricks上的假新聞檢測數(shù)據(jù)集
- 總結(jié)
書名:弱監(jiān)督學(xué)習(xí)實用指南:用更少的數(shù)據(jù)做更多的事情
譯者:任艷杰, 吳楚儀, 耿飚, 劉偉翼, 曹俊, 張祥 譯
國內(nèi)出版社:東南大學(xué)出版社
出版時間:2022年12月
頁數(shù):196
書號:978-7-5766-0263-0
原版書書名:Practical Weak Supervision
原版書出版商:O'Reilly Media
Wee Hyong Tok
Wee Hyong Tok是微軟AzureCAT團(tuán)隊的成員。他擁有豐富的領(lǐng)導(dǎo)經(jīng)驗,領(lǐng)導(dǎo)著由工程師和數(shù)據(jù)科學(xué)家組成的多學(xué)科團(tuán)隊,致力于研究將注入產(chǎn)品和服務(wù)的最前沿的人工智能功能。他極富技術(shù)遠(yuǎn)見,擁有產(chǎn)品管理、機(jī)器學(xué)習(xí)/深度學(xué)習(xí)以及處理復(fù)雜客戶關(guān)系的背景。多年來,他展示了早期關(guān)于技術(shù)趨勢的思想領(lǐng)導(dǎo)力白皮書已經(jīng)成為現(xiàn)實,并已深入地集成到很多產(chǎn)品當(dāng)中。他能制定戰(zhàn)略并將戰(zhàn)略轉(zhuǎn)化為行動,另外能積極推進(jìn)客戶加以應(yīng)用,這些能力使他參與的很多項目都獲得了成功。他一直在推動機(jī)器學(xué)習(xí)和深度學(xué)習(xí)產(chǎn)品的發(fā)展。他的團(tuán)隊大量使用了深度學(xué)習(xí)框架,包括TensorFlow、CNTK、Keras和PyTorch。在他的職業(yè)生涯中,曾擔(dān)任過很多角色,包括開發(fā)人員、程序/產(chǎn)品經(jīng)理、數(shù)據(jù)科學(xué)家、研究員和戰(zhàn)略家,他的豐富經(jīng)驗為他賦予了獨特的超能力,能夠很好地領(lǐng)導(dǎo)高效的數(shù)據(jù)和人工智能創(chuàng)新團(tuán)隊并定義發(fā)展戰(zhàn)略。從財富500強(qiáng)企業(yè)到初創(chuàng)企業(yè),他一直是企業(yè)高層信賴的顧問。
Amit Bahree
Amit Bahree是一位成就卓著的工程和技術(shù)領(lǐng)導(dǎo)者,擁有25年的經(jīng)驗,同時有組建和發(fā)展多個產(chǎn)品和團(tuán)隊的能力。
Senja Filipi
Senja Filipi擁有十多年的軟件工程師經(jīng)驗,其中一半時間從事全棧機(jī)器學(xué)習(xí)應(yīng)用程序工作。
封面上的動物是黃林鶯(Setophaga petechia)。這些引人注目的黃色鳥類在北美各地隨處可見,尤其是在河流和濕地附近。一年中的大部分時間,它們生活在柳樹、榿木和棉白楊等樹上,而在冬季則遷移到墨西哥、秘魯和巴西的紅樹林。
黃林鶯體型嬌小、比例勻稱,尾巴細(xì)直,頭部呈圓形。正如它的名字一樣,黃林鶯身體呈蛋黃色,下面有紅色的條紋,完美無瑕的臉上的鮮明色彩,凸顯了它又大又黑的眼睛。這種明亮的鳥在不同地區(qū)之間只有細(xì)微的差別。在世界上的其他地方,如中美洲和南美洲的紅樹林,黃林鶯亞種的頭上有一個明亮的栗色冠,因此被稱為“金色”黃鶯。
它們的露天的、杯狀的鳥巢通常筑在高灌木和矮樹木的頂部。在它們的巢里,北美產(chǎn)的燕八哥也可能在這里產(chǎn)卵。為了阻止燕八哥,黃林鶯會在燕八哥的蛋上面新筑造一層巢底,并且在這一層上產(chǎn)卵。它們繼續(xù)創(chuàng)造盡可能多的巢底,就像燕八哥返回產(chǎn)卵以阻止它們一樣。黃林鶯的食物通常包括昆蟲和樹葉,它們通過在小樹枝上快速跳躍來覓食。
黃林鶯也可以通過它們獨特而甜美的鳴叫聲來辨別。這是柳樹和林地邊緣常見的聲音,雄性會唱各種各樣的歌,其中一些聲音類似于木蘭鶯鳥或栗色邊鶯。目前,黃林鶯的保護(hù)狀況最不受關(guān)注,因為它們對次生林的親和性使它們不容易受到棲息地喪失的影響。O’Reilly封面上的許多動物都瀕臨滅絕。這些動物對我們的世界都很重要。