AI輔助數(shù)據(jù)質(zhì)量監(jiān)控
李晗玥, 柯幸燁, 陳天皓 譯
出版時(shí)間:2025年05月
頁(yè)數(shù):202
“這本書巧妙地闡述了從規(guī)則定義、機(jī)器學(xué)習(xí)到規(guī)模擴(kuò)展以及警報(bào)疲勞等數(shù)據(jù)質(zhì)量的整個(gè)生命周期,是一本權(quán)威的參考資料?!?br />
——Chris Riccomini
The Missing README的作者
如今,各類企業(yè)每天總共要處理250億億字節(jié)的數(shù)據(jù)。然而,在這些用于開發(fā)產(chǎn)品、驅(qū)動(dòng)人工智能系統(tǒng)以及助力商業(yè)決策的數(shù)據(jù)中,有多少是質(zhì)量不佳甚至完全沒用的數(shù)據(jù)呢?這本書將向你展示如何確保你的組織所依賴的數(shù)據(jù)是可靠的。
大多數(shù)數(shù)據(jù)工程師、數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家真心關(guān)注數(shù)據(jù)質(zhì)量,但他們往往沒有時(shí)間、資源或足夠的認(rèn)知來(lái)構(gòu)建一個(gè)能夠大規(guī)模成功運(yùn)行的數(shù)據(jù)質(zhì)量監(jiān)控解決方案。在本書中,來(lái)自Anomalo公司的Jeremy Stanley和Paige Schwartz將闡釋如何利用自動(dòng)化數(shù)據(jù)質(zhì)量監(jiān)控來(lái)高效覆蓋所有數(shù)據(jù)表,主動(dòng)就問(wèn)題發(fā)出預(yù)警,并立即解決問(wèn)題。
通過(guò)閱讀這本書,你將:
● 了解為何數(shù)據(jù)質(zhì)量是企業(yè)的當(dāng)務(wù)之急。
● 構(gòu)建一個(gè)無(wú)監(jiān)督機(jī)器學(xué)習(xí)模型,用于檢測(cè)數(shù)據(jù)問(wèn)題。
● 實(shí)施通知機(jī)制,以減輕警報(bào)疲勞,并快速對(duì)問(wèn)題進(jìn)行分類并解決它們。
● 將自動(dòng)化數(shù)據(jù)質(zhì)量監(jiān)控與數(shù)據(jù)目錄、編排層以及商業(yè)智能和機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行集成。
● 學(xué)習(xí)如何克服自動(dòng)化數(shù)據(jù)質(zhì)量監(jiān)控的局限性。
● 了解如何大規(guī)模部署和管理你的監(jiān)控解決方案。
書名:AI輔助數(shù)據(jù)質(zhì)量監(jiān)控
譯者:李晗玥, 柯幸燁, 陳天皓 譯
國(guó)內(nèi)出版社:機(jī)械工業(yè)出版社
出版時(shí)間:2025年05月
頁(yè)數(shù):202
書號(hào):978-7-111-78025-0
原版書書名:Automating Data Quality Monitoring
原版書出版商:O'Reilly Media
Jeremy Stanley
Jeremy Stanley是Anomalo公司的聯(lián)合創(chuàng)始人兼首席技術(shù)官。此前,他曾在Instacart公司擔(dān)任數(shù)據(jù)科學(xué)副總裁,在那里他領(lǐng)導(dǎo)了機(jī)器學(xué)習(xí)項(xiàng)目,并推動(dòng)了旨在提高公司盈利能力的各項(xiàng)舉措。
Paige Schwartz
Paige Schwartz是Anomalo公司的一名專業(yè)技術(shù)作家,曾為包括Airbnb(愛彼迎)、Grammarly和OpenAI等在內(nèi)的企業(yè)客戶撰寫文案。她曾擔(dān)任谷歌的產(chǎn)品經(jīng)理,擅長(zhǎng)機(jī)器學(xué)習(xí)和數(shù)據(jù)相關(guān)領(lǐng)域的話題。
本書封面上的動(dòng)物是一只姥鯊(Cetorhinus maximus)。姥鯊是世界上第二大的魚類,雖然它們看起來(lái)令人生畏,但實(shí)際上是相當(dāng)溫和的生物。
姥鯊最長(zhǎng)可達(dá)12米,最重可達(dá)6噸,它們的大型背鰭使它們?cè)谒嬗蝿?dòng)時(shí)容易被發(fā)現(xiàn)。它們有一個(gè)球狀的鼻子,頭部幾乎被鰓裂環(huán)繞。姥鯊?fù)ㄟ^(guò)緩慢游動(dòng)并張開大嘴攝食,將浮游動(dòng)物捕捉在鰓耙中。一只姥鯊每小時(shí)可以過(guò)濾約2000噸海水中的食物。它們廣泛分布于全球溫帶地區(qū)。
姥鯊曾被過(guò)度捕獵到瀕臨滅絕的地步。盡管已對(duì)它們實(shí)施了保護(hù)措施,但它們?nèi)钥赡軙?huì)被誤撈或因被漁具纏住而受傷。此外,它們還面臨著被船只撞死的危險(xiǎn)。