91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

 
實(shí)體消解指南:使用Python進(jìn)行數(shù)據(jù)匹配
實(shí)體消解指南:使用Python進(jìn)行數(shù)據(jù)匹配
Michael Shearer
林潤 譯
出版時(shí)間:2025年06月
頁數(shù):182
“本書填補(bǔ)了掌握實(shí)體消解技術(shù)的重要空白。數(shù)據(jù)鏈接既是科學(xué)也是藝術(shù),本書去粗取精,提煉并匯集了許多專業(yè)人士才掌握的寶貴知識。”
——Robin Linacre
Splink工具的主要作者
實(shí)體消解是一項(xiàng)關(guān)鍵的分析技術(shù),可識別出指向同一實(shí)體的多條數(shù)據(jù)記錄。通過這本實(shí)用指南,產(chǎn)品經(jīng)理、數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家將學(xué)習(xí)如何通過使用開源的Python庫和云端API,對數(shù)據(jù)集進(jìn)行清洗、分析和消解,從而使數(shù)據(jù)增值。
本書將指導(dǎo)讀者快速完成海量數(shù)據(jù)匹配,同時(shí)提高數(shù)據(jù)匹配的準(zhǔn)確性。讀者能掌握消除單一數(shù)據(jù)源中的重復(fù)條目,并在缺少公共鍵的條件下合并不同數(shù)據(jù)源。通過使用真實(shí)數(shù)據(jù)作為示例,本書將幫助讀者獲得寶貴的實(shí)際經(jīng)驗(yàn),以加速交付真正的業(yè)務(wù)價(jià)值。
通過閱讀本書,你將能夠:
● 應(yīng)對數(shù)據(jù)集去重與合并的挑戰(zhàn)。
● 提取、清洗和準(zhǔn)備用于匹配的數(shù)據(jù)集。
● 掌握用于識別等價(jià)實(shí)體的文本匹配算法。
● 掌握大規(guī)模數(shù)據(jù)集的去重與合并方法。
● 匹配包含個(gè)人和組織的數(shù)據(jù)集。
● 優(yōu)化和調(diào)優(yōu)數(shù)據(jù)匹配算法。
● 使用云端API進(jìn)行實(shí)體消解。
● 使用隱私增強(qiáng)技術(shù)進(jìn)行匹配。
借助實(shí)體消解技術(shù),讀者能構(gòu)建豐富且全面的數(shù)據(jù)資產(chǎn),管理風(fēng)險(xiǎn)并發(fā)掘新機(jī)會(huì),進(jìn)而發(fā)揮機(jī)器學(xué)習(xí)和人工智能的全部潛力。
  1. 前言
  2. 第1章 實(shí)體消解入門
  3. 1.1 什么是實(shí)體消解
  4. 1.2 實(shí)體消解的作用
  5. 1.3 實(shí)體消解的主要挑戰(zhàn)
  6. 1.3.1 姓名缺少唯一性
  7. 1.3.2 命名約定不一致
  8. 1.3.3 數(shù)據(jù)獲取不一致
  9. 1.3.4 示例
  10. 1.3.5 故意模糊處理
  11. 1.3.6 匹配組合
  12. 1.3.7 盲目匹配
  13. 1.4 實(shí)體消解過程
  14. 1.4.1 數(shù)據(jù)標(biāo)準(zhǔn)化
  15. 1.4.2 記錄分塊
  16. 1.4.3 屬性比較
  17. 1.4.4 匹配分類
  18. 1.4.5 聚類
  19. 1.4.6 規(guī)范化
  20. 1.4.7 示例
  21. 1.5 評估結(jié)果
  22. 1.6 正式開始
  23. 第2章 數(shù)據(jù)標(biāo)準(zhǔn)化
  24. 2.1 案例
  25. 2.2 設(shè)置環(huán)境
  26. 2.3 獲取數(shù)據(jù)
  27. 2.3.1 維基百科數(shù)據(jù)
  28. 2.3.2 TheyWorkForYou數(shù)據(jù)
  29. 2.4 清洗數(shù)據(jù)
  30. 2.4.1 清洗維基百科數(shù)據(jù)
  31. 2.4.2 清洗TheyWorkForYou數(shù)據(jù)
  32. 2.5 比較屬性
  33. 2.6 選區(qū)
  34. 2.7 評估結(jié)果
  35. 2.8 計(jì)算樣本
  36. 2.9 總結(jié)
  37. 第3章 文本匹配
  38. 3.1 編輯距離匹配
  39. 3.1.1 Levenshtein距離
  40. 3.1.2 Jaro相似度
  41. 3.1.3 Jaro-Winkler相似度
  42. 3.2 語音匹配
  43. 3.2.1 Metaphone算法
  44. 3.2.2 MRA算法
  45. 3.3 技術(shù)比較
  46. 3.4 案例
  47. 3.5 全面相似度比較
  48. 3.6 評估結(jié)果
  49. 3.7 總結(jié)
  50. 第4章 概率匹配
  51. 4.1 案例
  52. 4.2 單一屬性匹配概率
  53. 4.2.1 名字匹配概率
  54. 4.2.2 姓氏匹配概率
  55. 4.3 多屬性匹配概率
  56. 4.4 概率模型
  57. 4.4.1 貝葉斯定理
  58. 4.4.2 m值
  59. 4.4.3 u值
  60. 4.4.4 λ值
  61. 4.4.5 貝葉斯因子
  62. 4.4.6 Fellegi-Sunter模型
  63. 4.4.7 匹配權(quán)重
  64. 4.5 期望最大化算法
  65. 4.5.1 第一次迭代
  66. 4.5.2 第二次迭代
  67. 4.5.3 第三次迭代
  68. 4.6 Splink入門
  69. 4.6.1 配置Splink
  70. 4.6.2 Splink匹配結(jié)果
  71. 4.7 總結(jié)
  72. 第5章 記錄分塊
  73. 5.1 案例
  74. 5.2 獲取數(shù)據(jù)
  75. 5.2.1 維基百科數(shù)據(jù)
  76. 5.2.2 英國公司注冊署數(shù)據(jù)
  77. 5.3 數(shù)據(jù)標(biāo)準(zhǔn)化
  78. 5.3.1 維基百科數(shù)據(jù)
  79. 5.3.2 英國公司注冊署數(shù)據(jù)
  80. 5.4 記錄分塊與屬性比較
  81. 5.4.1 使用Splink進(jìn)行記錄分塊
  82. 5.4.2 比較屬性
  83. 5.5 匹配分類
  84. 5.6 評估結(jié)果
  85. 5.7 總結(jié)
  86. 第6章 匹配公司
  87. 6.1 案例
  88. 6.2 獲取數(shù)據(jù)
  89. 6.3 數(shù)據(jù)標(biāo)準(zhǔn)化
  90. 6.3.1 英國公司注冊署數(shù)據(jù)
  91. 6.3.2 英國海事及海岸警衛(wèi)署數(shù)據(jù)
  92. 6.4 記錄分塊與屬性比較
  93. 6.5 匹配分類
  94. 6.6 評估結(jié)果
  95. 6.7 匹配新實(shí)體
  96. 6.8 總結(jié)
  97. 第7章 聚類
  98. 7.1 簡單精確匹配聚類
  99. 7.2 近似匹配聚類
  100. 7.3 案例
  101. 7.3.1 獲取數(shù)據(jù)
  102. 7.3.2 數(shù)據(jù)標(biāo)準(zhǔn)化
  103. 7.4 記錄分塊與屬性比較
  104. 7.4.1 數(shù)據(jù)分析
  105. 7.4.2 期望最大化分塊規(guī)則
  106. 7.5 匹配分類與聚類
  107. 7.6 簇可視化
  108. 7.7 聚類分析
  109. 7.8 總結(jié)
  110. 第8章 使用谷歌云平臺進(jìn)行擴(kuò)展
  111. 8.1 谷歌云設(shè)置
  112. 8.2 創(chuàng)建Dataproc集群
  113. 8.3 配置Dataproc集群
  114. 8.4 使用Spark進(jìn)行實(shí)體消解
  115. 8.5 評估結(jié)果
  116. 8.6 整理工作
  117. 8.7 總結(jié)
  118. 第9章 實(shí)體消解云服務(wù)
  119. 9.1 BigQuery簡介
  120. 9.2 企業(yè)知識圖譜API
  121. 9.2.1 模式映射
  122. 9.2.2 消解作業(yè)
  123. 9.2.3 處理結(jié)果
  124. 9.2.4 實(shí)體消解Python客戶端
  125. 9.3 評估結(jié)果
  126. 9.4 總結(jié)
  127. 第10章 利用記錄關(guān)聯(lián)技術(shù)保護(hù)隱私
  128. 10.1 隱私集合求交簡介
  129. 10.2 PSI原理
  130. 10.3 基于ECDH的PSI協(xié)議
  131. 10.3.1 布隆過濾器
  132. 10.3.2 格倫布編碼集
  133. 10.4 案例:使用PSI
  134. 10.4.1 設(shè)置環(huán)境
  135. 10.4.2 服務(wù)器代碼
  136. 10.4.3 客戶端代碼
  137. 10.4.4 完整的MCA和公司注冊署樣本示例
  138. 10.5 總結(jié)
  139. 第11章 進(jìn)一步探討
  140. 11.1 數(shù)據(jù)問題探討
  141. 11.1.1 非結(jié)構(gòu)化數(shù)據(jù)問題
  142. 11.1.2 數(shù)據(jù)質(zhì)量問題
  143. 11.1.3 時(shí)效性問題
  144. 11.2 屬性比較
  145. 11.2.1 集合匹配
  146. 11.2.2 地理編碼位置匹配
  147. 11.2.3 匯總比較
  148. 11.3 后處理
  149. 11.4 圖形表示
  150. 11.5 實(shí)時(shí)性問題
  151. 11.6 評估結(jié)果
  152. 11.6.1 成對方法
  153. 11.6.2 基于簇的方法
  154. 11.7 實(shí)體消解的未來
書名:實(shí)體消解指南:使用Python進(jìn)行數(shù)據(jù)匹配
作者:Michael Shearer
譯者:林潤 譯
國內(nèi)出版社:機(jī)械工業(yè)出版社
出版時(shí)間:2025年06月
頁數(shù):182
書號:978-7-111-78329-9
原版書書名:Hands-On Entity Resolution
原版書出版商:O'Reilly Media
Michael Shearer
 
Michael Shearer是HAWK:AI公司的首席解決方案官,該公司致力于幫助金融機(jī)構(gòu)偵測金融犯罪活動(dòng)。作為匯豐銀行前董事總經(jīng)理,他在2014—2023年間主導(dǎo)開發(fā)了一套合規(guī)系統(tǒng)。此外,邁克爾還在英國政府部門擁有20年的工作經(jīng)驗(yàn),曾擔(dān)任多個(gè)關(guān)鍵的管理和技術(shù)角色。
 
 
本書封面上的動(dòng)物是赤胸?cái)M啄木鳥(Psilorhinus haemacephalus),它們以具有規(guī)律節(jié)奏的鳥鳴聲著稱,這種聲音聽起來就像是銅匠在敲擊金屬。
赤胸?cái)M啄木鳥是一種小型鳥類,體長為15~17厘米,體重為1~2盎司(1盎司~28.35克)。它們身上的顏色以綠色為主,頭部赤色,臉頰和為黃色,身體下部帶有灰色和黑色的條紋。
赤胸?cái)M啄木鳥分布于印度次大陸和東南亞的部分地區(qū),包括孟加拉園、泰國、馬來西亞和巴基斯坦。它們將枯木作為棲息地,用在木頭上鑿出巢穴。它們出沒于花園、小樹林和稀疏的林地等不同的棲息地,喜歡吃野生無花果、核果、漿果、花瓣,偶爾也會(huì)吃昆蟲。它們每天可以吃下相當(dāng)于自身體重1.5~3倍重的漿果。
赤胸?cái)M啄木鳥的數(shù)量正在增長,在瀕危物種列表中風(fēng)險(xiǎn)最小。然而,0'Reilly圖書封面上的許多動(dòng)物都處于瀕危狀態(tài),這些動(dòng)物對世界都非常重要。
購買選項(xiàng)
定價(jià):69.00元
書號:978-7-111-78329-9
出版社:機(jī)械工業(yè)出版社