這篇評估機器學習模型的報告是源于對這個題目需求的緊迫感。這篇報告最初是發(fā)布在Dato的機器學習博客上的六篇系列博文。我是這個博客的編輯,需要每天找些東西來發(fā)布。Dato開發(fā)了一些機器學習的工具來幫助用戶來構建智能的數(shù)據(jù)產品。在和機器學習社群的交流中,我們經常會發(fā)現(xiàn)相互之間對一些術語會有不同的理解。例如,用戶會要求交叉驗證作為產品的一個特性,而事實上他們是想要超參數(shù)的調優(yōu),而這一特性我們已經有了。因此我想:“嗯!我應該快速地解釋一下這些概念的意思,并告訴大家它們在用戶手冊里面的哪些章節(jié)?!?/p>
所以我坐下開始寫一篇博文來解釋交叉驗證、保留部分數(shù)據(jù)做驗證和超參數(shù)調優(yōu)。然而在寫完頭兩段后,我意識到這可能會遠遠超過一篇博文才能講清楚的。這三個概念處在機器學習的模型評估的層次體系中的不同層面。交叉驗證和保留部分數(shù)據(jù)做驗證是把數(shù)據(jù)集進行一定的切分來測量模型對于“沒見過的”數(shù)據(jù)的表現(xiàn)。與此不同的是,超參數(shù)調優(yōu)則是模型選擇的元過程。但是為什么需要給模型“沒見過的”數(shù)據(jù)?什么是關于超參數(shù)調優(yōu)的這個“元”?為了解釋清楚這一切,我需要從最基礎的開始。首先我需要從更高層次上解釋這些概念,以及他們是怎么組織在一起的。只有在這之后我才能進一步討論細節(jié)。

