機器學習模型效果評估指標

模型的評估有一套完整的方法論，對於有監督機器學習，通常進行特徵工程計算後，會把數據分成訓練集和測試集，訓練集用於訓練模型，模型生成後，通過模型對測試集中數據的特徵進行預測，把預測得到的值與測試集中事先標記的數據標籤一對比，就能判斷模型的預測是否正確。在算法平臺上，模型訓練完成後系統會生成一份模型評估
1、準確率、精確率、召回率、F1-score
準確率(Accuracy)：衡量所有樣本被分類準確的比例

Accuracy=(TP+TN)/(TP+FP+TN+FN)

精確率(Precision)：也叫查準率，衡量正樣本的分類準確率，就是說倍預測為正樣本的樣本有多少是真的正樣本。

Precision=TP/(TP+FP)

召回率(Recall)：表示分類正確的正樣本佔總的分類正確樣本的比例

Recall=TP/(TP+FN)

F1-score：精確率和召回率的調和平均

2F/1=1/P+1/R⟹F1=2PR/(P+R)=2TP/(2TP+FP+TN)

可以看到，在上式裡我們認為精確率和召回率是一樣重要的（他們的權重一樣），當我們的評估更加註重精確率或者召回率的時候，該怎麼處理呢？

我們引入 Fβ ，對於任意的非負值 β，我們定義

Fβ=(β^2+1)⋅PR/(β^2⋅P+R )

可以看到，我們可以通過調整 β來幫助我們更好地評估結果。

最好的分類器當然是準確率、精確率，召回率都為1，但實際場景中幾乎是不可能的，而且精確率和召回率往往會相互影響，一個高了另一個會有所下降，因此在實際應用中要根據具體需求做適當平衡。

2、ROC、AUC

ROC（Receiver Operating Characteristic）曲線和AUC常被用來評價一個二值分類器（binary classifier）的優劣，ROC曲線橫座標是FPR(False Positive Rate)，縱座標是TPR(True Positive Rate)

FPR=FP(FP+TN),TPR=TP/(TP+FN)

接下來我們考慮ROC曲線圖中的四個點和一條線。第一個點，(0,1)，即FPR=0, TPR=1，這意味著FN（false negative）=0，並且FP（false positive）=0。Wow，這是一個完美的分類器，它將所有的樣本都正確分類。第二個點，(1,0)，即FPR=1，TPR=0，類似地分析可以發現這是一個最糟糕的分類器，因為它成功避開了所有的正確答案。第三個點，(0,0)，即FPR=TPR=0，即FP（false positive）=TP（true positive）=0，可以發現該分類器預測所有的樣本都為負樣本（negative）。類似的，第四個點（1,1），分類器實際上預測所有的樣本都為正樣本。經過以上的分析，我們可以斷言，ROC曲線越接近左上角，該分類器的性能越好。

2.1 如何畫ROC曲線

對於一個特定的分類器和測試數據集，顯然只能得到一組FPR和TPR結果，而要得到一個曲線，我們實際上需要一系列FPR和TPR的值，這又是如何得到的呢？我們先來看一下wikipedia上對ROC曲線的定義

ROC曲線是由一系列因區分閾值變化產生的點，用於描述二分類模型的判斷能力

這裡的關鍵在於 “its discrimination threshold is varied” ，因為對於一個二分類模型，它的輸出結果其實是判斷這個樣本屬於正樣本的概率值，假如我們已經得到了所有樣本的概率輸出（屬於正樣本的概率），現在的問題是如何改變“discrimination threashold”？我們根據每個測試樣本屬於正樣本的概率值從大到小排序。下圖是一個示例，圖中共有20個測試樣本，“Class”一欄表示每個測試樣本真正的標籤（p表示正樣本，n表示負樣本），“Score”表示每個測試樣本屬於正樣本的概率然後我們按照樣本的score值，從大到小依次作為閾值，當樣本score值大於等於閾值時則判定為正樣本，否則為負樣本。

例如第一個閾值取0.9，這時只有id=1的樣本被預測為正樣本，其餘都是負樣本，此時TPR=1/1+9=0.1, FPR=0/0+10=0，

當我們將threshold設置為1和0時，分別可以得到ROC曲線上的(0,0)和(1,1)兩個點。將這些(FPR,TPR)對連接起來，就得到了ROC曲線。當threshold取值越多，ROC曲線越平滑。

2.2 計算AUC值

AUC（Area Under Curve）被定義為ROC曲線下的面積，顯然這個面積的數值不會大於1。又由於ROC曲線一般都處於y=x這條直線的上方，所以AUC的取值範圍在0.5和1之間。使用AUC值作為評價標準是因為很多時候ROC曲線並不能清晰的說明哪個分類器的效果更好，而作為一個數值，對應AUC更大的分類器效果更好.

可以看到AUC應該理解為對隨機取出一個正樣本和一個負樣本，模型預測正樣本為正樣本的概率大於預測負樣本為正樣本的概率的概率值。

可能不太好理解這句話，那我們還是用上面的例子來說明，假設二分類模型A要找到所有正樣本，對20個樣本的預測概率根據概率值大小得到一個排序，我們希望有儘可能多的正樣本排在負樣本前面，最好的模型當然是所有的正樣本都排在負樣本前，但這種分類器要不就是過擬合要不就不存在，當有越多正樣本排在負樣本前的時候，我們得到的ROC曲線上的點的分佈會越靠近y軸（FPR=0）和y=1（TPR=1）這兩條線，顯然這時候曲線下的面積值(AUC) 會越接近於1，這個時候我們再看上面對AUC的理解這句話，隨機取出一個正樣本和一個負樣本，

如果auc值大，當然會有更多的正樣本被更大概率預測準確，負樣本被預測為正樣本的概率也會越小。
2.3 為什麼要用ROC曲線
因為ROC曲線有個很好的特性：當測試集中的正負樣本的分佈變化的時候，ROC曲線能夠保持不變。在實際的數據集中經常會出現類不平衡（class imbalance）現象，即負樣本比正樣本多很多（或者相反），而且測試數據中的正負樣本的分佈也可能隨著時間變化。
將測試集中負樣本的數量增加到原來的10倍後，ROC曲線基本保持原貌，而Precision-Recall曲線則變化較大。
評價指標是機器學習任務中非常重要的一環。不同的機器學習任務，如分類（classification）、迴歸（regression）、排序（ranking）、聚類（clustering）、主題模型（topic modeling），有著不同的評價指標。而有些指標可以對多種不同的機器學習模型進行評價，如精確率－召回率（precision-recall），可以用在分類、推薦、排序等任務中。機器學習應用的很大一類是監督式機器學習，像分類、迴歸、排序。因此本報告的重點是介紹監督式機器學習的一些評價指標。

分類的評估指標
分類是指對給定的數據項預測該數據所屬的類別。在二元分類中，結果包括兩個類別。在多元分類中，結果是兩個以上的類別。這裡我將主要關注二元分類，但是所有的評估參數都可以被用於多元分類。

二元分類的一個例子便是垃圾郵件檢測。分類器的輸入可以包括郵件的文字內容以及元數據（比如發件人、發送時間等），而輸出則是一個標籤，表明郵件是“垃圾”還是“正常”，如圖2-1所示。有時也用一些更一般的名稱來定義這兩個類，如“負"（negative）與“正”

（positive），或者“類1”和“類0”。

評估分類的好壞有很多指標。準確率、混淆矩陣、ROC曲線下面積是最常用的指標。

準確率（Accuracy）
準確率是計算分類器做出正確分類的頻度。它是指在分類中，使用測試集對模型進行分類，分類正確的記錄個數佔總記錄個數的比例。

準確率=正確分類的個數/總記錄的個數

混淆矩陣（Confusion Matrix）
準確率看起來非常簡單。然而，準確率沒有對不同類別進行區分，即其平等對待每個類別的正確結果。但是這種評價有時是不夠的，比如有時要看類別0與類別1下分類錯誤的各自個數。因為不同類別下分類錯誤的代價不同，或者某一個類別下的樣本遠多於另外一個類別。例如在疾病診斷中，醫生診斷成患有癌症而實際上卻未患癌症（即假正，False Positive），與診斷成未患有癌症而實際上卻患有癌症（假負，False Negative）的這兩種情況的結果會截然不同。混淆矩陣（或叫混淆表）是對分類的結果進行詳細描述的一個表。列出了每一個類別下面分類結果正確和錯誤的數值。矩陣的行對應著真正的分類事實。矩陣的列裡面對應的是分類器分的結果。

平均類準確率(Per-class Accuracy)
準確率的一個變形是平均類準確率，即計算每個類別下的準確率，然後再計算它們的平均值。準確率是宏觀平均，而平均類準確率則是一個微觀的平均。在上述的例子裡，平均準確率為(80%+97.5%)/2=88.75%。這和準確率值（91.7%）的區別還是很大的。

通常情況下，當每個類別下類別的樣本個數不一樣，則平均準確率不等於準確率（有興趣的讀者可以自己證明一下）。為什麼這點會重要？當某一個類別下的樣本遠多於另外的類別，準確率會給出一個扭曲的結論，因為數量多的那個類的結果會很強地影響準確率。這種情況下，就應該檢查一下每一類別的準確率和平均類準確率。

平均準確率也有自己的缺點，比如，如果某個類別的樣本個數很少，那麼可能造成該類的準確率的方差過大，意味著該類的準確率可靠性比其他類要差。使用平均類準確率就會遮蓋了這個類的問題。

對數損失函數(Log-loss)
對數損失函數（Log-loss，或者全拼是Logarithmic loss）能對分類器的表現進行更細微的觀察。尤其是如果分類輸出輸出不再是0或1，而是數值，即屬於每個類別的概率，那麼可以使用Log-loss對分類結果進行評價。這個概率可以理解為某樣本對所屬的的類別的置信度。

對數損失函數的美妙之處在於它和信息論緊密的關聯。對數損失函數就是真實分類分佈和分類器預測分佈的交叉熵。它和相對熵，或者叫Kullback-Leibler散度，非常的相關。熵度量事物的不確定性。交叉熵結合了真實分類分佈的熵，再加上當預測假定了一個不同的分佈後帶來的不確定性。所以對數損失函數是基於信息論對“額外噪聲”的衡量，這個噪聲是由於預測分類和真實分類不一致所產生的。通過最小化交叉熵，我們就可以最大化分類準確性。

AUC
AUC的全拼是Area under the Curve，即曲線下的面積。這裡的曲線是指ROC曲線（Receiver Operating Characteristic Curve）。

ROC曲線不是一個數，它是一整條線。它能展現出分類器行為的細微變化，但同時也很難快速地比較出不同ROC曲線的好壞。在實際項目中，如果使用某些自動超參數調優的方法（第四章中會詳細介紹）產生了不同的結果，那麼就需要一個量化的指標來比較結果，而不是依賴於人工來看所產生的不同的ROC曲線。AUC就是其中一個量化ROC曲線的方法，它把ROC曲線轉換成曲線下的面積這一數字，從而方便了自動比對。一個好的ROC曲線下面積應該很大（這樣真正率會很快趨近於100%），而不好的ROC曲線下面積就比較小。因此AUC越大越好。

排序的評估指標
下面我們來看看排序的評估指標。但是在繼續前，我們還是要再看一看分類的指標。因為排序所用的最主要的評估指標之一，精確度-召回率，也是非常流行的分類評估指標。

排序有些類似於分類。以互聯網搜索為例，搜索引擎充當了排序器。用戶輸入一個（或多個）查詢關鍵詞，搜索引擎返回一系列它認為和用戶的查詢關鍵詞相關連的網頁，同時按照相關關係對這些網頁進行排序。概念上來說，可以認為搜索引擎的第一步就是一個二元分類（與查詢相關或者不相關），然後才是排序的過程來把最相關的放到列表的開始。在實際實現的時候，搜索引擎就不是簡單的分類，而是給出一個數值型的相關度評分，然後再按照這個數字來進行排序（簡單的情況下）。

另外一個排序問題的例子就是個性化推薦。推薦器或者是一個排序器，也可能是一個評分預測器。第一種情況下，輸出就是對應於每個用戶的一個排序過的推薦物品項的列表；而第二種情況下，推薦器需要返回一個用戶—物品項的對應，每一對應都有一個預測的評分。這樣就變成了一個迴歸的模型，後面會詳細討論。

精確率—召回率(Precision-Recall)
精確率—召回率其實是兩個評價指標。但是它們一般都是同時使用。精確率回答這樣的問題：“在排序器或者分類器給出的相關的返回集裡，到底有多少是真正的相關項？”。而召回率則是回答“在所有真正相關的項裡，排序器或者分類器找到了多少個？”

精確率和召回率的數學定義是：

精確率=回答正確的結果數/排序器返回集的總結果數召回率=回答正確的結果數/相關的項目總數

常見的情況是，我們只看排序器返回的那K個最前面的項，如K=5，

10，20，100等。精確率和召回率則會表示成精確率@k和召回率@k。

對於推薦的場景，則輸入的查詢關鍵詞有多個，每個用戶對應於所有的推薦項目就是一個關鍵詞。對於每個用戶，我們都可以給出一個精確率和召回率的平均，即平均精確率@k和平均召回率@k（這一點和準確率與平均類準確率的關係有些類似）

精確率—召回率曲線和F1值
改變排序器返回的答案的個數，即k值，相應的精確率—召回率也會發生改變。如果畫一張圖，精確率和召回率分別是x和y軸，而數值點是不同k的時候的精確率和召回率，則我們就得到了一條精確率—召回率曲線。這個曲線和ROC曲線是相關聯的（有興趣的讀者可以自己研究一下，精確率和假正率的關係是什麼？和召回率的關係是什麼？）

如ROC曲線一下，比較不同的精確率—召回率曲線也是很困難的。因此也需要一個數字的度量來表徵精確率—召回率曲線中某個固定值， F1值就是其中之一。F1值是精確率和召回率的調和平均值。

F1=2×（精確率×召回率）/（精確率+召回率）

與算術平均值不同，調和平均值受兩個變量裡小的那個影響更大。因此精確率或召回率中的某一個比較小，則F1值也會小。

歸一化折損累積增益（NDCG）
在精確率與召回率中，返回集中每個項目的地位（權值）是一樣，即位置k處的項目與位置1處的項目地位一樣。但用戶對返回結果的理解卻不是這樣。對於搜索引擎給出的排序結果，最前面的答案會遠比排在後面的答案重要。

歸一化折損累積增益（NDCG，Normalized Discounted Cumulative G a i n）便考慮了這種情況。N D C C包含了3 個遞進的指標：累積增益（CG，Cumulative Gain），折損累積增益（DCG，Discounted Cumulative Gain)，進而得到歸一化折損累積增益。CG是對排序返回的最前面k個項目的相關性得分求和，而DCG在每個項目的得分乘上一個權值，該權值與位置成反關係，即位置越靠前，權值越大。NDCG則對每項的帶權值得分先進行歸一化（把每個項目的得分除以最好的那個項目的得分），這樣得分總是落在0.0和1.0之間。維基百科上的相關文章有更詳細的數學公式。

DCG或NDCG在信息檢索中或者那些對項目的返回位置關心的模型方法找中用的比較多。

迴歸的評估指標
迴歸模型的輸出不是分類的標籤，而是一個連續型的數值。例如使用某公司的歷史股票價格和市場的一些信息來預測未來的股票價格，這就是一個迴歸模型的任務。另外一個例子就是在個性化推薦中，對於某個用戶對某個項目，給出具體的評分值（因此推薦器可以相應的對排序進行優化）。

平方根誤差（RMSE）
最常用的迴歸評估指標就是平方根誤差（RMSE，Root Mean Square Error，也叫RMSD，Root Mean Square Deviation)。它計算所有的預測值和真實值偏差的平方之和的均值，再求平方根。

平均絕對百分比誤差(MAPE)
對每個預測值如下計算 MAPE：

預測值與歷史實際值進行比較。
該差計算為實際值的百分比。即誤差。
取該誤差的絕對值，使負值取正。
區間範圍的 MAPE（平均絕對百分比誤差）是觀測到的所有值的 MAPE 的均值，是模型的質量指標。MAPE 為零表示完美模型，MAPE 大於 1 則表示劣質模型。例如，MAPE 為 0.12 表示預測誤差為 12%。即平均來算，88% 的預測值可以由模型解釋。

“幾乎正確”的預測
可能最容易理解的指標就是預測值與真實值的誤差小於X%的比例，這裡X的大小可以根據實際問題來決定。比如計算和真實值之差小於10% 的數據比例，就可以先找出|(yi- i)/yi)|<0.1的樣本的數量，然後求它們在總體中的百分比即可。這個指標給出了迴歸模型預測精度的一個定義。

注意：訓練指標和評估指標的區別
有時，模型訓練的過程所使用的評估指標（也叫做損失函數）和真正評估時使用的指標不一樣。這可能會發生在我們把一個設計用來做A事情的模型去解決B問題時。例如，對於個性化推薦器，我們可能是通過最小化預測值與真實值的比率來訓練的，但卻被用來生成推薦的排序列表。這就不是一個最優的結果，讓模型去做它不擅長的事情。儘量避免這種情況！最好是用評估的指標來訓練和優化模型。不過有些特定的評估指標則不容易這樣做（如直接優化AUC就非常困難）。建議總是去找恰當的評估指標，並直接用於模型的訓練和優化。

注意：偏態的數據集—類別不均衡、異常值和罕見值
寫下評估指標的公式很容易，但是如何去解釋指標在實際數據裡的意義就不容易了。紙上得來終覺淺，絕知此事要躬行！

需要時刻謹記的是數據的分佈是什麼樣的，以及這會對評估指標產生什麼樣的影響，尤其是要檢查數據的偏態的情況。這裡所說的偏態是指的一種類別的數據遠少於其他的類別，或者存在過多的異常值，而這些異常值會大幅度地改變評估指標的值。

前文裡，我們已經看到了類別不均衡所造成的一個坑，它會影響每類準確率。這是數據偏態的一個例子，即某個分類的樣本相對於其他分類而言太少了。這不僅僅對每類準確率有影響，對於所有的把數據樣本同等對待的評估而言，這種數據偏態都會有影響。例如正類樣本的數量僅佔總樣本的很少一點，比如1%，這在實際數據中也很常見，比如網頁廣告的點擊率、推薦器所用的用戶—項目交互訓練數據、惡意軟件檢測等。這時，一個相當“傻”的基準分類器通過把所有的數據都標為“負”就能獲得高達99%的準確率。而一個好的分類器的準確率應當遠遠高於99%。類似的，對於ROC曲線而言，真正重要的區域其實是曲線上的左上角。因此為了打敗這個基準分類器，AUC值就必須非常的高才行。圖2-4表明了這個坑。

任何給予每個類別裡的樣本同樣權重的評估指標在處理類別不均衡的時候都會有問題。因為根據他們的定義，這些指標都會偏向於那些佔據大多數的類別。同時，不僅在評估階段會有問題，甚至模型本身的訓練也會有問題。如果沒有很好的處理類別不均衡，那麼訓練出來的分類器可能根本就不知道如何來預測那些罕見的類別。

數據的偏態對個性化推薦器也有影響。真實的用戶—項目交互數據一般都是有很多用戶，他們很少會對項目來打分。同時很多項目也基本沒有被評分過。稀缺的（打過分的）用戶和（有評分的）項目給推薦器帶來了問題，包括模型訓練和評估。當訓練數據沒有足夠的有效樣本，推薦器就無法學習用戶的偏好，或者與罕見項目類似的項目。評估數據中缺乏有效的用戶和項目樣本則會對推薦器的性能評分很低，這樣又進一步導致無法獲得高質量的推薦器。

異常值是另外一類數據偏態。異常的大值會對迴歸模型造成很大的影響。例如，在百萬首歌數據集（Million Song Dataset）中，用戶對一首歌曲的評分為該用戶聽這首歌曲的次數。而最高的評分竟達到了

16000。如果迴歸模型對這一數據點的預測值出了問題，那麼由這一個點所產生的誤差就會幾乎超過所有其他點產生的誤差的總和。我們可以使用誤差的中位數來減少這個異常點所帶來的影響，從而增加魯棒性。但是還是不能根本解決模型訓練階段的這個問題。有效的解決方案是對數據進行清洗，或者重新定義問題，從而使模型對於異常值不再敏感。

離線評估的方法：
保留部分數據做驗證、交叉驗證和自助法

上文討論了各種評估指標，在開始本章之前，讓我們再回顧一下圖1-1 裡所展示的機器學習的工作流程。我們依然是在原型產生階段。這一階段我們調整很多的東西，包括特徵、模型的類別、訓練方法等。首先我們先看一下模型的選擇。

原型產生階段：模型訓練、驗證和模型選擇
我們每調整一些東西，就產生了一個新的模型。模型選擇是指從多個備選模型中找到一個合適的模型去擬合數據。而這個過程基於驗證的結果

（不是訓練的結果）來完成的。圖3-1展示了這個過程的一個簡化版。

在圖3-1裡，超參數調優被解釋成了一個控制訓練過程的“元”過程。我們會在第四章裡詳細解釋它的工作機制。這裡需要記住的是，手頭的歷史數據集被分成了兩個部分：訓練數據和驗證數據。模型驗證的結果被反饋給了超參數調優器，來幫助後者進一步調整參數來訓練模型。

這裡的問題是：為什麼需要分兩個不同的數據集來評估模型？

在統計模型的領域裡，所有的事情都被假定為平穩的，即它們是服從隨機分佈的。從隨機的數據集學習出來的模型也被認為是隨機的。並且這個學習的模型需要被一個隨機的已觀察到的數據集進行測試評估，因此測試結果也是隨機的。為了確保公平性，需要使用一個與訓練數據不同的數據集對模型進行驗證，從而可以得到模型的泛化誤差（即模型對新數據的泛化能力如何）。

在離線階段，我們只有一套歷史數據集合。那麼如何去獲得另一個獨立的數據集呢？因此就需要一種機制去產生另一套數據集。我們可以保留一部分數據來作為驗證集，或者使用重採樣技術，如交叉驗證和自助法。

保留部分數據做驗證
保留部分數據做驗證相對簡單。假定所有數據樣本都是互相獨立和均勻分佈的，我們只要簡單地隨機抽取一小部分數據做為驗證數據即可。用其餘大部分數據來訓練模型，再用這個保留的小數據集來評估驗證指標。

從計算角度來看，保留部分數據做驗證編程實現起來簡單，運行速度也快。它的缺點是缺乏統計特性。驗證的結果是基於一個小的驗證集，所以驗證模型的泛化能力的可靠性較低。同時對於單個驗證集，就沒法計算出方差信息和置信區間。

如果已有數據集大到可以保留足夠多的數據來確保可靠性的時候，就使用保留部分數據做驗證的方法。

交叉驗證
交叉驗證是另外一種驗證技術。它並不是唯一的驗證技術，也不是超參數調優。所以小心別把這三個概念（模型驗證、交叉驗證和超參數調優）弄混淆了。交叉驗證其實是產生訓練數據集和驗證數據集的方法。產生的數據可以為超參數調優所使用。同樣，保留部分數據做驗證和其他的驗證技術也可以產生數據為超參數調優所用，同時計算角度來說更加便宜。

交叉驗證方法有很多的變形。最常見的是k折交叉驗證。它的過程是，先將數據集劃分成k個數據集（如圖3-2所示）。對於每一種超參數，依次使用其中的k-1個數據集來訓練數據，並用保留的驗證集來驗證模型。模型的總體表現取所有k次驗證的平均值。對於所有的超參數，重複這一過程。然後選者均值表現最好的那個超參數集來配置模型。

另外一種交叉驗證的變形是留一個樣本交叉驗證（leave-one-out cross validation）。本質上這和k折交叉驗證是一樣的，即k就是數據集裡的樣本總數。

當數據集太小，以至於不能保留足夠的數據做驗證時，交叉驗證就很有用了。

自助法(Bootstrap)和Jackknife方法
自助法是一種重採樣技術，它通過對原有數據集進行重新採樣來獲得多個“新的”數據集。每個這樣的新集可以用來估計參數。因為有多個數

據集，所以就可以得到多個估計，由此就可以得到估計的方差和置信區間。

自助法和交叉驗證緊密相關。它的靈感是來自於另外一種重採樣技術—Jackknife。Jackknife本質上和留一個樣本交叉驗證一樣，即他們把數據分成k個數據集的動作是一個無放回重採樣的過程。一旦某個數據樣本被放到某個數據集，它就不能再被其他數據集所選擇。

與之相反，自助法是有放回的重採樣。給定數據集包含N個樣本點，自助法隨機地選取一個樣本放入新的集合（bootstrapped dataset），然後把樣本在放回去，再重複同樣的採樣過程。

為什麼要把樣本放回去？每一個樣本都可以用一個真實的分佈進行描述，但是這個真實的分佈我們並不知道。我們只有一個數據集去代表該分佈，即經驗分佈。自助法假設新的樣本都是從該經驗分佈中得到的，即新的數據集應該服從這個經驗分佈。如果每次採樣後不進行放回，那麼這個經驗分佈會一直改變。因此需要樣本放回去以保證經驗分佈不變。

很明顯，用自助法產生的新數據集中，可能存在重複的數據點，並且可能會重複多次（如圖3-2所示）。如果對包含N個樣本的數據集隨機重採樣次，新產生的數據集裡，唯一的樣本點的比例是1-1/e≈63.2%。換一種說法就是，大約有2/3的樣本會在新的數據集裡，同時還有一些重複的樣本。

使用自助法數據集來做驗證的一種方法是使用其中的唯一的樣本數據集來訓練模型，用其餘的樣本來驗證模型。這樣效果和交叉驗證的效果很類似。

注意：模型驗證和測試的區別
到目前為止，我一直小心地不去使用“測試”這個詞。這是因為模型驗證和模型測試是兩個不同的步驟。讓我花點時間解釋一下這裡的微妙區別。

原型產生階段主要解決的是模型選擇。這就要求對一個或多個備選模型用驗證數據進行性能評估。當我們找到了一個滿意的模型類型和超參數組合，原型產生階段的最後一步是用整個已有的數據集(包括前面對模

型進行驗證的驗證集)，按照滿意的模型類型和最優的超參數組合，重新訓練一個模型。這個最終的模型將會被部署到生產系統上去。

測試則是發生在原型產生階段之後，或者是在生產系統上在行測試，或者是在檢測分佈漂移的離線環境裡測試。

永遠不要混淆了訓練數據和評估數據。訓練、驗證和測試應該使用不同的數據集。如果驗證或測試數據與訓練數據有重疊，就會導致模型的泛化能力變差，會讓你追悔莫及。

在不久之前的Image Net競賽中曾傳出了欺詐醜聞。一個參賽隊伍通過大量的向測試過程發送模型來獲得提升結果。本質上說，他們是在用不斷地調優超參數來擬合測試數據。擬合特定的測試數據而獲得的模型也許能幫你贏得一次競賽，卻無法產生真正的好的機器學習的模型或者帶來科技進步。

總結
回顧總結一下離線評估和模型驗證的重點：

模型產生階段裡，我們需要選擇模型。這既包括超參數調優也包括訓練模型。每個新的模型都必須通過它在獨立的數據集上的表現來評估，這叫做模型驗證。
交叉驗證不同於超參數調優。交叉驗證是一種生成訓練數據集與驗證數據集的機制。而超參數調優則是選擇適合一個模型的最好的超參數的機制。它可以使用交叉驗證來評估模型。
保留部分數據做驗證是交叉驗證的一個備選項。它使用簡單，計算量也小。因此我建議只要數據足夠，就是用保留部分數據做驗證。
交叉驗證對小數據集特別有用。
自助法是一種重採樣技術。它和k折交叉驗證的重採樣技術很類似。兩種方法都不僅可以評估模型的質量，還能夠給出評估的方差和置信區間。
超參數調優
在機器學習領域，超參數調優是機器學習的“元”（meta）任務。這是我很喜歡的一個題目，因為超參數調優顯得像是黑魔法而無法看透。本章將會詳細的介紹超參數調優的內容：為什麼超參數調優很難，以及有什麼樣的自動化的調優方法可以使用。

模型的參數與超參數的對比
首先讓我們來定義什麼是超參數，以及它與模型正常的參數有什麼不同。

機器學習的模型本質上是一個數學公式。它代表了數據的不同方面的聯繫。例如：在線性迴歸模型中，使用一條線表示特徵與目標之間的關係，數學公式為：

wTx = y

其中x是代表不同特徵的向量。y是一個數值型變量，代表了目標值

（即那些我們希望能預測的數量）。

這個模型假設特徵與目標之間是線性關聯的。w表示每個特徵的權重向量，決定著這條線的斜率。它就是通常所說的模型的參數，是需要在訓練階段從數據中學習的。“訓練模型”其實就是使用一種優化的過程來找到擬合數據的最優的模型參數。

另外的一套參數則是模型超參數，有時也叫做“微差別參數”。他們的值不是在模型訓練階段獲得的。普通的線性迴歸是沒有超參數的，但是有些線性迴歸的變形是有的。比如嶺迴歸（Ridge regression）和LASSO迴歸都會在線性模型上增加一個正則項，而這些正則項的權重就是“正則參數”。決策樹模型也有超參數，如樹的深度、葉子節點數等。支持向量（SVM）要有一個對應於分類錯誤的懲罰因子，而使用核函數的SVM需要為核函數設置超參數，比如RBF徑向基函數的寬度等。

超參數有什麼作用？
如正則化因子是來控制模型的能力，模型擬合數據的自由度（degrees of freedom）決定了模型的靈活度。合理的控制模型的能力能夠有效地防止過擬合。過擬合一般會發生在當模型太過靈活以及訓練模型的過程過於去匹配訓練數據。過擬合會導致模型對新測試數據的預測精度低。因此合理的設置模型的超參數則非常重要。

另一種類型的超參數來自於模型訓練的過程本身。模型訓練是一個使損失函數（訓練階段的評估指標）最小化的過程，有很多的優化方法可以使用。這些優化方法本身又有參數需要設置。比如隨機梯度降低（SGD，stochastic gradient descent）方法裡面需要設定一個學習速率參數。另外，有些優化方法需要一個收斂的閾值。比如隨機森林（Random Forests）和自助提升決策樹（Boosted decision trees）需要設置樹的個數的參數（儘管這個可以歸為正規化超參數）等。這些超參數需要被合理地設置以找到一個好的模型。

超參數調優的算法
概念上講，與模型訓練一樣，超參數調優也是一個優化的任務。但是這兩個任務的過程差別很大。模型訓練時，備選的模型參數的好壞是可以用數學公式來表示的（一般叫損失函數）。但是調優超參數時，備選的超參數的好壞很難用一個數學公式來衡量，因為它們依賴於模型訓練這個黑盒子的產出來判斷。

這就是為什麼超參數調優較為困難。直到幾年之前，可用的調優方法還僅限於格搜索和隨機搜索。在近幾年中，自動調優的方法得到了廣泛的關注，研究人員對這個問題進行了深入的探索，發表論文並提供了相關的工具。

格搜索
顧名思義，格搜索就是把超參數的可能取值劃分成一個一個的格子區

間，然後按順序去用每個網格內的值來進行調優，並找到最好的值。例如，假定決策樹的葉子數目是一個超參數，則可以把數目劃分成10、

20、30到100的格子。對於正規化因子，常用的格子區間是指數區間，比如1e-5,1e-4,1e-3直到1。有時還需要去估計超參數的可能最大和最小值來確定格子的大小。因此有些時候，需要人工指定一個小區間（去劃分格子），然後檢查優化的方向是哪一端，再向那一端來擴大區間範圍。這種方法叫人工格搜索。

格搜索的方法很簡單，而且容易被並行化。從計算時間上來看，它是最昂貴的方法。但是如果能很好的並行化，整體的運行時間會很短。

隨機搜索
我喜歡那種絲最終逆襲的電影，更喜歡用簡單的方法能取得意外效果的機器學習論文。那麼伯格斯塔（Bergstra）和本吉奧（Bengio）的論文《Random Search for Hyper Parameter Optimization》就是這樣的一篇。隨機搜索是格搜索方法的一個變形。相比於遍歷整個格空間的所有選擇，隨機搜索只對隨機抽取的那些格進行評估。這使得隨機搜索比格搜索的代價要低很多。因為隨機搜索有可能會不去檢查最優的超參數組合那個格子，這樣就會找不到最優，所以很長時間內隨機搜索都不受重視。但是這篇論文證明，在絕大多數情況下，隨機搜索的表現和格搜索差不多。只要隨機採樣60個超參數格，就能夠取得足夠好的超參數組合。這背後其實是有一個簡單的概率解釋的。對任何有限的樣本空間，隨機採樣60次中有至少一次能採樣到前5%的最優格的最大可能概率是95%。這看起來可能很繞，不過很容易解釋。對於前5%的最優格，我們做隨機採樣，然後觀察採樣點是否是來自於這5%內。每次採樣都有5%的可能性會落在裡面。如果我們獨立採樣n次。那麼這n 次都沒有落到最大5%中的概率是(1-0.05)n。所以至少有一次能夠進入這5%的區間的概率就是1減去這個值。假定我們希望有至少95%的成功概率，那麼找到最少採樣次數的值就只需要求解下面的不等式中的n即可。

1-(1-0.05)n>0.95

求解可得n>=60。哈哈！

這個故事的寓意是，如果至少有5%的格點可以取得近似於最優解的超

參數組合，那麼隨機搜索60次就能夠有很高的概率採樣到這5%。這裡的如果這個句話是很重要的。它需要或者格空間裡近似於最優的那個區域夠大，抑或格空間裡有一個高密度的近似於最優的區域。前者比較常見，因為好的機器學習模型不應該對於超參數過於敏感，換句話說就是它的近似於最優的區域應該夠大。

由於其極度的簡單和意外的有效，隨機搜索是我最喜歡的超參數調優的方法。和格搜索一樣，並行化隨機搜索是很簡單的。但它需要的運行次數更少，而且絕大多數時候表現都不錯。

智能超參數調優
更智能的調優方法是有的。不像這些比較“傻”的格搜索和隨機搜索，智能超參數調優不容易並行化。它並不是去先產生所有可能的備選超參數組合，再挨個（並行地）進行評估。相反的，智能調優技術先挑選一小部分候選組合，評估他們，然後決定下一個要評估的候選組合。這就是一個序列化的處理過程，所以很少能並行化。智能化的目標是儘可能的少做評估，從而能從總體上節省調優的計算時間。鑑於此，如果你關注的是總體調優的時間，並且能夠負擔起並行化的開銷，我建議你還是採用隨機搜索的方法。

需要買家注意的是，智能化調優算法需要較多的計算時間來判斷下一次採樣的目標，有些算法會需要非常的多時間。因此這個方法對於那些內部的模型訓練過程需要很長時間（相比於超參數調優而言）的建模才有意義。同時智能調優也會有自己的參數需要設置（超—超參數？）。有時，只有恰當地設置這些超—超參數才能保證智能調優的速度比隨機搜索要快。

前面說過，超參數調優之所以很難是因為沒法用一個數學公式來定義出需要優化的函數（這個需要優化的函數的技術詞彙是“響應曲面”），從而無法獲得其導數。相應的，目前可用的許多優化函數的工具，例如牛頓優化法、隨機梯度降低法，都沒有辦法使用。

這裡我重點介紹近年來出現的三種智能調優方法：無導數優化(derivative-free optimization)，貝葉斯優化( Bayesian optimization)和隨機森林調優(random forest smart tuning)。

嵌套交叉校驗
在結束本章之前，讓我們從一個更高的層級來聊聊嵌套交叉驗證，或是嵌套超參數調優（我暫且稱之為元-元-訓練任務）。

模型選擇和超參數調優之間有一些細微的差別。模型選擇不僅包括為某個特定的模型族（例如，決策樹的高度）調優參數，還包括選擇不同的模型族（例如，我是應該使用決策樹還是線性支持向量機？）。某些先進的超參數調優方法宣稱可以適用於不同的模型族。但大部分情況下，都不建議這麼做。對應於不同的模型族的超參數相互之間的重疊部分很少，所以最好不要交叉混用。

在不同的模型族中做選擇，這又給我們的原型產生的蛋糕加上了一層。還記得之前強調的不要混用訓練數據集和評估數據集。這意味著現在我們必須單獨再為超參數調優器準備驗證數據（或者是做交叉驗證）。

一. 模型評估結論
系統會根據模型的AUC值得出以下結論：

AUC值為[0, 0.5)：模型基本不可用，預測的準確度比隨機拋硬幣的結果還差，還不如拿個硬幣來做預測，不建議使用這個模型。
AUC值為[0.5, 0.6)：模型預測的準確度很低，只比隨機拋硬幣的結果好一點，建議不要使用這個模型。導致這種結果，可能是樣本數據不夠有代表性，預處理中漏過了某些髒數據，特徵之間存在很強的相關性，或算法參數不在合理的範圍內。
AUC值為[0.6, 0.7)：模型預測的準確度還行，不太建議在業務中使用，可能是樣本數據不夠有代表性，預處理中漏過了某些髒數據，特徵之間存在很強的相關性，或算法參數不在合理的範圍內。
AUC值為[0.7, 0.8)：模型預測的準確度還不錯，但有改進空間，建議您回顧數據預處理、特徵工程、算法參數的配置，調整參數，重新訓練，可能有驚喜。
AUC值為[0.8, 0.9)：模型預測的準確度很好，基本能滿足業務場景的需求，建議您使用這個模型。
AUC值為[0.9, 1]：模型預測的準確度非常高，很好的詮釋了數據中的規律，推薦在您的業務中使用這個模型。

二. ROC曲線和AUC值
1.AUC值

Area Under Curve，指ROC曲線下與座標軸圍成的面積，是分類算法預測為正的概率大於預測為負的概率的概率值，AUC值一定是[0,1]，數值越接近1說明模型的效果越好。

2.ROC曲線

模型對測試集中數據的特徵進行預測會得到一組(TPR，FPR)，然後由點(TPR，FPR)組成的曲線就是ROC曲線。具體如下，
預測值為正例，記為P（Positive）
預測值為反例，記為N（Negative）
預測值與真實值相同，記為T（True）
預測值與真實值相反，記為F（False）
TP：預測類別是P，真實類別也是P
FP：預測類別是P，真實類別是N
TN：預測類別是N，真實類別也是N
FN：預測類別是N，真實類別是P
TPR(True Positive Rate)：3，真實的正例中被預測正確的比例
FPR(False Positive Rate)：4，真實的反例中被預測正確的比例

三. 混淆矩陣
混淆矩陣也稱誤差矩陣，是表示精度評價的一種標準格式，用n行n列的矩陣形式來表示。混淆矩陣的每一列代表了預測類別，每一列的總數表示預測為該類別的數據的數目；每一行代表了數據的真實歸屬類別，每一行的數據總數表示該類別的數據實例的數目。每一列中的數值表示真實數據被預測為該類的數目：如下圖，
第一行第一列中的19723表示有19723個實際被點擊的case同時被模型也預測為被點擊；
第一行第二列的14706表示有14706個實際被點擊的case但是被模型錯誤預測為未點擊；
第二行第一列中的7978表示有7978個實際未點擊的case但是被模型錯誤預測為被點擊；
第二行第二列中的44393表示有44393個實際未點擊的case同時被模型也預測為未點擊。
四. 特徵權重
特徵權重用來衡量特徵的重要性，是根據模型評估出的結果，權重值越高，代表該特徵越重要，該功能亦可幫助算法工程師判斷某個新增特徵是否有效。

Leave a Reply Cancel reply