大數據

機器學習:有監督和無監督之間有什麼區別

--------點擊屏幕右側或者屏幕底部“+訂閱”,關注我,隨時分享機器智能最新行業動態及技術乾貨----------

image.png

機器學習是人工智能的一個子集,它通過示例和經驗教會計算機執行任務,是研究和開發的熱門領域。我們每天使用的許多應用程序都使用機器學習算法,包括 AI 助手,Web 搜索和機器翻譯。

您的社交媒體新聞提要由機器學習算法提供支持。您、看到的推薦視頻是機器學習模型的結果。Spotify 的“發現週刊”利用機器學習算法的強大功能來創建符合您喜好的歌曲列表。

但是機器學習有許多不同的風格。在這篇文章中,我們將探討有監督和無監督學習,這是機器學習算法的兩個主要類別。每個子集由許多適合各種任務的不同算法組成。

關於機器學習的快速筆記

在深入研究有監督和無監督學習之前,我們先來了解一下什麼是機器學習。當今的 AI 系統以最簡單的形式將輸入轉換為輸出。例如,圖像分類器將圖像或視頻幀作為輸入,並輸出圖像中包含的對象的種類。欺詐檢測算法將支付數據作為輸入,並輸出交易欺詐的可能性。下棋的 AI 將棋盤的當前狀態作為輸入並輸出下一個動作。

開發智能系統的經典方法稱為符號人工智能,要求程序員明確指定將輸入映射到輸出的規則。儘管符號 AI 有很多好處,但在輸入可以以多種形式出現的領域中使用有限,例如計算機視覺,語音識別和自然語言處理。

相反,機器學習使用不同的方法來發展行為。在創建 ML 系統時,開發人員會創建一個通用結構,並在許多示例中進行培訓。這些示例可以是帶有相應圖像的圖片,國際象棋遊戲數據,客戶購買的物品,用戶聽過的歌曲或與 AI 模型要解決的問題有關的任何其他數據。在分析了訓練數據之後,機器學習算法對其內部參數進行了調整,以能夠處理新的輸入數據。

監督學習

Logistic 迴歸是一種有監督的機器學習算法,可以將輸入分類為不同的類。

如果您關注人工智能新聞,您可能已經聽說過 AI 算法需要很多人工標記的示例。這些故事指的是監督學習,這是機器學習算法中比較流行的類別。監督式機器學習適用於您知道輸入數據結果的情況。假設您要創建一個圖像分類機器學習算法,該算法可以檢測貓,狗和馬的圖像。

要訓練 AI 模型,您必須收集貓,狗和馬照片的大型數據集。但是在將它們輸入機器學習算法之前,您必須使用它們各自類的名稱對其進行註釋。批註可能包括使用文件命名約定將每個類的圖像放在單獨的文件夾中,或將元數據附加到圖像文件中。這是費力的手動任務,在提到 AI 工廠的故事中經常提到。

標記數據後,機器學習算法(例如卷積神經網絡或支持向量機)將處理這些示例並開發可將每個圖像映射到其正確類別的數學模型。如果對 AI 模型進行足夠的帶標籤的示例訓練,它將能夠準確地檢測出包含貓,狗,馬的新圖像類別。

監督機器學習解決了兩種類型的問題:分類和迴歸。上面說明的示例是一個分類問題,其中機器學習模型必須將輸入放入特定的存儲桶或類別中。分類問題的另一個示例是語音識別。

迴歸機器學習模型不限於特定類別。它們可以具有連續的無限值,例如客戶將為產品支付多少費用或明天下雨的可能性。

一些常見的監督學習算法包括:

  • 線性和邏輯迴歸
  • 樸素貝葉斯
  • 支持向量機
  • 決策樹和隨機森林
  • 人工神經網絡
  • 無監督學習

1.png

無監督機器學習算法可以基於共享特徵將數據劃分為集群

假設您是一個電子商務零售企業所有者,他擁有成千上萬的客戶銷售記錄。您想找出哪些客戶有共同的購買習慣,以便您可以使用該信息向他們提出相關建議並改善您的追加銷售政策。問題是您沒有預定義的類別將客戶劃分為多個類別。因此,您不能訓練監督式機器學習模型來對客戶進行分類。

這是一個聚類問題,主要用於無監督機器學習。與監督學習不同,無監督機器學習不需要標記數據。它仔細研究了訓練示例,並根據它們的共同特徵將它們分為幾類。訓練有素的無監督機器學習算法會將您的客戶劃分為相關的集群。這將幫助您根據客戶與集群中其他人的共同偏好來預測客戶將購買的產品。

K-means 是眾所周知的無監督聚類機器學習算法。使用k均值的挑戰之一是知道將數據劃分為多少個群集。太少的包會打包不太相似的數據,而太多的簇只會使您的模型複雜且不準確。除了聚類之外,無監督學習還可以執行降維。當數據集具有太多特徵時,可以使用降維。假設您有一個有關客戶的信息表,該表有 100 列。擁有有關您的客戶的大量數據可能聽起來很有趣。但實際上並非如此。

隨著數據中功能數量的增加,您還將需要更大的樣本集來訓練準確的機器學習模型。您可能沒有足夠的樣本來訓練 100 列模型。太多的功能也增加了過度擬合的機會,這實際上意味著您的AI模型在訓練數據上表現良好,而在其他數據上表現不佳。

無監督的機器學習算法可以分析數據並找到不相關的特徵,可以將其刪除以簡化模型而不會失去寶貴的見解。例如,對於我們的客戶表,通過降維算法運行它之後,我們可能會發現與客戶的年齡和家庭住址相關的功能幾乎沒有關聯,因此可以將其刪除。

主成分分析(PCA)是一種流行的降維機器學習算法。一些安全分析師還使用無監督的機器學習進行異常檢測,以識別組織網絡中的惡意活動。

無監督學習的好處之一是,它不需要監督學習必須經歷的費力的數據標記過程。但是,要權衡的是,評估其性能的有效性也非常困難。相反,通過將監督學習算法的輸出與測試數據的實際標籤進行比較,可以很容易地衡量監督學習算法的準確性。

image.png

原文鏈接:https://ai.51cto.com/art/202006/617921.htm
文章轉自51cto,本文一切觀點和《機器智能技術》圈子無關

Leave a Reply

Your email address will not be published. Required fields are marked *