第300章丸辣-離語(semaphore)-SODU小說

關燈小中大巨大直達底部

親,雙擊螢幕即可自動滾動

第300章丸辣

本數量的比例不高的情形缺點：它以減少資料來換取資訊的完整，丟失了大量隱藏在這些被刪除資料中的資訊；在一些實際場景下資料的採整合本高且缺失值無法避免，刪除法可能會造成大量的資源浪費均值填補計算該特徵中非缺失值的平均值（數值型特徵）或眾數（非數值型特徵），然後使用平均值或眾數來代替缺失值缺點一：均值填補法會使得資料過分集中在平均值或眾數上，導致特徵的方差被低估缺點二：由於完全忽略特徵之間的相關性，均值填補法會大大弱化特徵之間的相關性隨機填補隨機填補是在均值填補的基礎上加上隨機項，透過增加缺失值的隨機性來改善缺失值分佈過於集中的缺陷。

，！

等距離散化（eal-width discretization）：將資料劃分為等寬間隔的區間，這種方法需要先確定區間的個數n，再根據最小值和最大值ax計算出每個區間的間隔長度（ax-）/n，相鄰兩個區間的寬度都是相同的。等頻率離散化（eal-freency discretization）：將資料劃分為相同的數量級別，每個區間包含的記錄數相等。這種方法首先將資料按照大小排序，然後將排序後的資料分成n等份，每份個數為資料總數/n，在每個區間的邊界處劃分資料。基於聚類的離散化：將資料分成若干個簇，簇內的資料相似度高，簇間資料相似度低。具體實現時可以使用聚類演算法如k-ans、dbscan等。自適應離散化：透過迭代的方式，不斷根據資料的特性調整區間的邊界，以達到最優的離散化效果。下面分別以等距離散化、等頻率離散化、基於聚類的離散化和自適應離散化為例子，分別列出具體的例題：等距離散化假設我們有一個包含1000個學生身高資料的資料集，我們想將身高離散化成10個等寬的區間，以下是離散化方法：計算身高的最小值和最大值，假設最小值為140，最大值為200。計算每個區間的寬度，假設共10個區間，每個區間的寬度為(200-140)/10 = 6。根據每個學生的身高，將其分入相應的區間。等頻率離散化假設我們有一個包含200家公司的財務資料的資料集，我們想將每個公司的營業收入離散化成5個等頻率的區間，以下是離散化方法：將所有公司的營業收入升序排序。計算每個區間的資料數量，在本例中，因為共有200個公司，所以每個區間包含40個公司。找到每個區間的邊界，比如第一個區間的最小值和第二個區間的最大值，這兩個值之間的所有公司的營業收入都屬於第一個區間。

：()離語

《點選報錯，無需註冊》