成績的影響程度。4、K-means演算法在給定資料集上執行第一次後的結果為,資料集分為三個簇: cluster1: (1, 3)、 (2,4);cluster2: (4, 0) 、(2, 0);cluster3 :(0, 3)、 (0, 5)。樣本(0, 3)和cluster2的質心之間的曼哈頓距離為:你的答案:5你的計算過程:cluster2的質心:(4+2)\/2=3;0樣本的座標是 (0, 3),cluster 2 的質心是 (3, 0)。將給定的點代入公式,我們有:d = |3 - 0| + |0 - 3|= |3| + |-3|= 3 + 3= 6。
。。
1bagging(包裝法):優勢:bagging透過隨機有放回地對訓練資料進行取樣,每個基分類器獨立訓練,然後透過投票或平均等方式進行整合,能夠有效降低過擬合風險,提高模型的泛化能力。它尤其適合在高方差的模型上使用,如決策樹等。侷限性:對於高偏差的模型來說,bagging可能無法顯著改善模型效能。此外,由於基分類器的獨立性,bagging不容易處理存在較強相關性的資料,比如時間序列資料。使用場景:bagging通常用於分類和迴歸問題,在資料集較大且噪聲相對較小的情況下表現良好。2boosting(提升法):優勢:boosting透過迭代地訓練一系列基分類器,並根據前一個分類器的效能對樣本權重進行調整,使得基分類器逐漸關注於難以分類的樣本。它能夠有效提高模型的精度和泛化能力,尤其適合解決高偏差的問題。侷限性:boosting對噪聲和異常值比較敏感,容易導致過擬合。此外,由於基分類器之間存在依賴關係,boosting的訓練過程相對較慢。使用場景:boosting通常用於分類問題,在需要處理高偏差或低準確度的場景下表現出色。3Stacking(堆疊法):優勢:Stacking透過在多個基分類器上構建一個元分類器來進行整合,可以充分利用各個基分類器的預測結果,進一步提升效能。透過允許使用更復雜的元分類器,Stacking具有更強大的表達能力。侷限性:Stacking的主要挑戰在於選擇合適的元特徵以及使用交叉驗證避免資料洩露。此外,Stacking通常需要更多的計算資源和時間來進行模型訓練和預測。使用場景:Stacking適用於各類機器學習問題,並且在資料集相對較大、前期已經進行了一定特徵工程的情況下效果較好。