1、將特徵重要程度排序的過程與模型構建過程同時進行的特徵選擇方法稱作嵌入式特徵選擇方法(
√
)2、線性迴歸模型的目標函式為殘差平方和最大化(殘差平方和最小化
)3、特徵向量中心度度量節點在網路中的影響力。網路中每個節點被賦予一個影響力分數,一個節點與更多的高分節點相連,其分數也趨向於更高。(
√
)4、強化學習使用已標記的資料,根據延遲獎勵學習策略。(
未標記的資料,透過與環境的互動來收集資料進行學習
)5、過擬合是機器學習中一個重要概念,是指模型過於複雜,導致對測試資料預測很好,但對訓練資料預測很差。(
對訓練資料預測很好,對測試資料預測很差
)三、分析題(本題滿分30分,共含5道小題,每小題6分)1、現有樣本如下:0,2,3,4,5,6,7,8,9,10,41,42,43,44,45,46,47,48,49,50。使用等距離散化來處理該樣本,將樣本分為5個區間段。有幾個區間內樣本容量不為0?你的答案:2你的計算過程:首先,計算樣本的最小值和最大值:最小值:0最大值:50然後,確定分為5個區間時的間距:(最大值
-
最小值)
\/
區間數
=
(50
-
0)
\/
5
=
10接下來,以間距為10進行等距離散化:區間1:0-9
(共10個樣本)區間2:10-19
(無樣本)區間3:20-29
(無樣本)區間4:30-39
(無樣本)區間5:40-50
(共11個樣本)根據以上結果,有2個區間段(區間2和區間3)內的樣本容量不為0。請注意,這種等距離散化方式可能導致某些區間沒有樣本,而其他區間樣本較多。2、隨機森林採用的是什麼整合方法?(a.
ing,b.boos,c.stacking)。這種整合方法適用於什麼情況?你的選擇:ing你的解釋:ing(自舉匯聚法)適用於以下情況:訓練資料較少,需要儘可能充分利用現有的有限樣本。資料集存在較強的噪聲或離群點,需要透過多個模型的平均來減小噪聲影響。需要降低模型的方差,提高模型的穩定性和魯棒性。模型複雜度較高,容易過擬合,需要引入隨機性增加泛化能力。ing透過對原始訓練集進行有放回的抽樣,構建多個子模型。每個子模型相互獨立地訓練,並透過取平均值(迴歸問題)或投票(分類問題)的方式進行預測。隨機森林就是一種基於ing思想的整合學習演算法,它使用決策樹作為基分類器,並透過對特徵的隨機選擇進一步增加模型的多樣性。由於ing的平行結構,隨機森林可以有效處理大規模資料,具有較好的預測效能和計算效率。3、為了考察一種新的教學方法對學生英語成績的影響,某學校進行了調查,共得到400個樣本資料。資料表中grade為標籤,psi、gpa、tuc為特徵。grade為分類資料,取1表示學習成績提高,0表示學習成績沒有提高;