關燈 巨大 直達底部
親,雙擊螢幕即可自動滾動
第301章 密碼

基於聚類的離散化假設我們有一個包含1000個房屋的價格資料的資料集,我們想將價格分成5個簇,以下是離散化方法:首先,隨機分配5箇中心點。根據每個房屋的價格和這5箇中心點的距離,將每個房屋分入距離最近的中心點對應的簇中。重新計算每個簇的中心點,以中心點的座標作為新的中心點。重複步驟2和步驟3,直到中心點的移動小於某個閾值或達到最大迭代次數。最終得到的5個簇即為我們需要的離散化結果。自適應離散化假設我們有一個包含個商品銷售量資料的資料集,我們想將銷售量離散化成n個區間,以下是離散化方法:先將所有商品銷售量根據大小排序。初始時,將資料集分成n個區間,每個區間保持相等的資料數量。計算每個區間的範圍(最小值和最大值),並計算相鄰區間的範圍的中點,這些中點作為新的分割點。根據新的分割點重新劃分割槽間,如果新的區間與原來的區間相同,則演算法停止。否則,重複步驟3和步驟4。最終得到的n個區間即為我們需要的離散化結果。卷積核輸出形狀卷積神經網路中的卷積層的輸出維度計算,可以透過以下公式得出:輸出的高度 = (輸入的高度 - 卷積核的高度 + 2 * padding) \/ 步長 + 1輸出的寬度 = (輸入的寬度 - 卷積核的寬度 + 2 * padding) \/ 步長 + 1輸出的深度 = 卷積核的數量這裡,padding是指在輸入資料周圍填充的0的行數或列數(在計算輸出大小時有助於保持空間尺寸不變),步長是指卷積核移動的步數。輸出的深度直接取決於我們使用的卷積核的數量。輸入資料大小為32 x 32大小單通道圖片,在c1卷積層使用6個大小為5 x 5的卷識核進行卷積,padding = 0,步長為1透過6個大小為5 x 5的卷識核之後的輸出是多大尺寸的,怎麼用公式計算給定:輸入的高度 h = 32;輸入的寬度 w = 32;卷積核的高度 Kh = 5;卷積核的寬度 Kw = 5;卷積核的數量 K = 6;步長 S = 1;padding p = 0根據上述公式,我們可以計算出卷積後的輸出尺寸:輸出的高度 = (h - Kh + 2p) \/ S + 1 = (32 - 5 + 2*0) \/ 1 + 1 = 28輸出的寬度 = (w - Kw + 2p) \/ S + 1 = (32 - 5 + 2*0) \/ 1 + 1 = 28輸出的深度 = K = 6所以,透過6個大小為5x5的卷積核後的輸出尺寸為 28x28x6。

留出法(holdout method):基本思想:將原始資料集劃分為訓練集和測試集兩部分,其中訓練集用於模型訓練,而測試集則用於評估模型的效能。實施步驟:根據比例或固定的樣本數量,隨機選擇一部分資料作為訓練集,剩餘部分用作測試集。優點:簡單快速;適用於大規模資料集。缺點:可能由於訓練集和測試集的不同導致結果的方差較高;對於小樣本資料集,留出的測試集可能不夠代表性。2交叉驗證法(cross-Validation):基本思想:將原始資料集劃分為K個大小相等的子集(折),其中K-1個子集用於訓練模型,剩下的1個子集用於測試模型,這個過程輪流進行K次,最後將K次實驗的結果綜合得到最終的評估結果。實施步驟:將資料集隨機劃分為K個子集,依次選擇每個子集作為驗證集,其餘子集作為訓練集,訓練模型並評估效能。重複這個過程K次,取K次實驗的平均值作為模型的效能指標。優點:更充分利用了資料;可以減小因樣本劃分不同而引起的方差。缺點:增加了計算開銷;在某些情況下,對於特定劃分方式可能導致估計偏差。3自助取樣法(bootstrapping):基本思想:使用自助法從原始資料集中有放回地進行有偏複製取樣,得到一個與原始資料集大小相等的取樣集,再利用取樣集進行模型訓練和測試。實施步驟:從原始資料集中有放回地抽取樣本,形成一個新的取樣集,然後使用取樣集進行模型訓練和測試。優點:適用於小樣本資料集,可以提供更多資訊;避免了留出法和交叉驗證法中由於劃分過程引入的變化。缺點:取樣集中約有36.8%的樣本未被採到,這些未被採到樣本也會對模型效能的評估產生影響;引入了自助抽樣的隨機性。拓展:選擇何種資料集劃分方法應根據以下因素進行綜合考慮:1資料集大小:當資料集較大時,留出法能夠提供足夠的訓練樣本和測試樣本,而且計算開銷相對較小。當資料集較小時,交叉驗證