節點與網路中其他節點的互動都是透過其鄰居節點來 進行的,因此節點的鄰居越多,意味著該節點能夠 向外傳遞的資訊越多,從網路外部接受資訊也越容易。 有向網路中,又可以定義出度中心度、入度中心度。
社群發現是根據網路中的邊的連線模式,把網路頂點劃分為群組。將網路頂點劃分為群組後最常見的屬性是,同一群組內部的頂點之間緊密連 接,而不同群組之間只有少數邊連線。社團發現的目的是就要找到網路內部不同群組之間的自然分割線。簡而言之,它是一個把網路自然劃分為頂點群組的問題,從而使得群組內有 許多邊,而群組之間幾乎沒有邊。然而,“許多”和“幾乎沒有”到底是多少, 這個問題值得商榷,為此提出了多種不同的定義,從而產生了不同的社團發 現演算法8基於層次聚類的演算法。
第一階段:稱為modularity optimization,主要是將每個節點劃 分到與其鄰接的節點所在的社群中,以使得模組度的 值不斷變大; 第二階段:稱為munity Aggregation,主要是將第一步劃分 出來的社群聚合成為一個點,即根據上一步生成的社 區結構重新構造網路。重複以上的過程,直到網路中 的結構不再改變為止。步驟:1.初始化,將每個點劃分在不同的社群中; 2.對每個節點,將每個點嘗試劃分到與其鄰接的點所在的社群中,計算此時 的模組度,判斷劃分前後的模組度的差值Δq是否為正數,若為正數, 則接受本次的劃分,若不為正數,則放棄本次的劃分; 3.重複以上的過程,直到不能再增大模組度為止; 4.構造新圖,新圖中的每個點代表的是步驟3中劃出來的每個社群,繼續執 行步驟2和步驟3,直到社群的結構不再改變為止。 !在2中計算節點的順序對模組度的計算是沒有影響的,而是對計算時間有影響。
資料缺失的原因資料採集過程可能會造成資料缺失;資料透過網路等渠道進行傳輸時也可能出現資料丟失或出錯,從而造成 資料缺失;在資料整合過程中也可能引入缺失值刪除法刪除法透過刪除包含缺失值的資料,來得到一個完整的資料子集. 資料的 刪除既可以從樣本的角度進行,也可以從特徵的角度進行。 刪除特徵:當某個特徵缺失值較多,且該特徵對資料分析的目標影響 不大時, 可以將該特徵刪除 刪除樣本:刪除存在資料缺失的樣本。 該方法適合某些樣本有多個特徵存在缺失值,且存在缺失值的樣本佔 整個資料集樣本數量的比例不高的情形 缺點:它以減少資料來換取資訊的完整,丟失了大量隱藏在這些被刪除資料 中的資訊;在一些實際場景下資料的採整合本高且缺失值無法避免,刪除法可 能會造成大量的資源浪費均值填補計算該特徵中非缺失值的平均值(數值型特徵)或眾數(非數值型特 徵),然後使用平均值或眾數來代替缺失值缺點一:均值填補法會使得資料過分集中在平均值或眾數上,導致特徵 的方差被低估 缺點二:由於完全忽略特徵之間的相關性,均值填補法會大大弱化特徵 之間的相關性隨機填補隨機填補是在均值填補的基礎上加上隨機項,透過增加缺失值的隨機性 來改善缺失值分佈過於集中的缺陷。
等距離散化(Equal-width discretization):將資料劃分為等寬間隔的區間,這種方法需要先確定區間的個數n,再根據最小值min和最大值max計算出每個區間的間隔長度(max-min)\/n,相鄰兩個區間的寬度都是相同的。等頻率離散化(Equal-Frequency discretization):將資料劃分為相同的數量級別,每個區間包含的記錄數相等。這種方法首先將資料按照大小排序,然後將排序後的資料分成n等份,每份個數為資料總數\/n,在每個區間的邊界處劃分資料。基於聚類的離散化:將資料分成若干個簇,簇內的資料相似度高,簇間資料相似度低。具體實現時可以使用聚類演算法如k-means、dbScAN等。自適應離散化:透過迭代的方式,不斷根據資料的特性調整區間的邊界,以達到最優的離散化效果。下面分別以等距離散化、等頻率離散化、基於聚類的離散化和自適應離散化為例子,分別列出具體的例題:等距離散化假設我們有一個包含1000個學生身高資料的資料集,我們想將身高離散化成10個等寬的區間,以下是離散化方法:計算身高的最小值和最大值,假設最小值為140cm,最大值為200cm。計算每個區間的寬度,假設共10個區間,每個區間的寬度為(20