關燈 巨大 直達底部
親,雙擊螢幕即可自動滾動
第300章 丸辣

文字挖掘與分析名詞解釋10道題,英文縮寫,例如rnn,lda,lp,fnn模型和演算法的理解(word2vec等模型原理),損失函式,語言模型的概念,程式碼類:根據公式/輸出寫原始碼交叉熵損失設定引數解決資料不平衡1自然語言處理自然語言處理研究實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理技 術發展經歷了基於規則的方法、基於統計學習的方法和基於深度學習的方法三個階段。自然語言處理 由淺入深的四個層面分別是形式、語義、推理和語用,當前正處於由語義向推理的發展階段。2文字分類文字分類是機器對文字按照一定的分類體系自動標註類別的過程, 也是自然語言處理最早的應用領域之一。你能想到哪些自動文字分類 應用? 垃圾郵件分類,新聞型別分類,情感分析情感分析也可以認為是文字分類的一個子型別。情感分析往往應 用於電商的使用者評價分析,微博等自媒體的使用者留言傾向分析,或者 公共事件的輿情分析。3資訊抽取資訊抽取是採用機器學習演算法從非結構化文字中自動抽取出使用者感興趣的內容,並進 行 結構化處理。例如命名實體識別、實體關係抽取、事件抽取、因果關係抽取文字生成包括自動文章撰寫、自動摘要生成等內容4資訊檢索資訊檢索指資訊按一定的方式組織起來,並根據使用者的需要找出有關的資訊的過程和技術。搜 索引擎是當前主流的資訊檢索方式,從最初的關鍵詞匹配演算法到如今的語義檢索技術, 使用者已經能夠隨心所欲的檢索自 己所需的資訊。

中心度:在圖論和網路分析中,中心度用來衡量節點在圖中的重要 性,中心度並不是節點本身帶有的屬性,而是一種結構屬性, 是在圖或網路結構下節點才具有的屬性。中心度可用來解決不同領域的問題: 例如在社交網路中尋找影響力最大的使用者,在網際網路或城市網路中尋找 關鍵的基礎設施,以及在疾病網路中發現超級傳播者度中心度:指節點與其他節點相連邊的數量,即透過節點的鄰居 數目(區域性資訊)來計算節點度重要程度。 基本思想:節點與網路中其他節點的互動都是透過其鄰居節點來 進行的,因此節點的鄰居越多,意味著該節點能夠 向外傳遞的資訊越多,從網路外部接受資訊也越容易。 有向網路中,又可以定義出度中心度、入度中心度。

社群發現是根據網路中的邊的連線模式,把網路頂點劃分為群組。將網路頂點劃分為群組後最常見的屬性是,同一群組內部的頂點之間緊密連 接,而不同群組之間只有少數邊連線。社團發現的目的是就要找到網路內部不同群組之間的自然分割線。簡而言之,它是一個把網路自然劃分為頂點群組的問題,從而使得群組內有 許多邊,而群組之間幾乎沒有邊。然而,“許多”和“幾乎沒有”到底是多少, 這個問題值得商榷,為此提出了多種不同的定義,從而產生了不同的社團發 現演算法8基於層次聚類的演算法。

第一階段:稱為odurity optiization,主要是將每個節點劃 分到與其鄰接的節點所在的社群中,以使得模組度的 值不斷變大; 第二階段:稱為unity aggregation,主要是將第一步劃分 出來的社群聚合成為一個點,即根據上一步生成的社 區結構重新構造網路。重複以上的過程,直到網路中 的結構不再改變為止。步驟:1初始化,將每個點劃分在不同的社群中; 2對每個節點,將每個點嘗試劃分到與其鄰接的點所在的社群中,計算此時 的模組度,判斷劃分前後的模組度的差值Δq是否為正數,若為正數, 則接受本次的劃分,若不為正數,則放棄本次的劃分; 3重複以上的過程,直到不能再增大模組度為止; 4構造新圖,新圖中的每個點代表的是步驟3中劃出來的每個社群,繼續執 行步驟2和步驟3,直到社群的結構不再改變為止。 !在2中計算節點的順序對模組度的計算是沒有影響的,而是對計算時間有影響。

資料缺失的原因資料採集過程可能會造成資料缺失;資料透過網路等渠道進行傳輸時也可能出現資料丟失或出錯,從而造成 資料缺失;在資料整合過程中也可能引入缺失值刪除法刪除法透過刪除包含缺失值的資料,來得到一個完整的資料子集 資料的 刪除既可以從樣本的角度進行,也可以從特徵的角度進行。 刪除特徵:當某個特徵缺失值較多,且該特徵對資料分析的目標影響 不大時, 可以將該特徵刪除 刪除樣本:刪除存在資料缺失的樣本。 該方法適合某些樣本有多個特徵存在缺失值,且存在缺失值的樣本佔 整個資料集樣