關燈 巨大 直達底部
親,雙擊螢幕即可自動滾動
第276章 睡了睡了

資料預處理

unstructured 庫是一個強大的工具,專為處理非結構化資料設計,具體流程如圖 37 所示,

小主,這個章節後面還有哦,,後面更精彩!

如從文字文件、pdf 檔案或網頁中提取資料。它支援多種資料提取方法,包括正規表示式匹配、自

然語言處理(nlp)技術等。

資料預處理步驟如下:

步驟一:資料清洗

去除雜質:從文字中去除無關的字元,如特殊符號、空白行等。

格式統一:將所有文字統一為相同的編碼格式,通常為 utf-8,以避免編碼錯誤。

語言標準化:統一不同術語的使用,例如將所有"photovoltaic"統一替換為"pv",確保術語的

一致性。

步驟二:資訊提取

關鍵資訊標識:標識文獻中的關鍵資訊,如研究方法、主要結論、實驗條件等。

資料分類:根據資訊型別將資料分類,如作者、出版年份、研究結果等。

步驟三:結構化轉換

結構化處理:將資訊精細化拆解與清洗,將各種元素進行轉換,形成結構化資料形式,拆分成

標題與內容。

分割部分關鍵程式碼:

對於其中的每個元素,如果是 positeelent 型別,就提取其中的文字並將其新增到

text_list 中;如果是 table 型別,就將表格的文字表示(可能是 htl 格式)新增到

text_list 中。

將圖 38 的提取的資料進行拆分,新增到 text_list 中,輸出結果如圖 311 所示。

非結構化文字資料通常非常稀疏,即包含大量的詞彙但每個文件只使用其中的一小部分。而結

構化資料則可以透過合併相似資訊來降低資料的稀疏性,這有助於生成更加緊湊和有效的嵌入向

量。

結構化資料可以實現更高效的特徵提取。結構化資料通常已經按照特定的模式或結構進行了組

織,這使得我們可以更加高效地從中提取有用的特徵(如標題、作者、摘要、關鍵詞等)。這些特

徵可以作為後續 ebeddg 的輸入,幫助生成具有更強區分性和泛化能力的嵌入向量。結構化資料

中的元素(如主題、類別、屬性等)通常具有明確的含義,這些含義可以在 ebeddg 過程中被保

留下來。因此,基於結構化資料的嵌入向量往往具有更強的解釋性,有助於我們更好地理解模型的

預測結果和內部機制。

:()離語