第276章睡了睡了-離語(semaphore)-SODU小說

關燈小中大巨大直達底部

親,雙擊螢幕即可自動滾動

第276章睡了睡了

資料預處理

unstructured 庫是一個強大的工具，專為處理非結構化資料設計，具體流程如圖 37 所示，

小主，這個章節後面還有哦，，後面更精彩！

如從文字文件、pdf 檔案或網頁中提取資料。它支援多種資料提取方法，包括正規表示式匹配、自

然語言處理（nlp）技術等。

資料預處理步驟如下：

步驟一：資料清洗

去除雜質：從文字中去除無關的字元，如特殊符號、空白行等。

格式統一：將所有文字統一為相同的編碼格式，通常為 utf-8，以避免編碼錯誤。

語言標準化：統一不同術語的使用，例如將所有"photovoltaic"統一替換為"pv"，確保術語的

一致性。

步驟二：資訊提取

關鍵資訊標識：標識文獻中的關鍵資訊，如研究方法、主要結論、實驗條件等。

資料分類：根據資訊型別將資料分類，如作者、出版年份、研究結果等。

步驟三：結構化轉換

結構化處理：將資訊精細化拆解與清洗，將各種元素進行轉換，形成結構化資料形式，拆分成

標題與內容。

分割部分關鍵程式碼：

對於其中的每個元素，如果是 positeelent 型別，就提取其中的文字並將其新增到

text_list 中；如果是 table 型別，就將表格的文字表示（可能是 htl 格式）新增到

text_list 中。

將圖 38 的提取的資料進行拆分，新增到 text_list 中，輸出結果如圖 311 所示。

非結構化文字資料通常非常稀疏，即包含大量的詞彙但每個文件只使用其中的一小部分。而結

構化資料則可以透過合併相似資訊來降低資料的稀疏性，這有助於生成更加緊湊和有效的嵌入向

量。

結構化資料可以實現更高效的特徵提取。結構化資料通常已經按照特定的模式或結構進行了組

織，這使得我們可以更加高效地從中提取有用的特徵（如標題、作者、摘要、關鍵詞等）。這些特

徵可以作為後續 ebeddg 的輸入，幫助生成具有更強區分性和泛化能力的嵌入向量。結構化資料

中的元素（如主題、類別、屬性等）通常具有明確的含義，這些含義可以在 ebeddg 過程中被保

留下來。因此，基於結構化資料的嵌入向量往往具有更強的解釋性，有助於我們更好地理解模型的

預測結果和內部機制。

：()離語

《點選報錯，無需註冊》

為您推薦