資料預處理
unstructured 庫是一個強大的工具,專為處理非結構化資料設計,具體流程如圖 37 所示,
小主,這個章節後面還有哦,,後面更精彩!
如從文字文件、pdf 檔案或網頁中提取資料。它支援多種資料提取方法,包括正規表示式匹配、自
然語言處理(nlp)技術等。
資料預處理步驟如下:
步驟一:資料清洗
去除雜質:從文字中去除無關的字元,如特殊符號、空白行等。
格式統一:將所有文字統一為相同的編碼格式,通常為 utf-8,以避免編碼錯誤。
語言標準化:統一不同術語的使用,例如將所有"photovoltaic"統一替換為"pv",確保術語的
一致性。
步驟二:資訊提取
關鍵資訊標識:標識文獻中的關鍵資訊,如研究方法、主要結論、實驗條件等。
資料分類:根據資訊型別將資料分類,如作者、出版年份、研究結果等。
步驟三:結構化轉換
結構化處理:將資訊精細化拆解與清洗,將各種元素進行轉換,形成結構化資料形式,拆分成
標題與內容。
分割部分關鍵程式碼:
對於其中的每個元素,如果是 positeelent 型別,就提取其中的文字並將其新增到
text_list 中;如果是 table 型別,就將表格的文字表示(可能是 htl 格式)新增到
text_list 中。
將圖 38 的提取的資料進行拆分,新增到 text_list 中,輸出結果如圖 311 所示。
非結構化文字資料通常非常稀疏,即包含大量的詞彙但每個文件只使用其中的一小部分。而結
構化資料則可以透過合併相似資訊來降低資料的稀疏性,這有助於生成更加緊湊和有效的嵌入向
量。
結構化資料可以實現更高效的特徵提取。結構化資料通常已經按照特定的模式或結構進行了組
織,這使得我們可以更加高效地從中提取有用的特徵(如標題、作者、摘要、關鍵詞等)。這些特
徵可以作為後續 ebeddg 的輸入,幫助生成具有更強區分性和泛化能力的嵌入向量。結構化資料
中的元素(如主題、類別、屬性等)通常具有明確的含義,這些含義可以在 ebeddg 過程中被保
留下來。因此,基於結構化資料的嵌入向量往往具有更強的解釋性,有助於我們更好地理解模型的
預測結果和內部機制。
:()離語