關燈 巨大 直達底部
親,雙擊螢幕即可自動滾動
第337章 噢

檔案或網頁中提取資料。它支援多種資料提取方法,包括正規表示式匹配、自

然語言處理(nlp)技術等。

資料預處理步驟如下:

步驟一:資料清洗

去除雜質:從文字中去除無關的字元,如特殊符號、空白行等。

格式統一:將所有文字統一為相同的編碼格式,通常為

utf-8,以避免編碼錯誤。

語言標準化:統一不同術語的使用,例如將所有\"photovoltaic\"統一替換為\"pv\",確保術語的

一致性。

步驟二:資訊提取

關鍵資訊標識:標識文獻中的關鍵資訊,如研究方法、主要結論、實驗條件等。

資料分類:根據資訊型別將資料分類,如作者、出版年份、研究結果等。

步驟三:結構化轉換

結構化處理:將資訊精細化拆解與清洗,將各種元素進行轉換,形成結構化資料形式,拆分成

標題與內容。

分割部分關鍵程式碼:

對於其中的每個元素,如果是

positeelement

型別,就提取其中的文字並將其新增到

text_list

中;如果是

table

型別,就將表格的文字表示(可能是

html

格式)新增到

text_list

中。

將圖

3.8

的提取的資料進行拆分,新增到

text_list

中,輸出結果如圖

3.11

所示。

非結構化文字資料通常非常稀疏,即包含大量的詞彙但每個文件只使用其中的一小部分。而結

構化資料則可以透過合併相似資訊來降低資料的稀疏性,這有助於生成更加緊湊和有效的嵌入向

量。

結構化資料可以實現更高效的特徵提取。結構化資料通常已經按照特定的模式或結構進行了組

織,這使得我們可以更加高效地從中提取有用的特徵(如標題、作者、摘要、關鍵詞等)。這些特

徵可以作為後續

embedding

的輸入,幫助生成具有更強區分性和泛化能力的嵌入向量。結構化資料

中的元素(如主題、類別、屬性等)通常具有明確的含義,這些含義可以在

embedding

過程中被保

留下來。因此,基於結構化資料的嵌入向量往往具有更強的解釋性,有助於我們更好地理解模型的

預測結果和內部機制。