第296章昏迷-離語(semaphore)-SODU小說

關燈小中大巨大直達底部

親,雙擊螢幕即可自動滾動

第296章昏迷

2vec 演算法在文字相似度計算領域具有廣泛的影響。斯坦

福大學等機構的研究者提出了 bert 模型，該模型透過大量的無監督學習來捕捉文字的上下文信

息，可以實現高精度的文字相似度計算。bert 模型在多項自然語言處理任務中均取得了優異的表

現。

25 本章小結

本章主要介紹了本專案中使用的四種關鍵技術與模型。這些技術主要基於大型語言模型，並且

，！

依賴於 rag 技術的原理。介紹了知識抽取技術，它利用先進的自然語言處理技術從文字中提取有意

義的資訊和知識，隨後討論了文字處理中所使用的 rag 技術，該技術可以顯著提高大型語言模型在

專業領域的效能，增強資訊檢索的準確性和效率。最後探討了在文字比對過程中所需的相似度計算

方法，這對於評估文字之間的相似程度至關重要。

瞭解清楚資料獲取來源後，進行資料採集，資料採集的方法包括自動化和手動兩種方式：

自動化採集：利用編寫的 python 指令碼透過 api 介面自動從上述資料庫和期刊中下載文獻和元

資料，部分程式碼如圖 32 所示。這種方法的優點是效率高，可以大量快速地收集資料。使用

beautifulup 和 reests 庫從開放獲取的期刊網站爬取資料。

手動採集：透過訪問圖書館、研究機構以及聯絡文章作者等方式獲取不易自動下載的資源。雖

然此方法更費時，但有助於獲取更全面的資料集，特別是一些最新或尚未公開的研究成果。

將兩種方法採集到的文獻資料進行匯總，最大範圍的將有關電力 lca 領域的英文文獻進行匯

總，共獲得 507 篇。

最後是將各個途徑獲取到的文獻資料和後設資料匯總，進行資料預處理。

採集到的資料需經過清洗和預處理，才能用於後續的分析。

資料預處理的步驟包括：

資料清洗：刪除重複的記錄，校正錯誤的資料格式，填補缺失值。

資料整合：將來自不同來源的資料整合到一個統一的格式和資料庫中，如表 31 所示，以便進

行進一步的分析。

為了使後續知識庫生成更加準確與完善，對文獻具體內容進行篩選。例如部分文獻中並未提到

所用資料，而是指出所用資料庫連結，如圖 33 所示，在對該篇文獻進行解析後，資料部分就是欠

缺的，最終構建的知識庫就不完整，在呼叫大模型回答相關問題時，極大機率產生幻覺。因此為了

構建更為準確的專業模型，對爬取下來的 507 篇文獻進行篩選，選擇包括流程圖（syste

boundaries）、各單元過程或生產環節的投入（ put），產出（ output），資料（ life cycle

ventory），以及資料的時間、地點、獲取方法、技術細節的文獻作為最後應用的資料。核對內容

後的文獻資料集共 98 篇英文文獻。

：()離語

《點選報錯，無需註冊》

為您推薦