關燈 巨大 直達底部
親,雙擊螢幕即可自動滾動
第296章 昏迷

2vec 演算法在文字相似度計算領域具有廣泛的影響。斯坦

福大學等機構的研究者提出了 bert 模型,該模型透過大量的無監督學習來捕捉文字的上下文信

息,可以實現高精度的文字相似度計算。bert 模型在多項自然語言處理任務中均取得了優異的表

現。

25 本章小結

本章主要介紹了本專案中使用的四種關鍵技術與模型。這些技術主要基於大型語言模型,並且

,!

依賴於 rag 技術的原理。介紹了知識抽取技術,它利用先進的自然語言處理技術從文字中提取有意

義的資訊和知識,隨後討論了文字處理中所使用的 rag 技術,該技術可以顯著提高大型語言模型在

專業領域的效能,增強資訊檢索的準確性和效率。最後探討了在文字比對過程中所需的相似度計算

方法,這對於評估文字之間的相似程度至關重要。

瞭解清楚資料獲取來源後,進行資料採集,資料採集的方法包括自動化和手動兩種方式:

自動化採集:利用編寫的 python 指令碼透過 api 介面自動從上述資料庫和期刊中下載文獻和元

資料,部分程式碼如圖 32 所示。這種方法的優點是效率高,可以大量快速地收集資料。使用

beautifulup 和 reests 庫從開放獲取的期刊網站爬取資料。

手動採集:透過訪問圖書館、研究機構以及聯絡文章作者等方式獲取不易自動下載的資源。雖

然此方法更費時,但有助於獲取更全面的資料集,特別是一些最新或尚未公開的研究成果。

將兩種方法採集到的文獻資料進行匯總,最大範圍的將有關電力 lca 領域的英文文獻進行匯

總,共獲得 507 篇。

最後是將各個途徑獲取到的文獻資料和後設資料匯總,進行資料預處理。

採集到的資料需經過清洗和預處理,才能用於後續的分析。

資料預處理的步驟包括:

資料清洗:刪除重複的記錄,校正錯誤的資料格式,填補缺失值。

資料整合:將來自不同來源的資料整合到一個統一的格式和資料庫中,如表 31 所示,以便進

行進一步的分析。

為了使後續知識庫生成更加準確與完善,對文獻具體內容進行篩選。例如部分文獻中並未提到

所用資料,而是指出所用資料庫連結,如圖 33 所示,在對該篇文獻進行解析後,資料部分就是欠

缺的,最終構建的知識庫就不完整,在呼叫大模型回答相關問題時,極大機率產生幻覺。因此為了

構建更為準確的專業模型,對爬取下來的 507 篇文獻進行篩選,選擇包括流程圖(syste

boundaries)、各單元過程或生產環節的投入( put),產出( output),資料( life cycle

ventory),以及資料的時間、地點、獲取方法、技術細節的文獻作為最後應用的資料。核對內容

後的文獻資料集共 98 篇英文文獻。

:()離語