2vec 演算法在文字相似度計算領域具有廣泛的影響。斯坦
福大學等機構的研究者提出了 bert 模型,該模型透過大量的無監督學習來捕捉文字的上下文信
息,可以實現高精度的文字相似度計算。bert 模型在多項自然語言處理任務中均取得了優異的表
現。
25 本章小結
本章主要介紹了本專案中使用的四種關鍵技術與模型。這些技術主要基於大型語言模型,並且
,!
依賴於 rag 技術的原理。介紹了知識抽取技術,它利用先進的自然語言處理技術從文字中提取有意
義的資訊和知識,隨後討論了文字處理中所使用的 rag 技術,該技術可以顯著提高大型語言模型在
專業領域的效能,增強資訊檢索的準確性和效率。最後探討了在文字比對過程中所需的相似度計算
方法,這對於評估文字之間的相似程度至關重要。
瞭解清楚資料獲取來源後,進行資料採集,資料採集的方法包括自動化和手動兩種方式:
自動化採集:利用編寫的 python 指令碼透過 api 介面自動從上述資料庫和期刊中下載文獻和元
資料,部分程式碼如圖 32 所示。這種方法的優點是效率高,可以大量快速地收集資料。使用
beautifulup 和 reests 庫從開放獲取的期刊網站爬取資料。
手動採集:透過訪問圖書館、研究機構以及聯絡文章作者等方式獲取不易自動下載的資源。雖
然此方法更費時,但有助於獲取更全面的資料集,特別是一些最新或尚未公開的研究成果。
將兩種方法採集到的文獻資料進行匯總,最大範圍的將有關電力 lca 領域的英文文獻進行匯
總,共獲得 507 篇。
最後是將各個途徑獲取到的文獻資料和後設資料匯總,進行資料預處理。
採集到的資料需經過清洗和預處理,才能用於後續的分析。
資料預處理的步驟包括:
資料清洗:刪除重複的記錄,校正錯誤的資料格式,填補缺失值。
資料整合:將來自不同來源的資料整合到一個統一的格式和資料庫中,如表 31 所示,以便進
行進一步的分析。
為了使後續知識庫生成更加準確與完善,對文獻具體內容進行篩選。例如部分文獻中並未提到
所用資料,而是指出所用資料庫連結,如圖 33 所示,在對該篇文獻進行解析後,資料部分就是欠
缺的,最終構建的知識庫就不完整,在呼叫大模型回答相關問題時,極大機率產生幻覺。因此為了
構建更為準確的專業模型,對爬取下來的 507 篇文獻進行篩選,選擇包括流程圖(syste
boundaries)、各單元過程或生產環節的投入( put),產出( output),資料( life cycle
ventory),以及資料的時間、地點、獲取方法、技術細節的文獻作為最後應用的資料。核對內容
後的文獻資料集共 98 篇英文文獻。
:()離語