1.3.2 研究方法
本文以有關電力行業 LcA 的近十年的英文文獻為研究物件,並根據每篇文章的後設資料構建資料
庫。進行文件分割,將檔案分割為更小的部分或章節,分割槽後使其更容易分類和提取文字,將文件
元素列表儲存並跟蹤從文件中提取的各種後設資料,將文字元素分割為適合模型注意力視窗的大小,
構建向量資料庫,方便大模型呼叫。利用 RAG(檢索增強生成)模型,幫助大語言模型知曉具有電
力 LcA 領域專業性和時效性的知識,包括最新的新聞、公式、資料等內容,增強大模型回答關於電
力行業 LcA 領域專業性問題與時效性問題的能力,主要用到的研究方法如下。
(1)文獻資料法。透過閱讀大量國內外研究檢索增強生成的文章,確定將 RAG 技術作為提升
大語言模型回答電力行業 LcA 領域問題專業性與時效性問題的解決方法。文獻調研顯示,聚焦於此
領域的大模型是一個研究空白,將電力行業 LcA 的大模型應用於企業層面的分析,能夠響應了重大
戰略。該方法能夠提升科研眼界、開闊研究思路、豐富研究角度。
(2)實驗法。本文使用爬蟲程式抓取各頂級期刊官網上近十年的文章,並透過後設資料處理方
法,構建文章後設資料的資料庫。
(3)實證分析法。本文透過大量實際資料,來驗證大模型呼叫電力行業 LcA 領域向量資料庫
回答該領域專業性問題和時效性問題的有效性。
1.3.3 系統設計
系統設計三個模組,整體設計如圖 1.4 所示,分別是資料處理模組、專業領域知識庫構建模組
以及 chatbot 構建模組。資料處理模組主要包括對電力 LcA 這個特定領域的英文文獻進行選擇和初
步處理,而後將有關資料全部轉化成結構化資料。知識庫構建模組主要是將資料向量化並構建向量
知識庫。chatbot 構建分為功能部分和前端部分,功能包括 openAI 基座的呼叫、知識庫檢索、在
線檢索;前端部分為 web 視覺化以及 UI 設計。
1.4 本章小結
第一章作為本論文的引言部分,主要圍繞研究背景、研究目的與意義、研究內容與方法以及系
統設計進行了全面的闡述。首先,本章透過詳細闡述當前大模型技術在內容解析領域的背景,指出
了電力行業生命週期評價的重要性,並強調了研究流程和研究方法。在這一基礎上,本章進一步明
確了專案系統功能設計。綜上所述,本章作為論文的引言部分,為整個研究提供了清晰的研究背
景、目的、意義、內容及方法概述,為後續章節的展開奠定了堅實的基礎。
2.1 大語言模型
chatGpt 是由 openAI 釋出的一種大語言模型,能夠以問答的形式完成各類任務,包括接受文
字輸入,理解自然語言,理解響應並模擬人類對話形式進行輸出。再各個自然語言處理子任務具有
優異的表現。相比其他大語言模型擁有更豐富的知識,涵蓋自然、社會科學、人文歷史等多個領
域。chatGpt 在 Gpt3.5 的基礎上引入了 RLhF(reinforcement learning from human feedback)
技術,透過將人類的日常對話的語言習慣嵌入模型,並引入價值偏好,使得模型的輸出滿足人類的
意圖。微調過程分為預訓練、監督微調、設計獎勵模型和反饋最佳化。桑基韜等人根據 chatGpt 的對
話物件和定位將其應用分為四個層次:資料生成器、知識挖掘器、模型排程器和人機互動介面。在
多模態領域,Visual chatGpt、mm-ReAct 和 huggingGpt 讓視覺模型與 chatGpt 協同工作來完成視
覺和語音任務。
除此以外,許多類 chatGpt 的大模型也同樣在自然語言處理方面展示出來了較好的效果。
LLamA 是應該從 7billion 到 65billion 引數的