關燈 巨大 直達底部
親,雙擊螢幕即可自動滾動
第272章 肝文

我將分為四個部分來介紹我的畢業論文。首先是研究背景。那麼為什麼要開展我這個研究呢?隨著資訊科技和網路技術的快速發展下,非結構化資料的比例迅速上升,傳統的資料庫並不能儲存這些資料,所以這無疑帶來了資料管理領域的重大挑戰。文獻是科技工作者獲取知識的重要來源。英語作為國際通用語言,英文文獻的重要性便不言而喻。文獻通常以pdF進行儲存。傳統的pdf資訊提取,比較侷限,採用人工查閱將所需的有效資訊進行提取,再把這些資訊標記在論文資源上供人們定位和使用。這就要求負責這項工作的人具有相當專業的知識,世界各地,各行各業,每天都會產生大量文章,資訊提取的效率相當重要,怎麼才能避免資源浪費,就是一個待解決的問題。隨著大語言模型的興起,誕生了檢索增強生成技術,它從大量的文字資料中提取出有用的資訊,並對這些資訊進行分析和處理,為使用者提供更全面、更準確的資訊服務。基於此,選取檢索增強生成技術來對大量文獻進行資訊提取,相較於先前的人工查閱降本增效,安全性高。我選擇的資料物件是,電力行業LcA英文文獻。第二部分我將介紹我本次研究最核心的關鍵技術。檢索增強生成技術。大語言模型的知識包括,自己本身的知識,使用者的前置輸入,和聯網或者檢索專業的知識庫所獲取的知識,將這三部分結合,便是檢索增強生成所包含的內容。說的再直白一點,就是讓大語言模型外掛一個知識庫,或聯網搜尋,去抽取到相關知識,是檢索。把專業的知識和提問一起,送給大語言模型歸納生成,生成一個更準確的答案,是增強,最後返回給使用者,即為檢索增強生成。第三部分則是我的系統介紹。針對我的研究題目:基於大語言模型(LLm)的英文文獻解析,我將我的研究系統分為了三個模組。資料處理模組主要包括對電力LcA這個特定領域的英文文獻進行選擇和初步處理,而後將有關資料全部轉化成結構化資料。知識庫構建模組主要是將資料向量化並構建向量知識庫。chatbot構建分為功能部分和前端部分,功能包括基於openAI的大語言模型基座呼叫、知識庫檢索、線上檢索;前端部分為web視覺化以及UI設計。首先是資料處理模組。資料的範圍,我選擇了常見的五種發電方式,火力,水力,太陽能,核能,風能。確定每個主題的關鍵詞和大主題生命週期評價後記錄所有可能出現的形式,比如說,生命週期評價出現在論文裡,可能是LcA,也可能是lifecycle assessment,羅列所有可能性,做到不遺漏資料。

關注一個產業或行業的生命週期評價(LcA)具有重要的作用和意義,透過全面評估其在整個

生命週期中與環境和資源相關的影響,LcA 能夠幫助識別影響源和熱點,併為制定環境政策、管理

措施和產品設計提供科學依據,推動行業向著更加環保和可持續的方向發展,同時也有助於提高消

費者和企業對可持續生產和消費模式的認識和推廣。

對於電力行業而言,關注 LcA,不僅有助於推動電力行業朝著更加環保和可持續的方向發展,

而且對電力企業的生產和管理方式進行最佳化,降低環境負擔,提高資源利用效率。此外,電力行業

的 LcA 結果還能引導政府制定能源政策和支援環保技術發展,增強企業和消費者對可持續發展的意

識,促進清潔能源轉型和技術創新。綜合而言,電力行業的生命週期評價不僅對行業發展產生重要

影響,還有助於推動整個社會邁向更加可持續的未來。

鑑於此,本文選取有關於電力行業的 LcA 的英文文獻作為資料,對其中的結構化資料和非結構

化資料進行解析,來幫助大語言模型為決策者提供幫助,更高效地為電力行業的發展和管理提高決

策支援。

1.2 研究目的與意義

1.2.1 研究目的

本論文研究目標為,將有關電力行業 LcA 的英文文獻進行解析,提取其中文字、表、圖等不同

格式化與非格式化資訊,構建向量資料庫,提高電力行業 LcA 資訊提取準確性,從而幫助研究人員

快速獲取論文的主要內容、創新點、研究方法、資料來源等資訊,以及論文的貢獻、侷限和未來研

究方向,並基於實際資料進行測評。具體研究目標如下:

(1)透過檔案裝載分割以及後設資料獲取的方法,對電