本章介紹了研究所選文獻資料的獲取來源和途徑。透過 python 爬取的方式獲取大部分文獻數
據與後設資料,對後設資料進行基本處理,為後續分析提供幫助,豐富向量知識庫的資料儲備。隨後為
了最大程度提高向量知識庫的可信程度,對文獻資料進行篩選,選出帶有流程圖,資料,輸入輸出
的英文文獻,作為最後使用的資料。精細篩選後,使用 unstructured 庫進行資料預處理使其轉化
為結構化資料。
42 向量知識庫的構建
向量知識庫構建是一個將處理過的資料嵌入向量知識庫的過程,主要用於將不同型別的資料轉
化為向量,並進行儲存和檢索。其流程如圖 41 所示。
圖 41 向量知識庫構建流程
對收集到的資料進行清洗、去重、分類,提取分割文字,以確保資料的質量和有效性。消除噪
聲資料,提高資料的一致性和準確性。將預處理後的資料轉化為向量,將向量化後的資料儲存到向
量知識庫中,並利用向量資料庫進行高效的儲存和檢索。向量資料庫是一種專門用於儲存和檢索向
量資料的資料庫系統,可以根據語義或上下文含義查詢最相似或相關的資料。
測試流程包括以下幾個步驟:
測試設計:根據目標領域定義測試用例,包括典型問題、邊緣情況和錯誤輸入。
環境搭建:搭建測試環境,包括聊天介面和後端模型處理系統。
執行測試:記錄模型的回應。
評估結果:根據預設的標準(如準確性、響應時間、使用者滿意度)評估模型表現。
最佳化模型:根據測試結果對模型進行調整和最佳化。
52 智慧互動元件 chatbot
chatbot 是一種人工智慧程式,它設計用於模擬人類對話,並且能夠基於事先程式設計或機器學習
技術來進行智慧對話交流。chatbot 通常被用於客戶服務、資訊查詢、娛樂等各種場景,可以透過
文字或語音與使用者進行互動。
chatbot 的一些特點和作用包括:
1自動化互動:chatbot 可以自動回答使用者提出的問題,執行指定的任務,無需人工幹,減少
人力成本和時間消耗。
2實時響應:chatbot 能夠在任何時間、任何地點提供服務,隨時響應使用者的問題和需求。
3個性化服務:chatbot 可以根據使用者的需求和歷史資料提供個性化的服務和建議,提高使用者
體驗。
4多渠道支援:chatbot 可以在多種通訊渠道上執行,如網頁、應用程式、社交媒體平臺等,
為使用者提供多樣化的對話途徑。
本專案選擇 openai 的 gpt 模型作為 chatbot 的大語言模型基座,gpt 模型基於 transforr
架構,相較於其他模型,這種架構允許模型在處理長文字時保持較好的效能,同時具有良好的並行
化能力,使得模型的訓練和推理速度得到提升。
521 chatbot 後端
基於先前構建的針對電力 lca 領域的向量知識庫構建 chatbot 測試模型效能,主要設計思路是
為了實現檢索功能,大致可分為知識庫檢索功能和線上搜尋。
chatbot 功能流程圖如圖 51 所示。
使用者透過 chatbot 介面輸入他們的問題或請求。對使用者輸入文字進行清洗,包括去除標點符
號,進行分詞等。轉化為結構化資料後將預處理後的文字轉換為向量形式,以便於機器理解。將向
量化處理後的使用者問題構建成搜尋向量。使用搜尋向量與知識庫中已向量化的內容進行匹配,找出
相關的資訊。對匹配到的知識庫內容進行排序,選擇最相關的幾個回答候選。為保證效能設定最相
關的問答數量。基於排序和選擇的結果,生成回答,將最終確定的回答返回給使用者。
對於使用者輸入的問題語句進行文字預處理,隨後將其變成機構化資料後向量化,與先前處理文
獻資料類似,因此這裡不再贅述。