知識庫搜尋:
以下是透過 weaviate 在名為“water”的集合中搜尋與特定查詢文字相近的文件,並返回相
關文件的內容和來源,設定 _k=3,考慮計算機效能與執行速度,只尋找三個匹配項。
這段程式碼最終返回一個包含匹配文件內容和來源的列表。
線上搜尋:
以下是透過線上搜尋引擎在網際網路上搜尋相關內容,並返回格式化的文件列表,其中包含每個
搜尋結果的摘要內容和來源連結的程式碼,同樣設定 _k=3,返回三個匹配項。
小主,這個章節後面還有哦,,後面更精彩!
透過 duckduckgo 搜尋引擎在網際網路上搜尋相關內容,並返回格式化的文件列表,其中包含每
個搜尋結果的摘要內容和來源連結。程式碼利用正規表示式提取搜尋結果中的摘要、標題和連結信
息,並對結果進行整理和格式化,以便展示給使用者。透過這個函式,使用者可以透過輸入查詢來搜尋
網際網路上的相關資訊,並檢視摘要和連結。
strealit 是一個強大的 python 庫,主要用於機器學習、資料視覺化和 web 應用程式的快速
開發。使用者在編寫程式碼時可以實時看到應用介面的變化,快速除錯和驗證結果。內建多種互動式組
件(如滑塊、核取方塊等)方便使用者與應用進行互動。支援快速建立資料視覺化圖表,如折線圖、散
點圖、地圖等,展現資料分析結果。
53 測試模型與最佳化
效能評估的目的是透過系統的測試結果來識別當前實現的短板和潛在改進點。基於這些評估,
可以針對性地對向量知識庫進行最佳化,從而提高整體模型的準確性和效率。以下是如何根據
chatbot 模式測試的結果對向量知識庫進行最佳化。
在效能評估過程中,需要關注幾個關鍵指標:
1準確率:模型響應的正確性。
2響應時間:從接收到查詢到返回響應的時間。
3使用者滿意度:基於使用者反饋的滿意度評分。
4系統穩定性:系統在連續執行時的穩定性和可靠性。
透過以上三種途徑的問答,可以看到,透過向量知識庫和線上搜尋與大語言模型本身相結合,
即 rag 技術,均為大語言模型最佳化了生成回答的準確性,對大語言模型的專業領域知識做了補充和
改善。
基於以上的效能評估結果,可以採取以下步驟對向量知識庫進行最佳化。
1增強向量覆蓋範圍:對於準確率低的查詢,分析模型回應錯誤的原因。如果是由於知識庫中
缺少相關資訊,可以透過新增更多相關文件和資料來增強向量知識庫的覆蓋範圍。
2最佳化向量生成演算法:重新訓練向量生成模型,使用更大的資料集或更復雜的模型架構,以提
高向量的質量和表達能力。
3調整檢索演算法:如果響應時間較長或返回的向量與查詢關聯度不高,考慮最佳化檢索演算法。例
如,採用更快的檢索演算法或調整向量匹配邏輯。
4使用者反饋整合:建立一個機制,允許使用者在使用過程中提供反饋。這些反饋可以直接用於指
導向量知識庫的更新和最佳化。
5持續監控和測試:建立持續的效能監控和定期測試機制,確保向量知訣庫的持續最佳化和模型
效能的穩定性。
54 本章小結
向量知識庫後,對向量知識庫的效果進行檢驗,也對本專案進項完善,設計了一個 chatbot 模
式來對向量知識庫進行最佳化,透過向 chatbot 提問,看基於電力 lca 領域的專業大模型能否回答專
業問題。透過 chatbot 實現了使用者對文獻的檢索功能,最後是透過對模型回答問題的準確率,正確
率進行評估,從而實現將模型不斷最佳化。
:()離語