必須運用深入的工程原理,經過分析才可能得到解決;目前針對於提升llms效能的方法有很多種:微調、提示工程和向量資料庫。這些方法對於提升llms效能具有良好表現,但又具有各自的侷限性,需要經過分析選擇適合本課題的有效的方法。(2)涉及多方面的技術、工程和其它因素,並可能相互有一定衝突;1、對於提示工程具有長度限制和內容選擇限制,不能滿足使用者更專業的需求。2、對於微調模型,資料準備要求高且訓練資源複雜訓練時間較長,投入成本大且不宜於實現。3、構建向量知識庫,可以實現內容檢索、語義理解以及資料儲存功能。有助於提高llms在汙水處理廠領域的效能。4、當下rag技術成熟,可以實現全面理解檢索到的非引數化知識以及大型語言模型內部的引數化知識,將繼續使用本技術。5、langchain框架可以實現外部資料庫和llms互動連結,形成良好的互動,本文將利用此框架。(3)需要透過建立合適的抽象模型才能解決,在建模過程中需要體現出創造性;?1.基於embedding模型構建本地化向量知識庫,在確保資料安全的情況下,實現最佳化。2.利用langchain,基於llms構建chatbot,形成llms與本地向量知識庫的良好互動,便於使用者使用。(4)不是僅靠常用方法就可以完全解決的;1.傳統的結構化知識庫只能行行列檢索一一對應再輸出答案,而向量知識庫則是專門為非結構化資料檢索而設計,其將向量資料組成立體高維空間,在空間內進行模糊檢索快速輸出權重最高的答案,更加人性化具有靈活性。2.傳統的知識庫採取雲端部署,具有靈活性但具有資料風險,本次將採用本地化知識庫部署,最大限度保證資料安全,維護汙水處理廠的企業利益。(5)問題中涉及的因素可能沒有完全包含在專業工程實踐的標準和規範中;?1.汙水處理廠專業領域的資料採集。資料需保證準確客觀性,故採取的資料為汙水處理廠應政府要求公開披露的資料並定期有第三方檢測單位核驗;即經過政府認可的披露資料,並在數。
據採集的時候經由人工定期核驗,最大限度確保知識庫原始資料的準確性。(6)問題相關各方利益不完全一致;(7)具有較高的綜合性,包含多個相互關聯的子問題。該問題可以拆解為:1、收集汙水處理廠專業資料並處理。2、基於embedding模型,構建本地化向量知識資料庫。3、利用langchain框架,基於llms構建chatbot。4、測試chatbot效能並最佳化。注:畢業設計的任務應是一個複雜資訊保安工程問題,必須具備上述特徵(1),同時具備上述特徵(2)-(7)的部分或全部的設計需要滿足複雜工程問題的特徵。
2.3.1智譜ai
智譜ai(onshot
ai)是一家專注於人工智慧領域的公司,擅長開發和提供llms。這些模型能夠理解和生成自然語言文字,廣泛應用於語言翻譯、文字摘要、情感分析、問答系統和文字生成等任務。智譜ai透過其先進的演算法和大量的資料訓練,賦予了模型強大的語言理解能力,使其在處理複雜語言現象和提供準確語言輸出方面表現出色。2.3.2
glm-4
智譜ai的glm-4模型是其最新推出的基座大模型,它透過開放api為開發者提供了強大的自然語言處理能力。glm-4支援更長的上下文理解,具備更強的多模態處理能力,能夠快速推理並處理大量併發請求,有效降低了計算成本。此外,glm-4在智慧體能力上進行了顯著增強,使其能夠更準確地理解和執行復雜指令。在效能上,glm-4在多個資料集上展現出與gpt-4相當的能力,並在中文對齊能力上超越了gpt-4。開發者可以利用glm-4模型進行各種語言類任。
務的api呼叫,如自然語言處理、機器翻譯、智慧客服等,推動ai技術在不同領域的應用創新。2.5
streamlit2.5.1streamlit概述streamlit是一個開源的python工具庫,旨在幫助資料科學家和工程師快速建立和分享互動式、跨平臺的資料應用。透過提供豐富的互動式元件,如滑塊、按鈕和圖表,使得無需前端開發經驗即可生成美觀且使用者友好的應用介面。streamlit的應用可以實時更新資料,非常適合動態資料展示和分析結果演示。開發者可以輕鬆地將應用部署到web上,並透過streamlit社群提供的文件和支援快速學習如何