語言模型,不需要求助於專有的資料集。清華大學
提出了一種基於自迴歸填充的通用語言模型 GLm 在整體基於 transformer 的基礎上作出改動,在一
些任務的表現上優於 Gpt3-175b。
大語言模型,例如 Gpt 系列、LLama 系列、Gemini 系列等,在自然語言處理方面取得了顯著的
成功,展示了超強的效能,但仍面臨諸如幻覺、過時的知識、不可追溯的推理過程等挑戰。2020
年,由 Lewis 等人引入的檢索增強生成方法,透過整合來自外部資料庫的知識,然後再繼續回答問
題或生成文字。這個過程不僅為後續階段提供資訊,而且確保響應是基於檢測到的證據的,從而顯
著提高輸出的準確性和相關性。在推理階段從外部知識庫動態檢索資訊使 RAG 能夠解決諸如生成幻
覺等問題。RAG 與 LLm 的整合得到了迅速的應用,提高了自然語言處理任務的效能,並且使得模型
能夠更好地利用外部知識和背景資訊。
自 2020 年起,全球大語言模型在自然語言處理、計算機視覺、語音識別、推薦系統等領域表
現出卓越技術優勢,市場規模持續增長,預計到 2028 年將達到 1095 億美元。國外大模型產品研發
在 2021 年進入高速發展期,谷歌、openAI、英偉達、微軟等公司都推出了自主研發的大模型,截
至 2023 年 7 月底,國外已釋出了 138 個大模型。我國大模型發展迅速,與國際前沿保持同步,百
度、騰訊、清華大學、北京航空航天大學等單位都推出了自己的大模型,截至 2023 年七月底,我
國已釋出 130 個大模型。
2.2 知識抽取
知識抽取主要分為命名實體識別和關係抽取兩方面。命名實體識別(NER)任務,旨在識別與
特定語義實體型別相關聯的文字跨度。該任務最早於 1991 年由 Rau 等人提出。隨著資訊理解、人
工智慧等領域的頂級會議對 NER 任務的評測,其定義逐漸細化和完善,並逐漸成為自然語言處理
(NLp)領域的重要組成部分。然而,不同領域對實體型別的定義存在差異,因此 NER 模型的構建
取決於特定領域任務需求,通常涵蓋人物資訊、地點資訊和組織機構資訊等。對於英語、法語、西
班牙語等外語文字,通常採用單詞作為基本單位,因此基於這些語言的 NER 模型主要關注單詞本身
的語義特徵和上下文資訊。然而,中文語料文字通常由字元構成,需要考慮字元的語義資訊和詞彙。
特徵,同時引入其他表徵資訊來提升模型效能,如中文分詞(cwS)、語義部分標籤(poS)等外部
資訊,因此構建中文命名實體識別(cNER)模型更為複雜。目前,NER 任務的研究方法主要包括基
於詞典和規則的方法、基於機器學習(mL)的方法以及基於深度學習(dL)的方法。
今天為什麼講座要那麼長時間。