關燈 巨大 直達底部
親,雙擊螢幕即可自動滾動
第264章 哈欠

特定語義實體型別相關聯的文字跨度。該任務最早於 1991 年由 Rau 等人提出。隨著資訊理解、人

工智慧等領域的頂級會議對 NER 任務的評測,其定義逐漸細化和完善,並逐漸成為自然語言處理

(NLp)領域的重要組成部分。然而,不同領域對實體型別的定義存在差異,因此 NER 模型的構建

取決於特定領域任務需求,通常涵蓋人物資訊、地點資訊和組織機構資訊等。對於英語、法語、西

班牙語等外語文字,通常採用單詞作為基本單位,因此基於這些語言的 NER 模型主要關注單詞本身

的語義特徵和上下文資訊。然而,中文語料文字通常由字元構成,需要考慮字元的語義資訊和詞彙。

特徵,同時引入其他表徵資訊來提升模型效能,如中文分詞(cwS)、語義部分標籤(poS)等外部

資訊,因此構建中文命名實體識別(cNER)模型更為複雜。目前,NER 任務的研究方法主要包括基

於詞典和規則的方法、基於機器學習(mL)的方法以及基於深度學習(dL)的方法。

目前,聯合實體和關係提取神經模型可分為引數共享和序列標註兩種方式。然而,許多研究將

實體和關係的聯合提取看作是序列標記問題。儘管如此,識別複雜的關係仍然是一個具有挑戰性的

任務,需要進一步提高聯合提取模型的效能。此外,大多數新興的聯合提取神經模型僅在英語基準

上進行了評估,其在其他語言或特定領域的有效性尚待驗證。Google 機器翻譯團隊提出了一種包

括自注意力機制和多頭注意力機制的 transformer 結構。相較於迴圈神經網路(RNN)或卷積神經

網路(cNN),多頭注意力機制具有許多吸引人的優點。在中文命名實體識別任務中,資料集中存在

大量非結構化文字,因此需要從多個角度和多層次來提取文字本身的更多特徵。近年來,多頭注意

力機制在命名實體識別任務中得到了廣泛應用。例如,Li 等人採用了基於自注意力機制的深度學

習模型,而 Yin 等人則提出了一種名為 ARccNER 的模型,該模型利用 cNN 網路學習中文激進特徵並

使用自我注意機制自動獲取權重。儘管字元特徵得到了增強,但激進級別的特徵仍然難以獲取,這

不僅耗費成本,而且模型效能提升有限,尚未解決 biLStm 網路中的資訊遺忘問題。

而基於大模型的知識抽取,流程如圖 2.1 所示,是指利用具有數千萬甚至數億引數的深度學習

模型來進行知識抽取的過程。這種大模型通常基於深度學習原理,透過利用大量的資料和計算資源

來訓練具有大量引數的神經網路模型,以在各種任務中取得最佳表現。

在知識抽取的場景中,大模型可以透過對大量非結構化文字的學習,自動識別和提取出其中的

結構化資訊,如語義資訊豐富的標籤、短語等。這種過程可以透過識別、理解、篩選和格