女人书籍排行榜,殿上欢,豆豆小说阅读网

話到嘴邊卻忘了？這個模型能幫你 AAAI 2020

發(fā)布時間：2025-02-28 18:36

　　該文關注反向詞典問題——即給定對某個詞語的描述，希望得到符合給定描述的詞語。該文提出了一種受到人的描述→詞的推斷過程啟發(fā)的多通道模型，在中英兩種語言的數(shù)據集上都實現(xiàn)了當前最佳性能（state-of-the-art），甚至超過了最流行的商業(yè)反向詞典系統(tǒng)。此外，基于該文提出的模型，論文作者還開發(fā)了在線反向詞典系統(tǒng)，包含首次實現(xiàn)的中文、中英跨語言反向查詞功能。

　　反向詞典有重要的實用價值，其最大的用處在于解決舌尖現(xiàn)象（Tip of the tongue）[1]，即話到嘴邊說不出來的問題——頻繁寫作的人，如作家、研究人員、學生等經常會遇到這種問題。

　　此外，反向詞典也可以為掌握詞匯不多的新語言學習者提供幫助，讓他們學習、鞏固尚不十分了解的詞語。

　　最后，反向詞典還可以幫助選詞性命名不能（word selection anomia）[2]的患者——他們知道想說的詞語的意思但無法主動說出來。

　　反向詞典同樣具有自然語言處理研究價值，比如可以用于評測句子表示學習模型[3]，輔助解決問答、信息檢索等包含文本到實體映射的任務[4]。

　　現(xiàn)在已經有一些投入使用的商業(yè)化反向詞典系統(tǒng)，其中最著名、最流行的是OneLook（），但其背后的實現(xiàn)原理尚不得知。

　　第一類為基于句子匹配的方法，該方法在數(shù)據庫中存儲足夠多的詞語及其定義，當進行反向詞典查詢時，在數(shù)據庫中檢索與輸入描述最相似的定義并返回所對應的詞語[5-8]。然而反向詞典的輸入描述非常多變，往往與已存儲的詞典定義有巨大差別，這種方法很難解決這一問題。

　　另一類基于神經語言模型的方法由Bengio等人提出[3]，該方法使用神經語言模型作為編碼器將輸入描述編碼到詞向量空間，返回與之最近的詞向量對應的詞語。近年來有很多反向詞典研究基于這種方法[4, 9-11]，盡管這種方法避免了第一類方法面臨的輸入描述多變導致的性能較差的問題，然而考慮到相當一部分詞是低頻詞，其詞向量的學習效果往往較差，在查詢這些詞時，基于神經語言模型的方法的性能也不甚理想。

　　以圖3為例，當人看到“road where cars go very quickly without stopping”這條描述時，除了直接猜目標詞以外，還可以推斷出目標詞應具有的一些特征，比如詞性應為名詞，詞的類型應為實體，以及大概率具有“way”這個詞素。

　　受此啟發(fā)，該文的模型在對描述編碼后直接進行詞預測的基礎上，額外增加了四個特征預測器。該文將每個特征視作一個信息通道，四個通道可分為兩類：

　　1、內部通道，該類通道預測詞本身的特征，包括詞性（part-of-speech）和詞素（morpheme）；

　　2、外部通道，該類通道預測外部知識庫提供的詞的特征，包括詞類（word category）和義原（sememe）。其中詞類信息可由WordNet或同義詞詞林提供，義原由知網（HowNet）提供。

　　圖4為該文所提模型的圖示。該模型以基于注意力機制的雙向LSTM對輸入定義或描述進行編碼得到句子表示，除了用該句子表示直接預測目標詞之外，還對目標詞的詞性（POS）和詞類（category）進行預測。而對于另外兩個特征詞素（morpheme）和義原（sememe）的預測，則采用了不同的方法。

　　考慮到詞的詞素或義原和詞的描述/定義中的詞存在一種局部語義對應關系——如圖3中的例子中“expressway”的“express-”與“quickly”、“-way”與“road”分別對應，且義原也有類似的對應關系——因此對于這兩個特征的預測，該文用每個詞的隱狀態(tài)（hidden state）分別預測然后對預測分數(shù)做max-pooling來得到最終的預測分數(shù)。這些特征的預測分數(shù)會按一定比例加到符合該特征的詞語的預測分數(shù)上，得到最終的詞語預測分數(shù)。

　　該文在英文、中文多個數(shù)據集上進行了實驗。對于英文實驗，該文使用了前人工作都使用的來自多個英文詞典的定義數(shù)據集作為訓練集，測試集則有3個：

　　1）見過的詞典定義（Seen Definition），由一部分訓練集中出現(xiàn)的詞典定義構成，這一數(shù)據集主要測試模型對以往信息的回憶能力；

　　2）沒見過的詞典定義（Unseen Definition）,由未在訓練集中出現(xiàn)的詞典定義構成；

　　3）人工構造的描述（Description）數(shù)據集，該數(shù)據集包括人根據給定的詞語寫出的描述，是最貼合反向詞典應用實際的數(shù)據集。

　　圖5給出了英文數(shù)據集上的實驗結果，可以發(fā)現(xiàn)每個特征預測器的增加都會提高模型的效果，而包含所有特征的多通道模型得到了最好的性能，不但超過了此前最佳模型（state-of-the-art） MS-LSTM，而且在真實數(shù)據集Description上甚至超過了最流行的反向詞典系統(tǒng)OneLook。

　　圖6給出了中文數(shù)據集上的實驗結果，其中Question數(shù)據集包含從互聯(lián)網搜集的中小學根據描述選擇或寫出詞語的題目。實驗結果與英文數(shù)據集上的結果類似。

　　圖7給出了不同模型的性能受目標詞義項數(shù)、詞頻和輸入描述的影響的結果（以英文數(shù)據集為例）。可以看出該文提出的模型有更強的魯棒性，尤其是對于低頻詞仍然有很好的預測效果。

　　這篇論文提出一個受人的描述到詞的推斷過程啟發(fā)的多通道反向詞典模型，其包含詞性、詞素、詞類、義原四個特征預測器，在真實場景數(shù)據集上實現(xiàn)了最佳性能。

　　如圖8所示，該系統(tǒng)不僅支持英文、中文反向查詞，還支持英漢、漢英跨語言反向查詞，能夠顯示候選詞的詞性、定義等基本信息，且支持按照詞性、單詞長度、詞形等對候選詞進行篩選，助你更快找到你想要的詞。

關于我們

ai資訊

ai應用

聯(lián)系我們