近年來,“基于神經(jīng)網(wǎng)絡的自然語言識別”相關的研究取得了飛速進展,特別是在學習語義的文本表示方面,這些進展有助于催生一系列真正新奇的產品,例如智能撰寫(Gmail 的輔助郵件創(chuàng)作)和Talk to Books(訪問文末的鏈接,試著與書籍對話)。還有助于提高訓練數(shù)據(jù)量有限的各種自然語言任務的性能,例如,通過僅僅 100 個標記示例構建強大的文本分類器。
下面我們將討論兩篇關于 Google 語義表示相關研究最新進展的論文,以及可在 TensorFlow Hub 上下載的兩個新模型,我們希望開發(fā)者使用這些模型來構建令人興奮的新應用。
TensorFlow Hub是一個管理、分發(fā)和檢索用于 TensorFlow 的可重用代碼(模型)的管理工具。
語義文本相似度
在“Learning Semantic Textual Similarity from Conversations”中,我們引入了一種新的方法來學習語義文本相似度的語句形式??梢灾庇^理解為,如果句子的答復具有相似的分布,那么它們在語義上是相似的。例如,“你多大了?” (How old are you?) 和“你幾歲了?” (What is your age?) 都是關于年齡的問題,可以通過類似的答復來回答,例如“我 20 歲” (I am 20 years old)。相比之下,雖然“你好嗎?” (How are you?) 和“你多大?” (How old are you?) 包含的英文單詞幾乎相同,但它們的含義卻大相徑庭,因而答復也不同。
如果句子可以通過相同的答復來回答,那么它們在語義上是相似的。否則,它們在語義上是不同的。
在這項研究中,我們的目標是通過答復分類任務學習語義相似度:給定一個對話輸入,我們希望從一批隨機選擇的答復中選出正確的答復。但是,最終目標是學習一個可以返回表示各種自然語言關系(包括相似度和相關性)編碼的模型。通過添加另一個預測任務(在本例中為SNLI 蘊含數(shù)據(jù)集),并通過共享編碼層強制執(zhí)行,我們在相似度度量方面獲得了更好的性能,例如STSBenchmark(句子相似度基準)和CQA 任務 B(問題/問題相似度任務)。這是因為邏輯蘊含與簡單的等價有很大不同,并且更有助于學習復雜的語義表示。
對于給定的輸入,可將分類視為潛在候選項排名問題。
Universal Sentence Encoder
“Universal Sentence Encoder”一文中引入了一個模型,此模型通過增加更多的任務對上述多任務訓練進行了擴展,我們使用類似于skip-thought的模型 (論文鏈接在文末)(可以在給定的文本范圍內預測句子)來訓練它們。但是,盡管原始 skip-thought 模型中采用的是編碼器-解碼器架構,我們并未照搬使用,而是通過共享編碼器的方式使用了只有編碼器的架構來驅動預測任務。通過這種方式可以大大縮短訓練時間,同時保持各種傳輸任務的性能,包括情感和語義相似度分類。目的是提供一種單一編碼器來支持盡可能廣泛的應用,包括釋義檢測、相關性、聚類和自定義文本分類。
基于 TensorFlow Hub Universal Sentence Encoder 的輸出進行的語義相似度成對比較。
正如我們的論文所述,Universal Sentence Encoder 模型的一個版本使用了深度平均網(wǎng)絡(DAN) 編碼器,而另一個版本則使用了更復雜的自助網(wǎng)絡架構- Transformer。
"Universal Sentence Encoder"中所述的多任務訓練。各種任務和任務結構通過共享編碼器層/參數(shù)(灰色框)連接。
對于更復雜的架構而言,與相對簡單的 DAN 模型相比,此模型在各種情感和相似度分類任務上的表現(xiàn)更加出色,而短句子方面的速度只是稍微慢一些。然而,隨著句子長度的增加,使用 Transformer 的模型的計算時間顯著增加,而同等條件下,DAN 模型的計算時間幾乎保持不變。
新模型
除了上述 Universal Sentence Encoder 模型外,我們還將在 TensorFlow Hub 上分享兩個新模型:Universal Sentence Encoder - Large和Universal Sentence Encoder - Lite。這些都是預訓練的 Tensorflow 模型,可返回可變長度文本輸入的語義編碼。這些編碼可用于語義相似度度量、相關性、分類或自然語言文本的聚類。
Large 模型使用 Transformer 編碼器進行訓練,我們的第二篇論文進行了介紹。此模型適用于需要高精度語義表示以及要求以速度和大小為代價獲得最佳模型性能的場景。
Lite 模型基于 Sentence Piece 詞匯而非單詞進行訓練,以顯著減少詞匯量,而詞匯量則顯著影響模型大小。此模型適用于內存和 CPU 等資源有限的場景,例如基于設備端或基于瀏覽器的實現(xiàn)。
我們很高興與社區(qū)分享本研究成果和這些模型。我們相信這里所展示的成果只是一個開始,并且還有許多重要的研究問題亟待解決。例如,將技術擴展到更多語言(上述模型目前僅支持英語)。我們也希望進一步開發(fā)這項技術,以便能夠理解段落甚至文檔級別的文本。如果能夠完成這些任務,或許我們能制作出一款真正意義上的“通用”編碼器。
-
編碼器
+關注
關注
45文章
3751瀏覽量
136641 -
Google
+關注
關注
5文章
1782瀏覽量
58513 -
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4797瀏覽量
102367
原文標題:語義文本相似度研究進展
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論