NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分數(shù)創(chuàng)下了嵌入準確率的新紀錄海量文本嵌入基準測試(MTEB)涵蓋 56 項嵌入任務(wù)。
NV-Embed 等高度準確有效的模型是將大量數(shù)據(jù)轉(zhuǎn)化為可操作見解的關(guān)鍵。NVIDIA 通過 NVIDIA API 目錄提供性能一流的模型。
由 LLM 提供支持的“與您的數(shù)據(jù)對話”流程嚴重依賴 embedding model,例如 NV-Embed,它通過將英語單詞轉(zhuǎn)換為文本中信息的壓縮數(shù)學(xué)表示形式來創(chuàng)建非結(jié)構(gòu)化文本的語義表示。這種表示通常存儲在 vector database 中,以便日后使用。
當(dāng)用戶提出問題時,系統(tǒng)會對問題的數(shù)學(xué)表征和所有基礎(chǔ)數(shù)據(jù)塊進行比較,以檢索最有用的信息來回答用戶的問題。
請注意,此特定模型只能用于非商業(yè)用途。
分解基準
在討論模型的準確率數(shù)字之前,討論基準測試很重要。本節(jié)簡要介紹有關(guān)理解基準測試的詳細信息。我們的深入探討評估適用于企業(yè)級 RAG 的 Retriever 是獲取更多信息的絕佳資源。
了解嵌入模型的指標
從我們將討論的基準測試指標開始,主要有兩個注意事項:
Normalized Discounted Cumulative Gain(NDCG)是一個排名感知指標,用于衡量檢索到的信息的相關(guān)性和順序。簡言之,如果我們有 1,000 個 chunks 并檢索 10 (NDCG@10),那么當(dāng)最相關(guān)的 chunk 排名第一、第二相關(guān)的 chunk 排名第二,以此類推,直到第十個最相關(guān)的 chunk 位于第 10 位時,才會給出理想的分數(shù)。
Recall是一個與排名無關(guān)的指標,用于測量檢索到的相關(guān)結(jié)果的百分比。在這種情況下,如果我們有 1,000 個數(shù)據(jù)塊并檢索 10 個數(shù)據(jù)塊(Recall@10),則如果選擇了前 10 個最相關(guān)的數(shù)據(jù)塊,則無論這些數(shù)據(jù)塊的排名順序如何,都將獲得完美分數(shù)。
大多數(shù)基準測試都報告 NDCG@10,但由于大多數(shù)企業(yè)級檢索增強生成(RAG)流程,我們建議使用 Recall@5。
什么是 MTEB 和 Beir?
檢索流程的核心功能是將問題的語義表示與各種數(shù)據(jù)點進行比較。這自然會引導(dǎo)開發(fā)者提出幾個后續(xù)問題:
相同的表示是否可以用于不同的任務(wù)?
如果我們縮小一項任務(wù)的范圍,該模型是否擅長表示不同類型的問題或理解不同領(lǐng)域?
為了回答這些問題,我們研究了有關(guān)檢索的文獻中最常見的兩個基準測試。
MTEB:此基準測試涵蓋 56 項不同的任務(wù),包括檢索、分類、重新排名、聚類、總結(jié)等。根據(jù)您的目標,您可以查看代表您用例的精確任務(wù)子集。
BEIR:該基準測試專注于檢索任務(wù),并以不同類型和領(lǐng)域的問題(例如 fact-checking、biomedical questions 或檢測重復(fù)性問題)的形式增加了復(fù)雜性。MTEB 在很大程度上是 BEIR 基準測試的超集,因此我們在大多數(shù)討論中將專注于 MTEB。
NV-Embed 模型精度基準
現(xiàn)在我們已經(jīng)討論了基礎(chǔ)基準測試和指標,我們來看看新模型 NV-Embed 的執(zhí)行情況。
圖 1. MTEB 基準測試中排名前 5 的模型
平均而言,NV-Embed 模型在 56 個任務(wù)中的跟蹤準確度最佳,NDCG@10 分為 69.32(參見圖 1)。
雖然 NV-Embed 涵蓋了大多數(shù)模型架構(gòu)和訓(xùn)練細節(jié),準確率達到 69.32,以下總結(jié)了主要改進。
新的 latent attention layer。我們引入了 latent attention layer,該層能夠簡化模型將一系列詞(tokens sequence)的數(shù)學(xué)表示(embeddings)的過程。通常情況下,對于基于 BERT 的模型,這是通過求平均值來完成的,對于僅解碼器的模型,則是通過關(guān)注 End-of-Sequence-Token(
兩階段學(xué)習(xí)過程。在第一階段,使用 in-batch 負例對和 hard 負例對進行 contrastive 學(xué)習(xí)。簡而言之,使用證據(jù)對和問題對。證據(jù)似乎回答了這些對中的問題,但如果您仔細觀察,您會發(fā)現(xiàn)缺少基本信息。在第二階段,來自非檢索任務(wù)的數(shù)據(jù)混合在一起以進行 contrastive 學(xué)習(xí),并且禁用 in-batch 負例訓(xùn)練。
現(xiàn)在自然而然的問題是,“這對我的企業(yè)檢索工作負載的轉(zhuǎn)換效果有多好?!?/p>
答案是,它取決于數(shù)據(jù)的性質(zhì)和領(lǐng)域。對于每個基準測試,您必須評估單個數(shù)據(jù)集的相關(guān)性一般檢索用例。
我們的關(guān)鍵要點是,雖然 19 個數(shù)據(jù)集構(gòu)成了 BEIR 基準測試,但數(shù)據(jù)集 Quora 其中包含超出常規(guī)檢索任務(wù)的問題。因此,我們建議查看更能代表工作負載的數(shù)據(jù)集子集,例如 Natural Questions 和 HotPotQA 數(shù)據(jù)集。有關(guān)上下文,請參閱以下代碼段。
Quora 示例數(shù)據(jù)集的數(shù)據(jù)對專注于檢索 Quora 上提出的其他類似問題。
Input:Which question should I ask on Quora?
Target:What are good questions to ask on Quora?
HotpotQA 示例問題通道對
Input-Question:Were Scott Derrickson and Ed Wood of the same nationality?
Target-Chunk:Scott Derrickson (born July 16, 1966) is an American director, screenwriter and producer. He lives in Los Angeles, California. He is best known for directing horror films such as “Sinister”, “The Exorcism of Emily Rose”, and “Deliver Us From Evil”, as well as the 2016 Marvel Cinematic Universe installment, “Doctor Strange.”
NQ 示例常規(guī)問題通道對
Input-Question: What is non-controlling interest on the balance sheet?
Target-Chunk:In accounting, minority interest (or non-controlling interest) is the portion of a subsidiary corporation’s stock that is not owned by the parent corporation. The magnitude of the minority interest in the subsidiary company is generally less than 50% of outstanding shares, or the corporation would generally cease to be a subsidiary of the parent.[1]
圖 2. HotPotQA 和 NQ 上來自 MTEB 的前三個嵌入模型,它們很好地代表了通用檢索用例
在圖 2 中,NV-Embed 模型最適合用于表示這些用例的數(shù)據(jù)集。我們鼓勵您對自己的數(shù)據(jù)重復(fù)此評估。如果您沒有要測試的干凈數(shù)據(jù),我們建議找到表示您用例的子集。
立即開始原型設(shè)計
通過 API 目錄體驗 NV-Embed 模型。
此外,使用 NVIDIA NeMo Retriever 微服務(wù)集合,該集合旨在使組織能夠?qū)⒆远x模型無縫連接到各種業(yè)務(wù)數(shù)據(jù),并提供高度準確的響應(yīng)。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5302瀏覽量
106311 -
API
+關(guān)注
關(guān)注
2文章
1600瀏覽量
63980 -
模型
+關(guān)注
關(guān)注
1文章
3516瀏覽量
50373
原文標題:NVIDIA 文本嵌入模型位列 MTEB 排行榜榜首
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
是否有來自NVIDIA的基準測試
NVIDIA 在首個AI推理基準測試中大放異彩
NVIDIA Jetson的相關(guān)資料分享
在Ubuntu上使用Nvidia GPU訓(xùn)練模型
基于微博文本的詞對主題演化模型

如何使用TensorFlow Hub文本模塊構(gòu)建一個模型,以根據(jù)相關(guān)描述預(yù)測電影類型

基于詞嵌入與神經(jīng)網(wǎng)絡(luò)的文本匹配模型
基于LSTM的表示學(xué)習(xí)-文本分類模型
NVIDIA Jetson Orin Nano的性能基準
GTC 2023主題直播:NVIDIA Nemo構(gòu)建定制的語言文本轉(zhuǎn)文本

GTC23 | 使用 NVIDIA TAO Toolkit 5.0 體驗最新的視覺 AI 模型開發(fā)工作流程
NVIDIA AI 技術(shù)助力 vivo 文本預(yù)訓(xùn)練大模型性能提升

基于文本到圖像模型的可控文本到視頻生成

NVIDIA推出全新生成式AI模型Fugatto
NVIDIA RTX 5880 Ada顯卡部署DeepSeek-R1模型實測報告

評論