作者:黃楠
向量數(shù)據(jù)庫可實(shí)現(xiàn) 80% 非結(jié)構(gòu)化數(shù)據(jù)能力的覆蓋。
在保險行業(yè)這個海量數(shù)據(jù)的“聚居地”上,數(shù)據(jù)庫應(yīng)用已久。
近年來,保司數(shù)據(jù)化轉(zhuǎn)型提速,各類文本、音視頻的憑證票證核保及跑批需求不斷增加,許多機(jī)構(gòu)便將數(shù)據(jù)庫引入至業(yè)務(wù)流程中。
但是,隨著數(shù)據(jù)庫深入保司業(yè)務(wù),一個真實(shí)的情況是:傳統(tǒng)數(shù)據(jù)庫只能處理機(jī)器容易處理的、如字符串等結(jié)構(gòu)化數(shù)據(jù),以點(diǎn)查和范圍查找的形式進(jìn)行匹配,但面對許多長尾場景下格式繁復(fù)、無法統(tǒng)一處理的非結(jié)構(gòu)化數(shù)據(jù)時,則無能為力,只能繼續(xù)投入大量人力,進(jìn)行手動的數(shù)據(jù)錄入和人工檢驗。
一位從業(yè)人員告訴 AI 科技評論,目前在保險公司內(nèi)人為處理的事情居多,其業(yè)務(wù)內(nèi)容中人為比例可達(dá)到 90% ,AI 只支持 10% 的信息存取、數(shù)據(jù)流轉(zhuǎn)。
受技術(shù)瓶頸的掣肘,沒有一套通用的方法論得以解決傳統(tǒng)數(shù)據(jù)庫的存儲、檢索和分析難題。數(shù)據(jù)局限的桎梏不僅發(fā)生在保險公司里,各行各業(yè)均受其困擾已久。直至大模型+向量數(shù)據(jù)庫的出現(xiàn)。
數(shù)月來,大模型風(fēng)口正盛,向量數(shù)據(jù)庫可以為大模型解決數(shù)據(jù)更新、知識圖譜構(gòu)建、消除幻覺等問題,使其在短短時間內(nèi),一躍成為最受關(guān)注的領(lǐng)域之一。向量數(shù)據(jù)庫類產(chǎn)品數(shù)量激增,當(dāng)中既有創(chuàng)業(yè)公司,大廠更是戰(zhàn)局中主要的競爭對手。
今年 7 月,騰訊云發(fā)布了 AI 原生向量數(shù)據(jù)庫 Tencent Cloud VectorDB,該產(chǎn)品在 11 月 1 日正式全量開放公測,同時在性能上也實(shí)現(xiàn)了大幅提升。
向量數(shù)據(jù)庫之于大模型,是實(shí)現(xiàn)降本增效重要的基礎(chǔ)設(shè)施。數(shù)據(jù)顯示,企業(yè)在使用向量數(shù)據(jù)庫后,可實(shí)現(xiàn) 80% 非結(jié)構(gòu)化數(shù)據(jù)能力的覆蓋。
大模型的角斗場上,一個行業(yè)共識是,誰能夠更好地利用數(shù)據(jù),把數(shù)據(jù)沉淀到工程化中里,更快讓數(shù)據(jù)接入到大模型和整個 AI 體系之中,誰就有可能走在最前列。而選擇一個對的服務(wù)伙伴,至關(guān)重要。
1大模型的“數(shù)據(jù)”局限
眾所周知,數(shù)據(jù)在 MaaS 時代很重要,市場的火熱映射到具體的企業(yè)行為上,表現(xiàn)為大批量垂直模型的推出、數(shù)據(jù)庫企業(yè)融資數(shù)量增加、數(shù)據(jù)庫使用量陡然增長等。
但在企業(yè)落地的過程中,大模型所面臨的難題依舊沒有解決。
經(jīng)過近半年的觀察,數(shù)據(jù)局限對企業(yè)做大模型帶來的影響,可歸結(jié)為以下三點(diǎn):
首先是對數(shù)據(jù)的管理和運(yùn)維。如上所述,隨著文本、圖片、視頻等多模態(tài)的、非結(jié)構(gòu)化數(shù)據(jù)的使用需求增加,許多企業(yè)所產(chǎn)出的非結(jié)構(gòu)化數(shù)據(jù)量級可高達(dá) 80%,如果選擇以預(yù)訓(xùn)練的方式將數(shù)據(jù)“喂”給模型,與之而來的則是難以承載的高成本。
身為明星創(chuàng)業(yè)公司的百川智能,在模型訓(xùn)練和調(diào)試時就曾遇見過類似問題。
未使用向量數(shù)據(jù)庫之前,百川智能一直使用的是開源方案,比如以向量索引為內(nèi)核,相當(dāng)于在訓(xùn)練時給模型準(zhǔn)備一個 library 級別或算法級別的知識庫,這些知識庫使用簡單,采用分布式系統(tǒng)的方式,具有擴(kuò)展性。但其缺點(diǎn)也很直觀,隨著數(shù)量增長到一定規(guī)模時,這種分布式存儲的方式會很快遇到瓶頸。
不僅如此,由于市面上缺少成熟的管理工具,數(shù)據(jù)格式該怎么組織、數(shù)據(jù)的更新頻率如何安排、新舊數(shù)據(jù)的更迭等等,百川智能都需要額外交給工程師去做,大大增加了人員成本。
第二點(diǎn),雖然大模型支持的 token 數(shù)量在持續(xù)增加,具備了“短暫記憶”的能力,但“一本正經(jīng)地胡說八道”的問題仍無法解決,當(dāng)中不乏有敏感內(nèi)容的出現(xiàn),稍不注意,便可能帶來嚴(yán)重的影響。因此,支撐模型訓(xùn)練的數(shù)據(jù)不僅要數(shù)量多,質(zhì)量也必須足夠高。
比如大模型和教育行業(yè)的結(jié)合,雖然模型可以完成一定的推理和解題,但進(jìn)入實(shí)際應(yīng)用中,好未來就發(fā)現(xiàn)了,大模型在面對數(shù)學(xué)問題時,其表現(xiàn)仍然不夠好。要想解決這個問題,必須基于龐大的、高質(zhì)量的數(shù)據(jù)庫,像教程題庫、數(shù)學(xué)錯題集等,在此之上嘗試啟發(fā)式內(nèi)容生成。
第三,如何保障企業(yè)數(shù)據(jù)的安全性,數(shù)據(jù)在空間和時間上會有很大的限制。
一方面,企業(yè)很難把自己具有核心競爭力的數(shù)據(jù)放到大模型中去訓(xùn)練;有行業(yè)人士就曾向 AI 科技評論指出,許多應(yīng)用型公司并不愿意將自身微調(diào)的模型貢獻(xiàn)到公有版本里、與其他人分享,而是傾向于訓(xùn)練自己的大模型,而后進(jìn)行本地私有化部署。這個過程中,企業(yè)要解決的主要難點(diǎn)是,如何將私有化業(yè)務(wù)數(shù)據(jù)跟大模型結(jié)合。
銷售易是很早就在智能 CRM 業(yè)務(wù)中引入了大模型,例如提供相似客戶推薦、做問答機(jī)器人等服務(wù)。但客戶在使用過程時卻發(fā)現(xiàn),大模型所推薦的客戶類型經(jīng)常會出現(xiàn)匹配度不高的情況,向它提問與企業(yè)相關(guān)的的系統(tǒng)功能問題時,大模型也回答不出來。
另一方面,企業(yè)的業(yè)務(wù)數(shù)據(jù)變化速度快,且實(shí)時性強(qiáng),因此私有化部署后的大模型、在數(shù)據(jù)層上也很難做到秒、天級別的更新。
當(dāng)上述諸多問題橫亙于企業(yè)和大模型落地之間,學(xué)術(shù)界和工業(yè)界也提出了兩種解決方案。
一是采用 Fine-tuning 的方式迭代演進(jìn),讓大模型學(xué)到更多的知識;二是通過 Vector search 的方法,把最新的私域知識存在向量數(shù)據(jù)庫中,需要時在向量數(shù)據(jù)庫中做基于語義的向量檢索,這兩種方法都可以為大模型提供更加精準(zhǔn)的答案。
但是從成本方面來看,行業(yè)人士指出,向量數(shù)據(jù)庫的成本僅為 Fine-tuning 的千分之一。向量數(shù)據(jù)庫通過把數(shù)據(jù)向量化,進(jìn)行存儲和查詢可以有效解決大模型預(yù)訓(xùn)練成本高、沒有“長期記憶”、幻覺、知識更新不及時等問題。
因此,憑借其優(yōu)勢,向量數(shù)據(jù)庫也被視為了加速大模型落地行業(yè)場景的關(guān)鍵突破口。
2向量數(shù)據(jù)庫的大模型之路
自大模型火爆以來,原已沉寂多年的向量數(shù)據(jù)庫再次受到企業(yè)和資本市場的高度關(guān)注,據(jù)公開數(shù)據(jù)顯示,2023 年 4 月以來,以向量數(shù)據(jù)庫為代表的 AI 投資領(lǐng)域呈增長趨勢,包括 Pinecone、Chroma 和 Weviate 等多家向量數(shù)據(jù)庫初創(chuàng)企業(yè)均拿到了上億級美元融資。
為了最大程度上幫助企業(yè)應(yīng)對數(shù)據(jù)局限問題,更好地將大模型能力釋放到行業(yè)和產(chǎn)業(yè)中,騰訊云走在國內(nèi)云廠商前列,于今年 7 月便正式上線了向量數(shù)據(jù)庫 Tencent Cloud VectorDB,并在 11 月 1 日全量開放公測。
這也體現(xiàn)了騰訊云在大模型時代下的視角:大模型技術(shù)的創(chuàng)新只是第一步,如向量數(shù)據(jù)庫這類數(shù)據(jù)存儲、檢索、分析等基礎(chǔ)設(shè)施的搭建也同等重要,騰訊不僅提供直接的大模型服務(wù),更重要的是向企業(yè)遞“鏟子”、提供有效趁手的平臺工具。
市面上不缺乏好用的向量數(shù)據(jù)庫,那么,騰訊云相比于其他廠商的產(chǎn)品有什么不一樣的地方呢?
首先在架構(gòu)上,騰訊云就采用了 AI 原生的開發(fā)架構(gòu),從接入層、計算層、存儲層提供給全面 AI 化的解決方案,形成一套完整的端到端、一站式服務(wù)技術(shù)棧,讓不同階段、不同需求的用戶,都能在騰訊云向量數(shù)據(jù)庫里找到對應(yīng)可用的 AI 能力。
騰訊云全面 AI 化解決方案
比如在接入層上,騰訊云向量數(shù)據(jù)庫支持自然語言文本的數(shù)據(jù),采用“標(biāo)量+向量”的查詢方式,可支持全內(nèi)存索引;計算層,AI 原生的開發(fā)范式能實(shí)現(xiàn)全量數(shù)據(jù) AI 計算,一站解決企業(yè)搭建私域知識庫時數(shù)據(jù)切分等難題。
這些能力不僅可以讓交互更自然,同時在計算結(jié)果、效率、成本等方面,也能得到進(jìn)一步的優(yōu)化。
在百川智能的工程師們看來,向量數(shù)據(jù)庫帶來最直觀的改變是,數(shù)據(jù)分片、導(dǎo)入導(dǎo)出等工作效率得到了極大的提升。面對每天約 2 億的數(shù)據(jù)量,以往使用的單線程序處理速度有限,但加入了向量數(shù)據(jù)庫后,加上百川智能所使用的RAG 框架,可以有效解決私有數(shù)據(jù)、實(shí)時數(shù)據(jù),同時在數(shù)據(jù)齊備的情況下,還能消除部分由數(shù)據(jù)帶來的幻覺問題。
數(shù)據(jù)顯示,將騰訊云向量數(shù)據(jù)庫用于大模型預(yù)訓(xùn)練數(shù)據(jù)的分類、去重和清洗,相比傳統(tǒng)方式可以實(shí)現(xiàn) 10 倍效率的提升,如果將向量數(shù)據(jù)庫作為外部知識庫用于模型推理,則可以將成本降低 2 - 4 個數(shù)量級。
以前企業(yè)將現(xiàn)有數(shù)據(jù)接入一個大模型需要花 1 個月左右時間,使用騰訊云向量數(shù)據(jù)庫后,最短 3 天時間即可完成,極大降低了企業(yè)的接入成本。
第二是集成了 Embedding 功能,企業(yè)用戶無需關(guān)注向量生成過程,使用起來更簡單。
騰訊云向量數(shù)據(jù)庫 AI 套件
與騰訊云合作以前,好未來曾使用過一些小型的基于內(nèi)存的向量數(shù)據(jù)庫,雖然也具備了語義結(jié)合的能力,但無論是產(chǎn)品的性能還是維護(hù)等方面,使用效果不佳。
而在騰訊云向量數(shù)據(jù)庫上,通過語音召回加語義 Embedding 功能,這種采用語義結(jié)合進(jìn)行檢索的方式,讓模型能力得到了提升,召回內(nèi)容更多、內(nèi)容更精準(zhǔn)、召回速度更快等等,從而提供更好的用戶體驗。
例如同樣是搜索題庫中的“第一單元”,文本召回必須準(zhǔn)確地提供“第一單元”這一提示詞,但借助向量數(shù)據(jù)庫的相似性檢索,語義檢索就可以將“Unit1”等近似語義的內(nèi)容也進(jìn)行召回。
第三,自研分布式向量數(shù)據(jù)庫核心引擎,服務(wù)更穩(wěn)定可靠、高可用。
AI 科技評論了解到,騰訊云向量數(shù)據(jù)庫所用的核心引擎,是其 2019 年于內(nèi)部上線使用的 Olama,經(jīng)過 4 年的探索和迭代,Olama 實(shí)現(xiàn)了大規(guī)模升級,包括集成了騰訊在內(nèi)的業(yè)界優(yōu)秀的向量算法、降低 Olama 成本、提升穩(wěn)定性等等,從而更好地適配大語言模型應(yīng)用。
截至今年 7 月份,Olama 已覆蓋騰訊 30 多個業(yè)務(wù)、100 多個場景,日均調(diào)用量超過 1200 億,調(diào)用成功率為 100%,搜索成功率為 99.995%。
可以看到,面對企業(yè)在大模型落地中的普遍難題,騰訊云向量數(shù)據(jù)庫力圖在每個環(huán)節(jié)提供便捷、有效的解決方案,突破數(shù)據(jù)的局限,加速大模型+向量數(shù)據(jù)庫的使用,以解決企業(yè)實(shí)實(shí)在在的痛點(diǎn)和難題。
3應(yīng)用是風(fēng)口
受限于研發(fā)成本和開發(fā)難度,過去十年,全球僅有 1% 開發(fā)者專注于 AI 領(lǐng)域的研發(fā)工作。而到了今天,以大模型為能力基座,一個 AI 應(yīng)用開發(fā)的難度縮短至只需兩三個工程師、一個周末時間變成完成。
其中,向量數(shù)據(jù)庫也從以搜索、廣告、推薦為主要服務(wù)領(lǐng)域,隨著 AI 的大規(guī)模發(fā)展,開始深入千行百業(yè)中去,與 C 端用戶鏈接也更加緊密。
舉一個銷售易與騰訊云的合作案例。
作為一家企業(yè)級 CRM 服務(wù)商,每天有數(shù)萬次用戶問答在智能客戶場景中發(fā)生。在以前,傳統(tǒng)的 NLP 客服機(jī)器人智能做一問一答,這種基于分詞語法關(guān)鍵字的檢索方式,容易出現(xiàn)搜索答案不精準(zhǔn)的情況,用戶使用感不佳,慢慢地也失去了提問的積極性。
比如客戶希望在業(yè)務(wù)分析中檢索調(diào)用出多個數(shù)據(jù)報表,想要在成千上萬個報表中找到指定數(shù)據(jù),對模型的信息抽取能力有很高的需求,直接關(guān)系到業(yè)務(wù)的分析效率。
但在同騰訊云合作后,銷售易可以先將報表以 Embedding 的形式存入自有向量數(shù)據(jù)庫中,當(dāng)用戶端發(fā)生自然語言問詢時,這個客服機(jī)器人就可以智能化分析問詢者的意圖,并在向量數(shù)據(jù)庫內(nèi)去檢索相關(guān)的知識文檔,從而得出一個更接近于人的思考方式的回答。
這樣的客服機(jī)器人不僅可以支持多輪對話,更關(guān)鍵的是,它還支持了檢索模糊的相關(guān)性,不需要維護(hù)大量同義詞、詞典或是相似的問法,類似相關(guān)性的語言可以交給大模型+向量數(shù)據(jù)庫來解決。
而在潛在客戶推薦的場景中,騰訊云向量數(shù)據(jù)庫帶來的影響也十分明顯。
過去,銷售易主要是依據(jù)客戶的特征字段,在結(jié)構(gòu)化信息里檢索有相關(guān)特征的企業(yè)信息,這種檢索對于內(nèi)部的銷售人員要求很高,必須準(zhǔn)確地檢索近上百個字段,如企業(yè)介紹等描述性內(nèi)容很難被檢測,久而久之,員工經(jīng)常會出現(xiàn)關(guān)鍵字匹配度不高等問題。
而使用了向量數(shù)據(jù)庫后,基于相關(guān)性的特征來檢索是從文本進(jìn)行描述,當(dāng)銷售人員想要檢索某個行業(yè)、某種產(chǎn)品或是某種業(yè)務(wù)需求的客戶時,可以借助文本進(jìn)行自然語言模糊的相關(guān)性檢索,使用簡單,檢索的結(jié)果也更真實(shí)、準(zhǔn)確,智能化效果明顯,大幅提升了員工從事客戶推薦業(yè)務(wù)的難度。
騰訊云超級底座
可以看到,向量數(shù)據(jù)庫之于大模型應(yīng)用落地、之于 AI 技術(shù)發(fā)展的意義已經(jīng)逐漸顯現(xiàn)。
騰訊云數(shù)據(jù)庫副總經(jīng)理羅云就曾指出,數(shù)據(jù)、向量數(shù)據(jù)庫、大模型三者怎么能更好地服務(wù)全行業(yè)是首要問題,“只有向量數(shù)據(jù)庫變得更 AI 化,數(shù)據(jù)、向量數(shù)據(jù)庫、大模型三者才能形成一個飛輪效應(yīng),彼此之間相互拉動,相互促進(jìn),這是我們對向量數(shù)據(jù)庫未來發(fā)展的判斷?!?/p>
這也是騰訊云在當(dāng)下推出向量數(shù)據(jù)庫 Tencent Cloud VectorDB 的原因所在。
數(shù)據(jù)顯示,自 7 月份正式發(fā)布以來,騰訊云向量數(shù)據(jù)庫的日請求量達(dá) 1600 億次,服務(wù)騰訊集團(tuán)內(nèi)部 40 多個業(yè)務(wù),外部客戶數(shù)更多達(dá)數(shù)百家,其中就包括了上述提到的百川智能、好未來、銷售易,幫助教育、SaaS、工具、游戲等多行業(yè)客戶快速進(jìn)行 AI 方向的探索。
大模型進(jìn)一步推動了對向量數(shù)據(jù)庫的需求。業(yè)界共識是,所有產(chǎn)品應(yīng)用都值得用 AI 重做一次,在這個背景下,企業(yè)將會越來越重視如何將其跟 AI、大模型的能力結(jié)合起來。而騰訊云向量數(shù)據(jù)庫在提出之時,就已經(jīng)看到了企業(yè)在應(yīng)用落地中的痛點(diǎn),用向量數(shù)據(jù)庫在技術(shù)“大腦”中構(gòu)建起一個健康、且旺盛的“海馬體”,為企業(yè)邁進(jìn)大模型時代提供堅實(shí)的基座。
這次 Techo Day 技術(shù)開放日將資料和課件都整合成了一份《騰訊云工具指南》,這份資料技術(shù)含量很高,可以幫助學(xué)習(xí)了解向量數(shù)據(jù)庫的技術(shù)優(yōu)勢和價值應(yīng)用。
編輯:黃飛
?
評論