背景
本篇將為大家闡述亞馬遜云科技大語言模型下沉到具體行業(yè)進行場景以及實施案例的介紹,是亞馬遜云科技官方《基于智能搜索和大模型打造企業(yè)下一代知識庫》系列的第四篇博客。感興趣的小伙伴可以進入官網(wǎng)深入了解其核心組件、快速部署指南以及LangChain集成及其在電商的應用場景。
通用場景:基于企業(yè)內(nèi)部知識庫例如IT/HR信息的問答
制造行業(yè):裝備維保知識庫問答和售后客服
金融行業(yè):智能客服和智能報告生成
教育行業(yè):面向?qū)W生和面向?qū)W校的智能問答機器人
醫(yī)療行業(yè):醫(yī)療論文論文信息檢索
方案架構(gòu)圖如下:
通用場景:基于企業(yè)內(nèi)部知識庫例如IT/HR信息的問答
在該場景下,企業(yè)可利用IT手冊,員工手冊,銷售手冊等構(gòu)建企業(yè)知識庫。使用人員為所有的內(nèi)部員工,幫助員工提升信息獲取的效率,從而提升工作效率。
提問與員工手冊相關(guān)的問題,搜索引擎會首先獲得相關(guān)的預料,然后使用LLM對預料進行信息抽取,過濾和總結(jié),然后直接給出問題答案。
例1:查詢年假時間
例2:查詢上下班時間
制造行業(yè)
行業(yè)場景
制造行業(yè)中相對來說是一個傳統(tǒng)的行業(yè),因為歷史積累,擁有眾多的原始文檔,但是由于大部分企業(yè)處于數(shù)字化轉(zhuǎn)型的初期,無法有效利用這些文檔。因此,其主要訴求為建立一個企業(yè)級的知識庫平臺,利用散落各處的文檔提升企業(yè)運行效率。例如隨著制造業(yè)的發(fā)展,企業(yè)對裝備的維護和保養(yǎng)變得更加重視。裝備維保知識庫問答系統(tǒng)可以提供實時的維護指導,幫助操作員和維修人員解決各種故障和技術(shù)問題。售后客服對于提供優(yōu)質(zhì)的客戶支持至關(guān)重要。裝備的故障和技術(shù)問題可能會對客戶的生產(chǎn)線造成重大影響,因此快速響應和解決問題是必要的。
客戶選擇此方案出于三個考慮:
制造行業(yè)中,許多文檔描述都是比較專業(yè)的知識,所有的描述都需要嚴謹,因此大語言模型的幻覺問題會導致內(nèi)容輸出不可信,反而出現(xiàn)更多不可控的風險;
所有的回答必須精確到具體出處,避免大語言模型生成內(nèi)容出現(xiàn)偏差;
存在大量敏感數(shù)據(jù),包括維保記錄,機械設計圖紙等,使用第三方API調(diào)用的大語言模型有可能存在數(shù)據(jù)泄漏,造成違規(guī)和安全隱患。
典型的使用場景為裝備維保知識庫問答和售后客服。
行業(yè)場景實踐
裝備維保知識庫問答和售后客服
在該場景下,企業(yè)可利用歷史維保記錄,例如故障現(xiàn)象、故障原因、維修手冊、用戶手冊等構(gòu)建企業(yè)知識庫。使用人員為一線維保工程師或者售后客服,結(jié)合檢索和大語言模型,可以直接針對用戶的故障現(xiàn)象,給出具體的原因分析。
例1:裝備維保場景——提問某零件生銹的原因(中文場景)
例2:產(chǎn)品售后場景-提問某指示燈狀態(tài)意義(英文場景)
金融行業(yè)
行業(yè)場景
金融行業(yè)分為銀行、保險、資本市場以及支付多個子垂直行業(yè),基于智能搜索和大模型的知識庫,銀行可以快速準確地回答客戶的各類問題,提供個性化的金融產(chǎn)品推薦和投資建議;保險機構(gòu)可以賦能用戶快速找到適合自己需求的保險產(chǎn)品,并了解保險條款和理賠流程;資本市場成員可以借助其幫助投資者快速獲取和理解市場動態(tài)、公司財務數(shù)據(jù)和分析報告等信息;支付機構(gòu)則建立智能客服系統(tǒng),幫助用戶快速解決支付相關(guān)的問題。
客戶選擇此方案出于三個考慮:
金融行業(yè)中所有的描述都需要嚴謹,數(shù)據(jù)需要精確,因此大語言模型的幻覺問題會導致內(nèi)容輸出不可信,嚴重則損壞企業(yè)形象以及客戶流失;
金融機構(gòu)(如銀行、保險)會提供相關(guān)的咨詢服務,所涉及到的回復必須精確到具體出處,尤其法律法規(guī)相關(guān)內(nèi)容需要和法規(guī)文件完全一致;
金融數(shù)據(jù)存在大量敏感數(shù)據(jù),包括交易、企業(yè)營收、內(nèi)部資產(chǎn)以及個人信息,使用公開的大語言模型有可能在不經(jīng)意間泄漏相關(guān)數(shù)據(jù),造成違規(guī)和安全隱患。
典型的使用場景為智能客服與智能報告生成。
行業(yè)場景實踐
智能客服
智能客服在金融行業(yè)中具有廣泛的應用和場景,包括:
產(chǎn)品和服務咨詢:幫助客戶查詢和了解金融機構(gòu)提供的各類產(chǎn)品和服務。通過自然語言處理和機器學習技術(shù),智能客服可以回答關(guān)于金融產(chǎn)品特性、利率、費用等方面的問題,為客戶提供個性化的產(chǎn)品咨詢。
交易指導和操作支持:智能客服可以指導客戶進行各類金融交易操作,如轉(zhuǎn)賬、存款、理財產(chǎn)品購買等。客戶可以通過與智能客服進行交互,獲取操作步驟和操作指導,提高交易的便捷性和準確性。
投訴和問題解決:智能客服可以處理客戶的投訴和問題,并提供相應的解決方案。通過對客戶問題的分析和分類,智能客服可以快速回答常見問題,同時也可以轉(zhuǎn)接給人工客服處理更復雜的問題,提高問題解決的效率和客戶滿意度。
例 1:金融產(chǎn)品的咨詢
通過提問(如下例)關(guān)于金融產(chǎn)品營收數(shù)據(jù)的分析,搜索引擎會搜索獲得相關(guān)語料,并作為大語言模型的輸入,進行匯總和總結(jié)。
例2:金融專業(yè)知識的咨詢
對于某些金融知識(如GDR,存托憑證等)存在專業(yè)性強、不易理解的特點,傳統(tǒng)客服無法快速理解、整理并得出相關(guān)的結(jié)論來回應該類型的客戶咨詢,造成用戶體驗差。同時對于專業(yè)知識的回應,需要準確且嚴謹?shù)牟牧现蝎@得,因此參考資料的出處也是本場景重要的指標。使用智能搜索和大模型方案可以有效提高內(nèi)容總結(jié)的效果,同時列舉出清晰的數(shù)據(jù)出處,精確到文檔的句和段。
智能報告生成
金融行業(yè)中尤其是資本市場,無論是券商還是二級市場機構(gòu)分析員,均需要對大量的數(shù)據(jù)和報告進行閱讀和分析,同時需要對外輸出各類型的報告,如行研、個股分析、市場分析和展望、投資建議分析等。他們會遇到以下痛點:
時間壓力:分析員通常需要在短時間內(nèi)完成大量的報告撰寫工作,以滿足客戶和市場對即時信息的需求。這給他們帶來了時間上的壓力,可能導致報告的質(zhì)量和深度受到影響。
數(shù)據(jù)整理和處理:撰寫報告需要分析員從各種來源收集、整理和處理大量的市場數(shù)據(jù)、財務數(shù)據(jù)和新聞資訊等信息。手動處理和整理這些數(shù)據(jù)可能耗費大量時間和精力,并且容易出現(xiàn)錯誤。
分析和解釋復雜數(shù)據(jù):分析員需要深入理解和解釋復雜的金融數(shù)據(jù)、財務指標和市場趨勢。這需要投入大量的研究和分析工作,以便提供準確、全面的分析和評估。
信息獲取和更新:分析員需要不斷跟蹤和獲取最新的市場信息、行業(yè)動態(tài)和公司公告等。信息的獲取和更新可能比較困難和耗時,尤其是當信息來源龐雜且分散時。
語言表達和報告風格:撰寫高質(zhì)量的報告需要良好的語言表達能力和清晰的報告風格。然而,分析員可能面臨語言表達的挑戰(zhàn),以及如何將復雜的金融概念和數(shù)據(jù)以簡潔明了的方式傳達給讀者。
通過使用智能搜索和大模型方案,可以在資訊整理理解以及基礎報告生成兩個方面減輕上述問題帶來的成本。
以下例子以大宗商品中的原油為例子,需要寫一篇“關(guān)于原油上漲帶來的風險“的報告:
通過提交相關(guān)的任務指引,包括(但不僅限于):1)任務描述;2)文章規(guī)定的格式、標題和段落;3)文章規(guī)定的分段內(nèi)容和主旨。智能搜索引擎會先進行從已經(jīng)加載的數(shù)據(jù)中獲得相關(guān)內(nèi)容,并將內(nèi)容傳遞到大語言模型,并要求大語言模型按照指引進行內(nèi)容生成和輸出。輸出的報告可以作為基礎內(nèi)容提供給報告撰寫和分析團隊進行二次加工,從而提高生成效率。
教育行業(yè)
行業(yè)場景
針對教育領域和智能教育產(chǎn)品的行業(yè)場景,可以從以下兩個角度來說明,包括學校/老師角度、學生/家長角度。
學校/老師:本方案為基礎來提供創(chuàng)新的在線教育工具,例如AI Class Bot,助力學校和培訓機構(gòu)快速建立在線學習課程,幫助學校提高教學質(zhì)量和效率,也能夠節(jié)省教學資源和成本,減輕老師課程設計和輔導的負擔,拓展教學內(nèi)容和形式,增強教學創(chuàng)新和競爭力。
學生/家長:以本方案為基礎來構(gòu)建智能輔導系統(tǒng),根據(jù)每個學生的水平和進度,生成適合他們的學習內(nèi)容和方法,自適應地生成不同難度和類型的問題和解析,做到實現(xiàn)因材施教和自適應教育。同時還可以構(gòu)建學校與家長之間的智能問答系統(tǒng),可以幫助家長了解孩子的學習情況和需求,提供更多的學習支持和指導。
在教育行業(yè)中,客戶選擇此方案出于三個考慮:
通過本方案可以快速、方便的將課程內(nèi)容導入到知識庫,利用大語言模型形成課程問答機器人。結(jié)合數(shù)字人技術(shù)還可以提供多輪對話的功能,讓教育過程增加更多的趣味性。
通過本方案利用AI/ML技術(shù)實現(xiàn)的用戶正向反饋功能,可以幫助每個學生實時反饋搜索結(jié)果的權(quán)重,從而優(yōu)化自己的知識庫模型,以便實現(xiàn)自適應學習的目標。
通過本方案可以把學校已知的資料以及散落在互聯(lián)網(wǎng)的資料統(tǒng)一匯集到知識庫,包括各種非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),讓家長更加快捷的查找所要的信息。
典型場景為面向?qū)W生的問答機器人和面向?qū)W校的問答機器人。
行業(yè)場景實踐
例1:學生場景的問答機器人(AI Class Bot)-英文單詞學習的AI客服機器人
針對英文單詞學習領域,將現(xiàn)有英文單詞學習過程中的相關(guān)FAQ知識庫導入現(xiàn)有方案中,該知識庫文件中包含了眾多在英文單詞學習過程中的客戶問題以及處理辦法,通過本方案的知識庫上傳功能,將數(shù)據(jù)導入到知識庫系統(tǒng)中。
本例中,我們希望客服機器人的答案一定是要基于知識庫的范圍內(nèi)進行作答,如果不在知識庫的范圍,要回答“根據(jù)已知知識無法回答該問題”,也就是說我們要避免大語言模型的幻覺問題。基于這個要求,普通的大預言模型在回答用戶問題時可以有一定的創(chuàng)新性,也就是模型可以設置temperature值,以控制大語言模型的創(chuàng)新性。但是就算設置非常低的值,也不能保證大語言模型不自己創(chuàng)新的回答用戶問題。
本方案針對該需求增加了置信度(evidence)的判斷,對于大語言模型給出的答案與用戶的問題、知識庫的搜索結(jié)果都做了相似度計算,低于某個值就返回用戶“無法回答該問題”。如下圖所示:
有一些問題在知識庫的范疇內(nèi),問答機器人就可以回答,如下圖:
例2:學校場景的問答機器人(AI School Bot)–報考志愿問答機器人
面臨中考、高考的考生家長相對比較焦慮,他們需要掌握更多的學校信息以便和自己孩子的學習情況做比較,選擇更加適合自身的學校和未來的報考專業(yè)。以下是一個詢問中學信息的問答場景,我們僅僅導入了幾個國際學校的數(shù)據(jù)到知識庫,希望問答機器人在知識庫的范疇內(nèi)回答問題,同時需要給出答案的置信度。如下圖所示:
當問詢某個國際學校的課程信息時,問答機器人將做如下回答:
醫(yī)療行業(yè)
行業(yè)場景
醫(yī)療行業(yè)有大量文檔,其中既包括敏感資料如藥物臨床研究數(shù)據(jù),患者健康數(shù)據(jù),藥研實驗數(shù)據(jù),也包括大量的公開數(shù)據(jù)集如基因數(shù)據(jù),醫(yī)學論文等。然而,作為一個歷史悠久等行業(yè),很多醫(yī)院與企業(yè)仍然處于數(shù)字化轉(zhuǎn)型的初期,存在數(shù)據(jù)量大,格式不統(tǒng)一,閱讀理解難等問題。醫(yī)療健康領域數(shù)字化轉(zhuǎn)型,降低醫(yī)學數(shù)據(jù)的使用門檻一直是該領域的重要方向。具體來看:
藥物研發(fā):通過整合藥物設計的公開論文與內(nèi)部文檔為藥企提供藥物設計的知識庫,通過關(guān)鍵詞快速了解藥理活性,作用位點,毒理,適用病理等信息,幫助企業(yè)提高研發(fā)迭代速度、提升研發(fā)效率、降低研發(fā)成本和提升項目整體成功率。
就醫(yī)知識庫:整合FAQ咨詢數(shù)據(jù)、藥品說明書、患者病歷、醫(yī)學指南、醫(yī)學書籍、醫(yī)學論文、專業(yè)網(wǎng)站、專家錄入數(shù)據(jù)等數(shù)據(jù)源,構(gòu)建“疾病-癥狀-藥品-診斷-人群”的私有知識庫以及基于知識庫的醫(yī)藥大健康智能專家虛擬助理。
典型場景是醫(yī)療論文信息檢索。
行業(yè)場景實踐
醫(yī)療論文信息檢索
本次場景演示中,我們從亞馬遜云科技的公開數(shù)據(jù)集中選取大家非常最常使用的NCBI數(shù)據(jù)集,并選擇2023年度的一個子數(shù)據(jù)集作為樣本數(shù)據(jù),供測試。
為了方便測試,我們清洗一部分血液病相關(guān)的論文作為測試數(shù)據(jù)集,使用一些常見的血液病問題進行提問,平臺將會從相應的數(shù)據(jù)集中進行召回,并根據(jù)prompt來生成相應的內(nèi)容??紤]到醫(yī)療相關(guān)的論文都為英文,我們本次測試中,都使用的是擅長英文的開源大模型進行測試。
由于論文數(shù)據(jù)多樣、還會有歷史等不同信息等,所以在實際使用中,有可能需要通過不同的關(guān)鍵詞、句來召回最適合您使用場景的結(jié)果。
而對于知識庫沒有的數(shù)據(jù),平臺將會召回“Not found answer” 或者“I don’t know”。這是確保在醫(yī)療、生命科學場景,對于不確認的信息,規(guī)避無效數(shù)據(jù)的回復。
由于論文數(shù)據(jù)的龐大,新舊數(shù)據(jù)的沖突等各種原因,在實際使用過程,我們建議用戶您根據(jù)自己的實際情況、使用場景的需求,對于論文、內(nèi)部科研數(shù)據(jù)、任何您需要使用的數(shù)據(jù)做一次提前的清理,比如,最保留最新數(shù)據(jù)等。這樣保證數(shù)據(jù)在召回時候更符合您的需求。
總結(jié)
在日常使用大語言模型的過程中,兩個比較突出的問題是不能被忽視的。它們分別是:
幻覺問題(Hallucination)
數(shù)據(jù)泄露(Data Leakage)
幻覺問題是自然語言處理領域中的基礎問題之一,指文本生成模型的生成結(jié)果中含有與輸入事實上沖突的內(nèi)容,即結(jié)果可能出現(xiàn)虛構(gòu)和捏造事實的情況。數(shù)據(jù)泄露問題是指用戶在使用市面上大語言模型過程中,會主動或不經(jīng)意間傳入的可能涉及到商業(yè)機密、個人隱私、企業(yè)管理等敏感數(shù)據(jù),造成數(shù)據(jù)泄露的問題。本方案的架構(gòu)設計能夠有效解決上述兩個問題。
綜上所述,基于智能搜索和大語言模型結(jié)合方案為不同行業(yè)場景構(gòu)建GAI應用,達到:
制造行業(yè):通過構(gòu)建智能企業(yè)知識庫,有效整合制造業(yè)中的各類資料,并應用AI技術(shù),將其快速轉(zhuǎn)化為可信、準確的知識資源,提供給內(nèi)部員工,從而極大地提升他們獲取專業(yè)信息的效率。
金融行業(yè):精準的命中金融行業(yè)中多種過去只能依靠人工處理的場景,使用AI/ML的技術(shù)為金融客戶降本增效,并助力客戶主動挖掘更多業(yè)務場景,在保證數(shù)據(jù)安全可控的前提下加速AI/ML對業(yè)務創(chuàng)新的效率;
教育行業(yè):通過GAI技術(shù),我們可以根據(jù)每個學生的水平和進度,生成適合他們的學習內(nèi)容和方法,自適應地生成不同難度和類型的問題和解析,做到實現(xiàn)因材施教和自適應教育。
醫(yī)療行業(yè):通過生成式AI技術(shù),我們可以讓更多生命科學的工作者,可以從海量的知識信息中,更容易獲取、提取所需要的臨床、科研等信息,更好的為我們每個人的身體健康保駕護航。
審核編輯 黃宇
-
測試
+關(guān)注
關(guān)注
8文章
5706瀏覽量
128903 -
亞馬遜
+關(guān)注
關(guān)注
8文章
2696瀏覽量
84692 -
LLM
+關(guān)注
關(guān)注
1文章
325瀏覽量
847
發(fā)布評論請先 登錄
《AI Agent 應用與項目實戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識庫
學習STM32必備的知識庫
基于知識庫的智能策略翻譯技術(shù)
一種基于解釋的知識庫綜合
面向抗攻擊能力測試的攻擊知識庫設計
領域知識庫的研究與設計
HTML5知識庫精選
本體知識庫的模塊與保守擴充
虛擬儀器知識庫文件的結(jié)構(gòu)組成和知識庫文件自動生成器的設計與應用

復雜知識庫問答任務的典型挑戰(zhàn)和解決方案
借助亞馬遜云科技大語言模型等多種服務打造下一代企業(yè)知識庫

騰訊ima升級知識庫功能,上線小程序?qū)崿F(xiàn)共享與便捷問答
基于華為云 Flexus 云服務器 X 搭建部署——AI 知識庫問答系統(tǒng)(使用 1panel 面板安裝)

評論