AIGC(人工智能內容自動生成技術)代表著AI技術從感知、理解世界到生成、創(chuàng)造世界的躍遷,正推動人工智能迎來下一個時代。經過了2022年的預熱,2023年AIGC領域將迎來更大發(fā)展。AIGC生成內容的類型不斷豐富、質量不斷提升,也將有更多的企業(yè)積極擁抱AIGC。在這個背景下,騰訊研究院正式發(fā)布《AIGC發(fā)展趨勢報告2023:迎接人工智能的下一個時代》。報告從技術發(fā)展和產業(yè)生態(tài)、應用趨勢、治理挑戰(zhàn)等維度,對AIGC的發(fā)展趨勢進行了深入思考。報告指出,AIGC將作為生產力工具,不斷推動聊天機器人、數(shù)字人、元宇宙等領域發(fā)展。AIGC技術讓聊天機器人接近人類水平日益成為現(xiàn)實,AIGC也在大大提升數(shù)字人的制作效能,并且使其更神似人。在元宇宙領域,AIGC在構建沉浸式空間環(huán)境、提供個性化內容體驗、打造智能用戶交互等方面發(fā)揮重要作用。
AIGC發(fā)展趨勢報告(2023)簡介
2022年是 AIGC(AI-Generated Content,人工智能生成內容)爆火出圈的一年,不僅被消費者追捧,而且備受投資界關注,更是被技術和產業(yè)界競相追逐。
2022年9月23日,紅杉中國發(fā)表文章《生成式AI:一個創(chuàng)造性的新世界》,認為AIGC會代表新一輪范式轉移的開始。2022年10月,Stability AI 獲得約1個億美元融資,估值高達10億美元,躋身獨角獸行列。Stability AI發(fā)布的開源模式 Stability Diffusion ,可以根據(jù)用戶輸入的文字描述(稱為提示詞,prompts)自動生成圖像,即文生圖(Text-to-Image,T2I)。Stability Diffusion、DALL-E 2、Midjourney 等可以生成圖片的 AIGC 模型引爆了 AI 作畫領域,AI 作畫風行一時,標志人工智能向藝術領域滲透。
2022年12月,Open AI 的大型語言生成模型 ChatGPT 刷爆網絡,它能勝任刷高情商對話、生成代碼、構思劇本和小說等多個場景,將人機對話推向新的高度,讓網友不禁懷疑 ChatGPT 是否已經具備人類智能。全球各大科技企業(yè)都在積極擁抱 AIGC,不斷推出相關技術、平臺和應用。
01 AIGC技術和產業(yè)生態(tài)迎來發(fā)展快車道
1、生成算法、預訓練模式、多模態(tài)等AI技術累計融合,催生了AIGC的大爆發(fā)
一是基礎的生成算法模型不斷突破創(chuàng)新;二是預訓練模型引發(fā)了AIGC技術能力的質變;三是多模態(tài)技術推動了AIGC的內容多邊形,讓AIGC具有了更通用的能力。
總的來看,AIGC在2022年的爆發(fā),主要是得益于深度學習模型方面的技術創(chuàng)新。不斷創(chuàng)新的生成算法、預訓練模型、多模態(tài)等技術融合帶來了AIGC技術變革,擁有通用性、基礎性、多模態(tài)、參數(shù)多、預練數(shù)據(jù)量大、生成內容高質穩(wěn)定等特征的AIGC模型成為了自動化內容生產的“工廠”和“流水線”。
2、AIGC產業(yè)生態(tài)加速形成和發(fā)展,走向模型及服務(MaaS)的未來
目前,AIGC產業(yè)生態(tài)體系的雛形已現(xiàn),呈現(xiàn)為上中下三層架構:
第一層為上游基礎層,也就是由預訓練模型為基礎搭建的AIGC技術基礎設施層。由于預訓練模型的高成本和技術投入,因此具有較高的進入門檻。
第二層為中間層,即垂直化、場景化、個性化的模型和應用工具。預訓練的大模型是基礎設施,在此基礎上可以快速抽取生成場景化、定制化、個性化的小模型,實現(xiàn)在不同行業(yè)、垂直領域、功能場景的工業(yè)流水線式部署,同時兼具按需使用、高效經濟的優(yōu)勢。
第三層為應用層,即面向C端用戶的文字、圖片、音視頻等內容生成服務。在應用側,側重滿足用戶的需求,將AIGC模型和用戶的需求無縫銜接起來實現(xiàn)產業(yè)落地。
隨著數(shù)字技術與實體經濟融合程度不斷加深,以及互聯(lián)網平臺的數(shù)字化場景向元宇宙轉型,人類對數(shù)字內容總量和豐富程度的整體需求不斷提高。AIGC作為當前新型的內容生產方式,已經率先在傳媒、電商、影視、娛樂等數(shù)字化程度高、內容需求豐富的行業(yè)取得重大創(chuàng)新發(fā)展,市場潛力逐漸顯現(xiàn)。與此同時,在推進數(shù)實融合、加快產業(yè)升級的進程中,金融、醫(yī)療、工業(yè)等各行各業(yè)的AIGC應用也都在快速發(fā)展。
02 消費端:AIGC牽引數(shù)字內容領域全新變革
1、AIGC有望塑造數(shù)字內容生產與交互新范式,成為互聯(lián)網的內容生產基礎設施
數(shù)字內容邁入強需求、視頻化、拼創(chuàng)意的螺旋式升級周期,AIGC在這階段的發(fā)展迎合了這一需要。AIGC正在成為越來越多地參與數(shù)字內容的創(chuàng)意性生成工作,以人機協(xié)同的方式釋放價值,成為未來互聯(lián)網的內容生產基礎設施。
2、AIGC的應用生態(tài)和內容消費市場逐漸繁榮
而今在內容消費領域,AIGC已經重構了整個應用生態(tài)。作為當前新型的內容生產方式,AIGC已經率先在傳媒、電商、影視、娛樂等數(shù)字化程度高、內容需求豐富的行業(yè)取得重大創(chuàng)新發(fā)展,市場潛力逐漸顯現(xiàn)。2022年,AIGC發(fā)展速度驚人,迭代速度呈現(xiàn)指數(shù)級爆發(fā),谷歌、Meta、百度等平臺型巨頭持續(xù)布局,也有Stability AI、Jasper AI等獨角獸創(chuàng)業(yè)公司問世。根據(jù)6pen預測,未來五年10%-30%的圖片內容由AI參與生成,有望創(chuàng)造超過600億以上市場空間,若考慮到下一代互聯(lián)網對內容需求的迅速提升,國外商業(yè)咨詢機構Acumen Research and Consulting預測,2030年AIGC市場規(guī)模將達到1100億美元。
3、AIGC將日益成為未來3D互聯(lián)網的基礎支撐
互聯(lián)網向下一代技術升級和演進的重要方向是從“在線”走向“在場”,邁向3D互聯(lián)網時代,AIGC將成為打造虛實集成世界的基石。AIGC為3D互聯(lián)網帶來的價值,既包括3D模型、場景、角色制作能效的提升,也能像AI作畫那樣,為創(chuàng)作者激發(fā)新的靈感。
4、聊天機器人和數(shù)字人成為新的、更包容性的用戶交互界面,不斷拓展應用領域
(1)聊天機器人:2022年12月1日,美國人工智能研究公司Open AI研發(fā)的聊天機器人產品ChatGPT正式對外開放,一經推出便火遍全網,截止12月12日已擁有超過100萬名用戶,而ChatGPT正是典型的文本生成式AIGC。
(2)數(shù)字人:首先AIGC大大提升了數(shù)字人的制作效能。用戶可以上傳圖片/視頻,通過AIGC生成寫實類型的數(shù)字人,具有生成過程較短、成本低、可定制等特點。其次,AIGC支撐了AI驅動數(shù)字人多模態(tài)交互中的識別感知和分析決策功能,使其更神似人。
5、AIGC將作為生產力工具來推動元宇宙發(fā)展
近期,Linkedln做了一個調查,向Linkedln用戶征集他們最希望了解哪個元宇宙相關的技術主題,76%的受訪者選擇了AIGC。只有通過AIGC,元宇宙才可能以低成本、高效率的方式滿足海量用戶的不同內容需求。首先,AIGC為構建沉浸式的元宇宙空間環(huán)境提供了核心基礎設施技術,將成為元宇宙的生產力工具。其次,AIGC將作為生產力工具為元宇宙用戶提供個性化內容體驗。同時,AIGC將賦予用戶更多的創(chuàng)作權力和自由,促進創(chuàng)新并提升元宇宙的用戶體驗。最后,AIGC也將作為用戶交互界面的一部分在元宇宙中發(fā)揮作用。
03 產業(yè)端:合成數(shù)據(jù)牽引人工智能的未來
1、合成數(shù)據(jù)為AI模型訓練開發(fā)提供強大助推器,推動實現(xiàn)AI2.0
人工智能的發(fā)展應用離不開數(shù)據(jù),但真實世界數(shù)據(jù)面臨著難以獲取、質量差、標準不統(tǒng)一等諸多問題。為此,計算機模型技術或算法生成的合成數(shù)據(jù),作為真實數(shù)據(jù)的廉價替代品,日益被用于創(chuàng)造精準的AI模型。
2、合成數(shù)據(jù)助力破解AI“深水區(qū)”的數(shù)據(jù)難題,持續(xù)拓展產業(yè)互聯(lián)網應用空間
合成數(shù)據(jù)背后的生成式AI被Gartner評為2022年銀行和投資服務領域越來越受歡迎的三項技術之一。原因是能夠通過合成數(shù)據(jù)以成本更低、易規(guī)?;?、隱私保護合規(guī)的方式提供接近真實世界的數(shù)據(jù)。
3、合成數(shù)據(jù)產業(yè)加快成為數(shù)據(jù)要素市場新賽道,科技大廠和創(chuàng)新企業(yè)搶先布局
合成數(shù)據(jù)對人工智能未來發(fā)展的巨大價值使其加速成為AI領域的一個新產業(yè)賽道。一方面,國外的主流科技公司紛紛瞄準合成數(shù)據(jù)領域加大投入與布局。
另一方面,合成數(shù)據(jù)作為AI領域的新型產業(yè),相關創(chuàng)新創(chuàng)業(yè)方興未艾,合成數(shù)據(jù)創(chuàng)業(yè)公司不斷涌現(xiàn),合成數(shù)據(jù)領域的投資并購持續(xù)升溫,開始涌現(xiàn)了合成數(shù)據(jù)即服務(synthetic data as serve,SDaaS )這一發(fā)展前景十分廣闊的全新商業(yè)模式。
4、合成數(shù)據(jù)加速構建AI賦能、數(shù)實融合的大型虛擬世界
展望未來,可以從三個方面來理解大型虛擬世界為什么成為AI數(shù)實融合的關鍵場景。
第一,大型虛擬世界可以提供人工智能開發(fā)所需的數(shù)據(jù)和場景,為AI應用開發(fā)提供“加速度”。第二,大型虛擬世界為各行各業(yè)訓練開發(fā)AI提供了試驗田。第三,在大型虛擬世界中通過AI連通虛擬與現(xiàn)實,實現(xiàn)AI數(shù)實融合。
ChatGPT商業(yè)化意義
(報告出品方:中信證券)
1. ChatGPT通過大模型突破AI瓶頸,GPT-4多模態(tài)應用帶動商業(yè)化加速
概述:ChatGPT為NLP下的AI大模型,性能和使用體驗超預期
ChatGPT是自然語言處理(NLP)下的AI大模型,通過大算力、大規(guī)模訓練數(shù)據(jù)突破AI瓶頸。2022年11月,OpenAI推 出ChatGPT,ChatGPT基于GPT-3.5,使用人類反饋強化學習技術,將人類偏好作為獎勵信號并微調模型,實現(xiàn)有邏輯 的對話能力。
ChatGPT本質上是通過超大的統(tǒng)計語言模型,對詞語序列的概率分布進行建模,利用上下文信息預測后續(xù)詞語出現(xiàn)的概 率分布,其表現(xiàn)的超預期反映了在算力水平提升的情況下大語言模型技術路線的成功,通過對大規(guī)模的未標注的文本數(shù)據(jù) 進行訓練,突破了AI發(fā)展的技術瓶頸。根據(jù)《瞭望》新聞周刊報道,OpenAI為了讓ChatGPT的語言合成結果更自然流 暢,使用了45TB的數(shù)據(jù)、近1萬億個單詞來訓練模型,訓練一次的成本高達千萬美元,一個月的運營成本需要數(shù)百萬美元。
概述:OpenAI傾力打造ChatGPT,獲得微軟有力加持
ChatGPT出自美國AI創(chuàng)業(yè)公司OpenAI,是AI大模型領域的領軍者。OpenAI在2015年由Sam Altman、Peter Thiel、Reid Hoffman、Elon Musk等人創(chuàng)辦。公司成立之初,即確定了包括制造“通用”機器人和使用自然語言的聊天機器人的發(fā)展 目標。2019年,OpenAI獲得來自微軟的10億美元投資,為Azure云端平臺服務開發(fā)AI技術。2018年起,OpenAI開始發(fā)布 GPT(Generative Pre-trained Transformer)模型,2020年發(fā)布GPT-3,可以完成答題、寫論文、代碼生成等任務,被視 為人工智能競賽的里程碑事件,并直至ChatGPT的推出引起AI的熱潮。
除了NLP領域,OpenAI還在多模態(tài)領域取得成就,包括發(fā)布了AI圖像生成器DALL-E2,對音頻轉錄編輯器Descript、AI筆 記應用Mem等進行投資。
演變:GPT-1—無監(jiān)督預訓練+有監(jiān)督微調
GPT-1發(fā)布于2018年6月,參數(shù)量達1.17億,預訓練數(shù)據(jù)量約5GB。GPT-1包含預訓練和微調兩個階段,考慮到自然語言 處理任務中有標簽的語料少,GPT-1先在大量的無標簽數(shù)據(jù)上訓練語言模型,然后在下游具體任務(如分類、常識推理、 自然語言推理等)的有標簽數(shù)據(jù)集上進行微調。1)在無監(jiān)督訓練中,GPT-1采用Transformer的架構,即標準的語言模型 的目標函數(shù),通過前面的詞預測后面的詞;2)在有監(jiān)督訓練中,采用標準的分類目標函數(shù),僅需對第一階段預訓練的語 言模型做出很小的結構改變,即可應用于各種下游任務。
GPT-1使用了BooksCorpus數(shù)據(jù)集來訓練語言模型,其中有7000余本未出版的書籍。具體表現(xiàn)上,在有監(jiān)督學習的12項 任務中,GPT-1在其中9項上的表現(xiàn)優(yōu)于專門訓練的受監(jiān)督模型。
演變:GPT-2—無監(jiān)督預訓練+多任務學習
GPT-2發(fā)布于2019年2月,參數(shù)量達15億,預訓練數(shù)據(jù)量約40GB。GPT-1使用的概率條件模型為p(output|input),GPT-2 使用相同的無監(jiān)督模型學習多個任務,將概率條件模型修改為p(output|input, task) ,期望模型對不同任務的相同輸入產 生不同的輸出。此外,GPT-2采取Zero-shot設定,不需要下游任務的標注信息,而是根據(jù)給定的指令理解任務。因此 GPT-2的核心思想在于多任務學習。
GPT-2訓練的數(shù)據(jù)集來自社交新聞平臺Reddit,共有約800萬篇文章,體積超40GB。具體表現(xiàn)上,在8個語言模型任務 中,僅通過Zero-Shot學習,GPT-2在其中7個上領先。GPT-2表明,隨著模型容量和數(shù)據(jù)量增大,GPT模型的潛力仍有望 進一步顯現(xiàn)。
展望:GPT-4—此前外界預期參數(shù)量變化不大、使用門檻有望降低
GPT-4備受業(yè)界期待,訓練成本控制有望帶動商業(yè)潛力的極大增強。ChatGPT的突出表現(xiàn)使得外界對GPT-4十分期待, 自2021年以來便有報道稱GPT-4“即將推出” ,OpenAI公司CEO Sam Altman今年受StrictlyVC采訪時表示GPT-4將在 “有信心可以安全且負責任地運行時”推出。外界此前也曾預期,GPT-4的推出或分階段進行,例如GPT-3也是先開放給 合作伙伴、付費用戶和學術機構,才在2022年底開放給公眾。
在參數(shù)量上,針對有傳言稱GPT-4參數(shù)量將達到百萬億,OpenAI公司CEO Sam Altman予以否定。此外,AI專家Alberto Romero預測,GPT-4的重點在數(shù)據(jù)處理優(yōu)化上,因此其使用門檻有望降低,我們預計訓練成本的控制將帶動其商業(yè)潛力 的增強。
展望:GPT-4—最新消息稱推出在即、支持多模態(tài)
最新消息稱GPT-4將于下周推出,支持多模態(tài)應用,開啟通往人工通用智能之路。根據(jù)德國科技媒體“heise在線”報 道,當?shù)貢r間3月9日,微軟德國公司首席技術官Andreas Braun在名為“AI in Focus - Digital Kickoff”的活動中透露稱 “將在下周推出GPT-4,它將是一個多模態(tài)模型,會提供完全不同的可能性——例如視頻”。這意味著GPT-4可以管理不 同語言數(shù)據(jù)的輸入和輸出,也能夠做到輸出圖像甚至視頻。在活動上,微軟AI技術專家對多模態(tài)AI的應用案例進行了介 紹,例如能夠將電話呼叫的語音直接記錄成文本,這為微軟位于荷蘭的一家大型客戶節(jié)省500個工作小時/天。
GPT-4對多模態(tài)的支持使得外界對模型潛力的預期進一步強化,原因在于多模態(tài)感知是建立人工通用智能(AGI)的重要 一步,基于此能夠執(zhí)行人類水平的一般任務。
商業(yè)模式:C端推出訂閱制會員,B端提供調用API接口
ChatGPT迅速走紅,以訂閱制服務B端、C端客戶,成本控制下將有效加速商業(yè)化落地。ChatGPT自年初以來,持續(xù)出 圈,截至2023年1月末月活突破1億,成為史上增長最快的消費者應用??紤]到計算資源所牽涉的龐大訓練成本、運行成 本,ChatGPT的商業(yè)化路徑已正在探索、明確中。
商業(yè)模式—1)C端:OpenAI發(fā)布ChatGPT Plus訂閱計劃,每月收費20美元,相較于免費版本,即便在高峰時段用戶也 能正常訪問ChatGPT,響應時間更快,可以優(yōu)先使用新功能,有望引領AI技術變現(xiàn)新模式;2)B端:OpenAI發(fā)布 ChatGPT API,開發(fā)者可以將ChatGPT集成到產品中,價格為$0.002/1k token,相較于GPT-3.5降低90%,我們預計成 本控制后有望快速帶動GPT相關應用爆發(fā)。根據(jù)微信公眾號“智東西” ,生鮮電商Instacart、跨境電商Shopify、照片分 享應用Snap、單詞背誦應用Quizlet等已率先接入ChatGPT API。
2.Transformer架構支撐GPT走向多模態(tài),構筑AIGC領域核心基石
GPT采用的Transformer架構在NLP領域已躋身主流
GPT沿用主流Transformer模型,該模型采用自注意力機制,在NLP上表現(xiàn)優(yōu)于RNN(循環(huán)神經網絡)。2017年,谷歌 在《Attention is All You Need》中提出Transformer模型,可用于文本摘要、機器翻譯等NLP任務。在NLP方面, Transformer模型的自注意力(self-attention)機制可以為輸入序列中的任意位置提供上下文,進而模型能夠一次性處理 所有輸入數(shù)據(jù),而非RNN一次只處理一個單詞的情況,由此模型可以減少訓練時間,能夠在更大的數(shù)據(jù)集上進行訓練。目前,基于Transformer的預訓練語言模型已成為NLP領域的主流。
Transformer也可用于CV領域,相較于CNN實現(xiàn)性能巨大提升
Transformer也可用于CV(計算機視覺)領域,表現(xiàn)出巨大的性能提升。CV領域此前更多由CNN(卷積神經網絡)主 導,而Transformer憑借著自注意力機制,表現(xiàn)出了巨大的性能提升。根據(jù)微軟亞洲研究院,Transformer在圖像分類、物 體檢測等任務中刷新了測評記錄,例如2020年Transformer被首次應用于圖像分類任務,結合海量的預訓練數(shù)據(jù),ViT在 ImageNet-1K的validation評測集上取得88.55%的準確率。Transformer也在視頻動作識別、視覺自監(jiān)督學習、圖像復原、 圖像分割等視覺任務中取得優(yōu)異成績。谷歌提出的ViT-MoE模型目前在參數(shù)量上領先,達到了150億。
Transformer支撐下GPT有望走向多模態(tài),構筑AIGC領域核心基石
GPT有望基于Transformer延伸至多模態(tài),構筑AIGC核心基石,GPT-4或實現(xiàn)領跑。當前,基于Transformer的多模態(tài)學 習成為AI領域的研究熱點,研究者們提出了大量的Transformer變體。鑒于Transformer具有較少的特定于模態(tài)的架構假 設,以及生成式預訓練、大模型&大數(shù)據(jù)路線的成功,Transformer能夠聯(lián)動CV與NLP,通過聯(lián)合建模完成,打破CV與 NLP領域之間的壁壘。微軟亞洲研究院2022年推出BEiT-3預訓練模型,在目標檢測、實例分割、語義分割、視覺推理、 圖片描述生成等任務上取得了SOTA的遷移性能。我們認為,基于Transformer架構,GPT未來有望延伸至多模態(tài),助力 內容創(chuàng)作由UGC、PGC全面走向AIGC,賦能通用領域以及金融、教育、醫(yī)療、傳媒等垂直行業(yè)。
3.通用與垂直場景多點開花,GPT變革內容生成與交互方式
通用場景:搜索引擎—GPT+文本&圖像&視頻重塑搜索結果呈現(xiàn)方式
搜索引擎接入GPT后結果呈現(xiàn)方式大為變化,或影響行業(yè)盈利模式與競爭格局。用戶使用傳統(tǒng)的搜索引擎時,需要手動 翻閱搜索結果,判斷是否為所需要的信息;而當搜索引擎接入GPT后,用戶可直接獲得答案集合。盡管受制于訓練語料、 成本等因素,答案準確性有待商榷,但在結果呈現(xiàn)方式上實現(xiàn)了變革,未來或與傳統(tǒng)的搜索引擎相結合。如進一步實現(xiàn)多 模態(tài),搜索結果將更加豐富。微軟在Bing中上線ChatGPT能力并開啟測試,以聊天方式展示搜索結果,并可在對話中推 薦廣告。微軟必應官方博客宣布,目前Bing日活突破1億,集成搜索+聊天功能的Bing預覽版自推出以來總聊天次數(shù)已超 過4500萬次。鑒于微軟可能掀起搜索行業(yè)的第二次變革并顛覆此前的盈利模式,谷歌在2月初展示由大型語言模型LaMDA 驅動的類ChatGPT應用——Bard,并計劃大范圍推廣。
通用場景:辦公軟件—GPT+文本&圖像打造效率型生產力工具
GPT有望融入辦公流程,率先推動辦公軟件轉型為智能辦公平臺。微軟將于3月16日召開名為“Future of Work with AI” 的發(fā)布會,預計將展示ChatGPT類技術在Teams、Word、Outlook等生產力套件中的應用。我們認為,在GPT的賦能之 下,辦公軟件作為效率型生產力工具的屬性將更加突出,功能上將更加智能化,用戶有望享受到智能辦公平臺所帶來的便 利性與效率大幅提升。例如,在Word中,GPT將能夠幫助用戶生成文本,或將文檔集匯總為關鍵點,使得用戶快速理解 和分析信息;在Outlook中,GPT可以處理收件箱文本,幫助用戶更快捷地撰寫或回復電子郵件;在Excel中,能夠根據(jù)提 示提取數(shù)據(jù),如要求“按照利潤列出世界前五大公司”后,生成Excel公式或制作可視化圖表。
垂直場景:教育—GPT+文本&對話&翻譯催化啟發(fā)式、個性化教學
GPT有望催化“啟發(fā)式”教學模式,加快教育領域的個性化、多樣化變革探索。ChatGPT可以理解為一名“全能教 師” ,即便是小眾、冷門的領域,也能夠給出相對有邏輯的回答。我們認為,GPT技術將催化“啟發(fā)式”教學模式,引導 學生更加積極主動地進行思考、發(fā)問,并與“全能教師”進行對話探討,這有別于傳統(tǒng)的應試教學模式。
垂直場景:金融—GPT+文本&對話賦能客戶服務、投研支持
GPT有望對金融行業(yè)的經營、管理、產品營銷及客戶服務等方面產生巨大影響。近年來,金融機構在合規(guī)趨嚴、人力成 本上升等因素的影響下,對于數(shù)字化建設的意愿強烈??紤]到ChatGPT在內容生成等方面的突出表現(xiàn),我們認為,GPT 有望率先落地對外的客戶服務與對內的投研支持。以銀行業(yè)為例,電子客服仍處于AB判斷階段,引入GPT將更好地服務 于客戶需求;在證券、基金業(yè),個人投資者存在的大量疑惑將可通過GPT解決,機構投資者在投研中也將獲得來自GPT 的協(xié)作。GPT有望重構金融行業(yè)客戶服務端,也有望進一步增強機構內部的投研能力,助力經營效率提升與成本優(yōu)化。
垂直場景:醫(yī)療—醫(yī)療信息化廠商卡位核心系統(tǒng),助力構建GPT能力
醫(yī)療信息化公司作為醫(yī)療機構信息化底座提供者,有望助力構建GPT能力。根據(jù)復旦大學附屬華山醫(yī)院信息中心主任黃 虹在接受第一財經采訪時透露的情況,醫(yī)院內部落地GPT的場景包括:就醫(yī)導診,以提升醫(yī)療效率;構建內部知識庫,以 提升臨床研究效率;匯集歷史病歷,輔助醫(yī)生提升電子病歷書寫效率。考慮到醫(yī)院本身在信息化能力上的相對薄弱,我們 認為以創(chuàng)業(yè)慧康、衛(wèi)寧健康、醫(yī)渡等為代表的醫(yī)療信息化公司作為醫(yī)院內部系統(tǒng)的供應商,有望幫助醫(yī)院構建GPT能力。
互聯(lián)網醫(yī)療平臺卡位線上問診,GPT有望助力問診效率大幅提升。2020年疫情爆發(fā)以來,互聯(lián)網醫(yī)院憑借著突破時空限 制、免接觸等優(yōu)勢,迎來快速發(fā)展。平安好醫(yī)生、阿里健康、京東健康等平臺搭建了輕問診模式,主要通過自有醫(yī)生、外 部簽約醫(yī)生提供問診服務。我們認為,GPT可以用于在線問診支持,為用戶提供基本的、常規(guī)化的問診服務。這將助力互 聯(lián)網醫(yī)療平臺實現(xiàn)問診效率的大幅提升,問診服務的供給能力將不再受制于鏈接的醫(yī)生數(shù)量。
垂直場景:圖像視頻—GPT+圖像&視頻強化內容智能化生產與處理
GPT有望改變圖像視頻領域內容生產模式,多模態(tài)提高信息輸出豐富度。圖像視頻行業(yè)新老業(yè)態(tài)交織,構成相對多元, 以生產和傳播文字、圖像、藝術、影像、聲音等形式存在,包括報紙、圖書、廣播、電影、電視、動漫等諸多細分領域。從產業(yè)鏈條來看,圖像視頻行業(yè)主要涉及信息采集、制作、分發(fā)、傳播等,我們認為GPT將主要影響產業(yè)鏈前端的采集、 制作。結合中國信通院《AIGC白皮書》,我們預計在GPT賦能之下,特別是對多模態(tài)的延伸,圖像視頻行業(yè)有望進一步 提高寫稿機器人、采訪助手、視頻智能剪輯、合成主播等新興應用的供給能力,既改變內容生產模式,也滿足信息接收者 對豐富內容的需求。
ChatGPT在傳媒行業(yè)的應用場景示例
(報告出品方/作者:浙商證券,姚天航)
ChatGPT火爆的背后 算法革新+算力支持+數(shù)據(jù)共振
ChatGPT火爆全球,成為現(xiàn)象級互聯(lián)網產品
ChatGPT是一個由OpenAI開發(fā)的大型語言模型,它使用自然語言處理和深度學習技術,可以理解語言內容和語境,能夠承認錯 誤、挑戰(zhàn)不正確的前提、拒絕不適當?shù)恼埱?,通過生成自然語言文本的形式與用戶交互,從而能夠應用于各種語言任務和應用。
從AlphaGo到ChatGPT,AI技術發(fā)展叩響AGI之門
AlphaGo喚起AGI暢想。AlphaGo的成功使市場對AI 技術產生空前期待,預想AI將由專用人工智能(ANI)走 向通用人工智能(AGI),實現(xiàn)人類同等能力的任務執(zhí)行。AGI遇技術難關,發(fā)展相對停滯。隨后幾年間面向AGI 的應用和底層技術的發(fā)展不盡如人意,遇數(shù)據(jù)、能耗、 語義理解、可解釋性等瓶頸,技術未出現(xiàn)明顯突破。
ChatGPT文本交互能力更上一個臺階。ChatGPT在文字 創(chuàng)作與語言交互等方面的能力令人驚喜,一定程度上實 現(xiàn)了人類同等能力,提升讀寫效率,逐漸向AIGC靠近。或為AGI實現(xiàn)帶來曙光。雖然在大量用戶體驗下 ChatGPT仍暴露出部分反饋偏差問題,但驗證了基于大 型語言模型(LLM)實現(xiàn)AGI具有可能性,重塑AI發(fā)展前景。
OpenAI商業(yè)化探索,B端流量收費與C端訂閱收費并行
B端:提供API接口實施流量收費。OpenAI向用戶提供語言、圖像、音頻等不同類型模型的API 接口,通過用戶使用模型的流量收費。其中ChatGPT對應API 由其背后的AI模型gpt-3.5-turbo提供支持。此外,OpenAI還向用戶提供嵌入模型和微調模型,支持用戶 根據(jù)自定義需求進行模型定制。
C端:提供產品訂閱服務收取費用。OpenAI于2023年2月新推出ChatGPT Plus版本,對該版本的 使用者收取20美元/月的訂閱費用。ChatGPT Plus版本較免費 公開使用的ChatGPT模型具有更快的響應速度,在應用高峰期 能更順暢的使用模型,且訂閱者能夠優(yōu)先使用新功能,以向 ChatGPT模型的深度用戶提供更快捷的服務。
數(shù)字內容生產新方式 AIGC
AIGC:產業(yè)鏈逐步形成,玩家百花齊放,商業(yè)模式持續(xù)探索
以ChatGPT為代表的AIGC行業(yè),上游主要包括數(shù)據(jù)供給方、算法/模型機構、創(chuàng)作者生態(tài)以及底層配合工具等, 中游主要包括文字、圖像、音頻、視頻等數(shù)字內容的處理加工方,下游主要是各類數(shù)字內容分發(fā)平臺、消費方及相關服務機構等。
文本生成:NLP重要任務標之一,神經網絡生成法為主流趨勢
文本生成(Text Generation)是自然語言處理(NLP)的重要任務之一,從非語言的表示生成人類可以理解的文本,文本→文本、 數(shù)據(jù)→文本都是文本生成任務關注的。
文本生成:Transformer架構實現(xiàn)并行處理,提升模型訓練效率
RNN架構局限在于無法并行運算。RNN計算是有時序依賴的,需要用到前一個時間步或者后一個時間步的信息,這導致它難 以并行計算,只能串行計算。GPU的并行化能夠大大加速計算過程,如果模型不能夠并行計算,會導致運算速度很低。
Transformer架構引入Self-attention自注意力機制可取代RNN。2017年,Google發(fā)布《Attention is All You Need》Transformer模型通過采用Self-Attention 自注意力機制,完全拋棄了傳統(tǒng)RNN在水平方向的傳播,只在垂直方向上傳播,只需要不斷 疊加Self-Attention層即可。這樣,每一層的計算都可以并行進行,可以使用GPU進行加速。
音頻生成:TTS應用發(fā)展成熟,AI樂曲創(chuàng)作未來可期
音頻生成主要應用于流行歌曲、樂曲、有聲書的內容創(chuàng)作,以及視頻、游戲、影視等領域的配樂創(chuàng)作,目前在眾多場景已獲 初步發(fā)展,在部分場景已廣泛應用、趨于成熟。常見音頻生成中,TTS文字轉語音是最普遍使用的落地應用,而創(chuàng)意性音頻 生成有助于激發(fā)創(chuàng)作者靈感,促進樂曲二創(chuàng)、輔助編曲。
圖像生成:從GAN到Diffusion,技術持續(xù)迭代,能力更進一竿
生成式對抗網絡(GAN)的提出標志著AIGC圖像生成可實現(xiàn),進入快速發(fā)展階段。GAN由生成器和判別器兩部分組成,生成器 將抓取數(shù)據(jù)、產生新的生成數(shù)據(jù),并將其混入原始數(shù)據(jù)中送交判別器區(qū)分。這一過程將反復進行,直到判別器無法以超50%的 準確度分辨出真實樣本。
擴散模型(Diffusion Model)成為圖像生成領域的重要發(fā)現(xiàn),有望超越GAN,成為新一代圖像生成主流模型。Diffusion Model在 2015年被提出,于2020年在Denoising Diffusion Probabilistic Models研究中名聲大噪,目前Google的Imagine與OpenAI的 DALL·E 2等熱門圖像生成軟件都基于此模型。
Diffusion Model簡化模型訓練過程中數(shù)據(jù)處理的難度,解決了GAN穩(wěn)定性問題,提高生成圖片的質量。Diffusion模型的工作 原理是通過逐漸添加高斯噪聲來破壞訓練數(shù)據(jù)。通過一張神經網絡“生成器”來進行逆轉破壞過程(去噪),從純噪聲中合成數(shù)據(jù), 直到產生干凈的樣本。GAN模型在訓練過程中需要兩張神經網絡“生成器”與“判別器”,穩(wěn)定性很難平衡,而Diffusion Model只有 一張神經網絡,解決了穩(wěn)定性問題,同時簡化了數(shù)據(jù)處理過程,且更加靈活。
圖像生成:圖像屬性編輯普遍應用,創(chuàng)意圖像生成應用落地較少
圖像生成可簡要劃分為圖像屬性編輯、圖像局部生成及更改、以及端到端的圖像生成。其中,前兩者的落地場景為圖像編輯工 具,而端到端的圖像生成則對應創(chuàng)意圖像及功能性圖像生成兩大落地場景。圖像屬性編輯大量應用落地,圖像局部生成及更高 目前有部分應用落地,端到端圖像生成底層原理明確,未來有望規(guī)?;瘧谩?/p>
由于圖像的生成復雜度遠高于文字,在整體生成上,目前仍然難以達到穩(wěn)定可靠的生成高質量圖像。但隨著GAN、Diffusion Model等模型的不斷迭代,圖像生成發(fā)展將非??焖?。
視頻生成:分幀生成圖像連接成視頻,視頻屬性編輯已普遍應用
視頻生成強調將視頻切割成幀,再對每一幀的圖像進行處理,與圖像生成原理類似。視頻生成難度遠高于圖像生成,生成視頻 的質量與流暢度取決于很多因素,包括數(shù)據(jù)集規(guī)模、訓練模型復雜度、特征提取準確性以及合成視頻算法有效性;由于模型訓 練量要求過大,目前模型只能實現(xiàn)幾秒鐘的短視頻生成,未來有望隨著模型的迭代實現(xiàn)中視頻和長視頻的生成。視頻生成應用場景主要包括視頻屬性編輯、視頻自動剪輯、視頻部分編輯,前者已大量應用,后兩者還處于技術嘗試階段。
跨模態(tài)生成:目前未大規(guī)模落地,文字生成圖像取得突破
跨模態(tài)生成是指將一種模態(tài)轉換成另一種模態(tài),同時保持模態(tài)間語義一致性。主要集中在文字生成圖片、文字生成視頻及圖片 /視頻生成文字。文字生成圖片:2022年被稱為“AI繪畫“之年,多款模型軟件證明基于文字提示得到效果良好的圖畫的可行性,Diffusion Model受到廣泛關注。文字生成視頻:普遍以Token為中介,關聯(lián)文本和圖像生成,逐幀生成所需圖片,最后逐幀生成完整視頻。但由于視頻生成會面臨不同幀之間連 續(xù)性的問題,對生成圖像間的長序列建模問題要求更高,以確保視頻整體連貫流程。按技術生成難度和生成內容,可區(qū)分為拼湊式生成和完全從 頭生成。圖片/視頻生成文字:具體應用包括視覺問答系統(tǒng)、配字幕、標題生成等,這一技術還將有助于文本—圖像之間的跨模態(tài)搜索。代表模型包括 METER、ALIGN等。
策略生成:主要應用展望在游戲行業(yè),其余場景發(fā)展較緩
策略生成是指生成一個可以在給定環(huán)境下執(zhí)行任務的算法。普遍采用深度強化學習技術(早期曾采用決策樹及監(jiān)督學習),其本 質原理是讓AI感知環(huán)境、自身狀態(tài)并基于特定目標決定當下需要執(zhí)行的動作,然后基于下一個狀態(tài)給到系統(tǒng)的反饋進行獎勵或 懲罰,最終使系統(tǒng)在不斷的“強化”過程中優(yōu)化“策略”。策略生成可應用于游戲智能(Game AI)、虛擬人交互、機器人控制、智慧交通等領域。游戲智能是決策生成目前應用最為廣泛和明確的場景。由于游戲本身存在于計算機虛擬環(huán)境,并產生大量數(shù)據(jù),因此游戲本身 為AI提供了極佳的研發(fā)場景;而在其他業(yè)務場景中,還需先搭建能夠充分還原現(xiàn)實因素的虛擬環(huán)境,并合理設置Reward等關 鍵因素,目前距離現(xiàn)實應用較遠。國內多家AI企業(yè)已在嘗試這一方向,但如何精準完成環(huán)境學習仍然具有關鍵意義。
新時代生產力工具, AIGC賦能內容生產
AIGC+游戲:高效輔助游戲測試,保證質量并降低成本
游戲測試通常是游戲開發(fā)周期中的一大關鍵 環(huán)節(jié),其目的是保證游戲質量,減少發(fā)布后 的風險,并為玩家提供更好的游戲體驗。在 游戲測試中,測試人員將會對不同的測試目 標使用不同的測試技術,就游戲玩法、游戲 流程內容、游戲系統(tǒng)、機型適配等進行測試, 記錄游戲中發(fā)現(xiàn)的問題,并通過管理工具報 告Bug,向開發(fā)人員反饋問題。
伴隨游戲生產量的增長以及游戲復雜度的提 高,游戲測試的需求爆發(fā),而AI可以在游戲 測試中執(zhí)行一些自動化任務,如執(zhí)行基本的 功能測試、性能測試、兼容性測試等,以實 現(xiàn)更高效地測試。但AI目前還無法像人類測 試人員那樣進行用戶體驗、情感反饋等測試。
AIGC+廣告營銷:加快案頭工作效率,提供廣告營銷思路
AI技術支持能快速縮短耗時,較大提升前期準備效率。前期準備過程中時間占比70%的資料收集整理等案頭工作可通過ChatGPT等模型抓取大數(shù)據(jù)縮短耗時;占比20%的調研訪談、頭 腦風暴產生靈感等創(chuàng)意工作可以通過AI運算快速實現(xiàn)。
AIGC+互聯(lián)網:AIGC激活內容平臺,互為供給加速發(fā)展
互聯(lián)網內容平臺將作為重要數(shù)據(jù)來源。圖文 內容社區(qū)的內容庫可以作為大語言模型的語 料庫,提高模型自主學習和深度挖掘能力。這樣,無論是知乎用戶10年前的回答,還是 小紅書用戶的冷門筆記,抑或是豆瓣上的海 量書評、影評,都可以被AI有效地檢索、利 用和生成,展現(xiàn)出新的價值。
AIGC將成為平臺重要的內容形式。AI技術 將顯著降低內容制作門檻,提高內容制作效 率,增加內容供給,如今已有不少內容創(chuàng)作 者利用AI輔助生成圖文,視頻及音頻內容, 同時也有AI直接生成的內容,未來AIGC有望 成為內容平臺供給的重要形式。
AIGC+娛樂:開啟元宇宙之匙,基礎設施拔地而起
AIGC在元宇宙內容生產方面發(fā)揮了重要作用:元宇宙旨在構建用戶的第二空間,為了讓用戶獲得沉 浸式的體驗,內容生產者需要提供各種類型的虛擬內容。與第一空間不同的是,元宇宙內的內容是 原生的,能夠刺激用戶的全感官。在這樣的背景下,僅靠PGC和UGC產生的內容數(shù)量遠遠不足以支 撐一個完整的第二空間。因此,AI協(xié)助內容生產成為必然趨勢。大量個性化、多元化的數(shù)字內容將 顯著提升用戶體驗。
數(shù)字人是元宇宙的關鍵要素:數(shù)字人是元宇宙中最早落地的應用場景之一,也是連接用戶情感與VR、 AR等硬件設備的交互中介。如果AR/VR看作是元宇宙的入口,在元宇宙中占據(jù)核心位置,那么數(shù)字 人可被看作是元宇宙的關鍵要素。
AIGC是元宇宙中用戶交互界面的重要組成部分:在元宇宙中,智能NPC可以由AIGC生成并驅動,而 ChatGPT則可以作為語言模型集成到智能體中,使它們成為元宇宙中逼真的虛擬助手或伙伴,能夠執(zhí) 行“智能”動作和復雜任務。
AI基礎數(shù)據(jù)服務
(報告出品方:國金證券)
1. AI 基礎數(shù)據(jù)服務脫胎于專業(yè)數(shù)據(jù)標注需求,2025 年國內百億規(guī)模可期
1.1 產業(yè)圖譜:AI 基礎數(shù)據(jù)服務脫胎于專業(yè)數(shù)據(jù)采標分工需求
國內 AI 基礎數(shù)據(jù)服務產業(yè)主要包括上游數(shù)據(jù)產生及產能資源、中游訓練數(shù)據(jù)生產、下游 AI 算法研發(fā)三大產業(yè)環(huán)節(jié)。其中,部分產業(yè)環(huán)節(jié)重合度較高,AI 基礎數(shù)據(jù)服務商主要脫 胎于專業(yè)數(shù)據(jù)采標分工需求。
上游主要包括數(shù)據(jù)生產者和數(shù)據(jù)生產組織者,主要提供原料數(shù)據(jù)的采集服務。
中游主要由基礎數(shù)據(jù)服務商構成,通過數(shù)據(jù)處理能力和項目管理能力完成訓練數(shù)據(jù)集 結構設計、數(shù)據(jù)加工和質量檢測等工作,為下游客戶提供訓練數(shù)據(jù)產品和相關服務。AI 基礎數(shù)據(jù)服務整體可分為兩大類,一種是具備自有的標注基地或全職標注團隊, 這類企業(yè)也參與產業(yè)上游部分直接提供產能資源,另一種是依靠眾包或外包模式,專 注于數(shù)據(jù)產品的開發(fā)與項目執(zhí)行。
下游包括科技公司、行業(yè)企業(yè)、AI 公司和科研單位等,主要負責算法研發(fā)。部分下 游 AI 公司擁有自主的標注工具,也可通過 AI 中臺獲取一些通用標注工具,少數(shù)數(shù)據(jù) 需求大的企業(yè)還孵化了自主的數(shù)據(jù)服務團隊。
1.2 發(fā)展歷程:站在人工標注市場出清與機器標注迭代的十字路口
理論層面:數(shù)據(jù)工程系 AI 工程基礎環(huán)節(jié),核心在于高效的數(shù)據(jù)標注。AI 工程=數(shù)據(jù)工程+ 模型工程。其中,數(shù)據(jù)工程主要包括數(shù)據(jù)采集與數(shù)據(jù)標注,約占 AI 工程時長的 80%;模 型工程主要包括模型訓練與模型部署,約占 AI 工程時長的 20%。數(shù)據(jù)工程是 AI 工程的 前置且基礎環(huán)節(jié),直接影響到模型的質量與精度。數(shù)據(jù)工程的核心在于高效的數(shù)據(jù)標注, Garbage in garbage out 效應顯著。
實踐層面:AI 模型訓練數(shù)據(jù)需求規(guī)模大,訓練數(shù)據(jù)質量不佳、效率低下情況普遍。據(jù)Dimensional Research 全球調研報告,72%的受訪者認為至少使用超過 10 萬條訓練數(shù)據(jù) 進行模型訓練,才能保證模型有效性和可靠性,96%的受訪者在訓練模型的過程中遇到訓 練數(shù)據(jù)質量不佳、數(shù)量不足、數(shù)據(jù)標注人員不足等難題。為應對訓練數(shù)據(jù)所帶來的多方面 挑戰(zhàn),AI 企業(yè)開始從第三方購買原料數(shù)據(jù)收集、訓練數(shù)據(jù)生產和數(shù)據(jù)專家咨詢等服務。
AI 數(shù)據(jù)工程發(fā)軔于 AI 產業(yè)落地元年,系 AI 下游應用的基礎且必備環(huán)節(jié)。目前行業(yè)處于市 場格局漸趨清晰,新老技術面臨迭代,下游需求加速釋放的關鍵節(jié)點。
產業(yè)初生期(2010~2016):2010 年語音識別和計算機視覺領域產生重大突破,國 內開始萌生 AI 概念。后續(xù)數(shù)年,早期的 AI 基礎數(shù)據(jù)服務門檻較低,質量參差不齊。
產生成長期(2016~2022):近五年來,供給側高烈度的業(yè)內競爭加速市場出清,需 求側對產業(yè)落地以及垂直場景的定制化數(shù)據(jù)采標需求逐漸凸顯。最終引致行業(yè)頭部企 業(yè)浮出水面,行業(yè)格局逐漸清晰。
產業(yè)成熟期(2022~至今):2022 年以來,AIGC 產品集中爆發(fā),高 level 自動駕駛 需求加速釋放。傳統(tǒng)人工標注的效率已不能完全滿足算法需求,行業(yè)護城河轉向自動 化機器標注技術,預計產業(yè)將進入向技術要市場的新階段。
1.3 市場規(guī)模:AI 快速落地疊加數(shù)據(jù)量指數(shù)級躍升,2025 年國內百億規(guī)模可期
國內 AI 市場規(guī)模超百億美金,約占全球市場 10%份額。目前,AI 已在金融、醫(yī)療、交通、 安防等多個垂直場景深度落地,且應用場景拓展勢能強勁,商業(yè)化進程加速。從全球市場 看,據(jù) IDC,2021 年全球 AI 產業(yè)規(guī)模達 885.7 億美元,預計 2025 年將達到 2,218.7 億 美元,CAGR 高達 25.8%。從國內市場看,據(jù) IDC,2022 年我國 AI 產業(yè)規(guī)?;蜻_ 116 億美元,預計未來數(shù)年仍保持兩位數(shù)增長。以 2021 年計,國內 AI市場規(guī)模約占全球 10%, 國內市場成長潛力巨大,國內企業(yè)出??臻g廣闊。
全球數(shù)據(jù)量呈指數(shù)式增長,中國數(shù)據(jù)量增速跑贏全球。據(jù) IDC,全球每年生產的數(shù)據(jù)量將 從2018年的33ZB猛增至2025年的175ZB,其中結構化數(shù)據(jù)僅占到全部數(shù)據(jù)量的20%, 其余 80%都是以文件形式存在的非結構化和半結構化數(shù)據(jù),日志文件、機器數(shù)據(jù)等占非 結構化數(shù)據(jù)的 90%,產生了源源不斷的數(shù)據(jù)清洗與標注需求。相比之下,中國的數(shù)據(jù)量 增速領跑全球,平均每年增速比全球快 3%。2018 年,中國的數(shù)據(jù)量為 7.6ZB,占全球總 量的 23.4%,預計到 2025 年將增至 48.6ZB,占全球總量的 27.8%,CAGR 高達 30.4%。
中國 AI 基礎數(shù)據(jù)服務行業(yè)市場規(guī)模 2025 年有望突破百億。一方面,隨著算法模型、技 術理論和應用場景的優(yōu)化和創(chuàng)新,AI 產業(yè)對訓練數(shù)據(jù)的拓展性需求和前瞻性需求均快速 增長;另一方面,隨著業(yè)內對訓練數(shù)據(jù)需求類型的增加以及對服務標準要求的提高,產業(yè) 鏈的專業(yè)化分工將愈加清晰,專業(yè)化的訓練數(shù)據(jù)服務提供商將扮演更加重要的角色。據(jù)艾瑞咨詢,2019 年中國 AI 基礎數(shù)據(jù)服務行業(yè)市場規(guī)模達 30.9 億元,其中圖像類、語 音類、NLP 類數(shù)據(jù)需求規(guī)模占比分別為 49.7%、39.1%和 11.2%。預計 2025 年國內 AI 基礎數(shù)據(jù)服務行業(yè)市場規(guī)模將突破 100 億元,年復合增長率高達 21.8%。
1.4 政策支持:近五年國家政策加持國內 AI 產業(yè)發(fā)展
近五年國家系列政策推動國內 AI 產業(yè)蓬勃發(fā)展?!丁笆奈濉币?guī)劃》指出要加快數(shù)字化發(fā) 展,建設數(shù)字中國,同時打造數(shù)字經濟新優(yōu)勢,充分發(fā)揮海量數(shù)據(jù)和豐富應用場景優(yōu)勢, 促進數(shù)字技術與實體經濟深度融合,賦能傳統(tǒng)產業(yè)轉型升,催生新產業(yè)新業(yè)態(tài)新模式,壯 大經濟發(fā)展新引擎。在國家頂層設計的支持下,我國 AI 基礎數(shù)據(jù)服務行業(yè)穩(wěn)步發(fā)展,行 業(yè)訓練資源庫等細分應用領域的產業(yè)價值逐步凸顯。
2. AI 大模型催生高要求新需求,專業(yè)化數(shù)據(jù)集及 AI 訓練師需求利好優(yōu)質專業(yè)數(shù)據(jù)提供廠商
2.1 場景特質:AI 大模型時代無監(jiān)督/半監(jiān)督訓練成為主流,RLHF 催生新興需求
大模型時代無監(jiān)督/半監(jiān)督訓練成為主流。AI 模型的訓練方法主要包括監(jiān)督學習和無監(jiān)督 學習兩種典型方式,后隨模型訓練數(shù)據(jù)量的增加衍生出半監(jiān)督學習方法。AI 訓練方法的 發(fā)展歷經“監(jiān)督-無監(jiān)督-監(jiān)督-無監(jiān)督/半監(jiān)督”4 個階段,在目前的大模型階段,無監(jiān)督/ 半監(jiān)督訓練再次成為主流。監(jiān)督學習與無監(jiān)督學習的主要區(qū)別在于是否使用帶有人工標注 的數(shù)據(jù)集訓練數(shù)據(jù),半監(jiān)督學習則是使用大量未標注數(shù)據(jù)+少量標注數(shù)據(jù)進行訓練。
大模型時代“基礎模型+微調”成為 AI 開發(fā)新范式,RLHF 微調技術催生更高要求的數(shù)據(jù) 標注需求。AI 大模型由海量數(shù)據(jù)通過無監(jiān)督學習訓練得到,本身并不能直接應用于具體 任務,必須經過微調才可投入應用。微調是指基于大規(guī)?;A模型,在現(xiàn)有訓練得到的模 型參數(shù)之上,針對特定任務類型、應用特定場景的數(shù)據(jù)對模型進行二次訓練。通俗來說, 大規(guī)?;A模型為AI提供了基礎知識,而微調則是讓AI獲特定領域知識,并賦予其組織、 應用知識的能力。以近日備受關注的 ChatGPT 為例,在其微調技術 RLHF(強人工反饋) 系統(tǒng)當中:
第一步,預訓練階段。模型首先需要在標注完備的大數(shù)據(jù)集上進行預訓練,得到監(jiān)督 學習模型。
第二步,交互獎勵階段。模型與專業(yè)的人工智能訓練師進行交互,專業(yè)標注人員會對 ChatGPT 生成的回答進行標注、評估和反饋,給出一個針對回答的分數(shù)或者標簽。這些標注數(shù)據(jù)可以作為強化學習過程中的“獎勵函數(shù)”來指導 ChatGPT 的參數(shù)調整, 得到獎勵模型。
第三步,迭代優(yōu)化階段?;讵剟钅P偷莫剟詈瘮?shù)以 PPO(一種使用兩個神經網絡 的強化學習算法)的方式微調監(jiān)督學習訓練出來的生成模型,基于強化學習 loss 持 續(xù)迭代生成模型,最終幫助模型進行強化學習和不斷優(yōu)化。
2.2 場景需求:預訓練階段高質量專業(yè)數(shù)據(jù)集+交互獎勵階段人工智能訓練師
伴隨業(yè)界大模型市場競爭的白熱化,RLHF 系統(tǒng)也將得到進一步的推廣及迭代使用,從而 帶來兩大類新興數(shù)據(jù)標注需求。一是預訓練階段催生 AI 廠商對于標注完善、清洗完備的 各類專業(yè)化場景數(shù)據(jù)集的需求;二是交互獎勵階段催生 AI 廠商對于具備專業(yè)的事實判斷 與規(guī)范的價值判斷的人工智能訓練師的需求。目前,上述兩類新興需求尚未得到充分有效的市場供給,利好海天瑞聲這類優(yōu)質專業(yè)數(shù)據(jù) 解決方案提供商。針對 RLHF 預訓練階段需求,由于傳統(tǒng)數(shù)據(jù)采標廠商的主流商業(yè)模式 以銷售工具系統(tǒng)和標注服務為主,所以普遍缺少自有數(shù)據(jù),較少經營出售精準數(shù)據(jù)集的服 務。針對 RLHF 交互獎勵階段需求,聚焦專業(yè)垂類的模型訓練師則更為稀缺,市場藍海 亟待業(yè)務開拓。
2.3 場景價值:超大規(guī)模預訓練模型推動訓練數(shù)據(jù)數(shù)級躍升,市場需求持續(xù)延展
超大規(guī)模預訓練模型推動訓練數(shù)據(jù)指數(shù)級躍升。自 OpenAI 于 2020 年推出 GPT-3 以來, 谷歌、華為、智源研究院、中科院、阿里巴巴等企業(yè)和研究機構相繼推出超大規(guī)模預訓練 模型,包括 Switch Transformer、DALL·EMT-NLG、盤古、悟道 2.0、紫東太初和 M6 等。目前,預訓練模型參數(shù)數(shù)量、訓練數(shù)據(jù)規(guī)模按照 300 倍/年的趨勢增長,繼續(xù)通過增大模 型和增加訓練數(shù)據(jù)仍是短期內主流演進方向,RLHF 技術的推廣使用或將推動訓練數(shù)據(jù)市 場需求持續(xù)延展。
3. 自動駕駛領域訓練數(shù)據(jù)需求方興未艾,海天瑞聲發(fā)力布局
3.1 場景特質:自動駕駛客戶需求全棧式閉環(huán)數(shù)據(jù)解決方案
自動駕駛場景對于 AI 數(shù)據(jù)服務需求較為剛性。自動駕駛基礎數(shù)據(jù)主要是道路交通圖像、 障礙物圖像、車輛行駛環(huán)境圖像等,需求方以科技公司、汽車廠商和高精地圖廠商為主。L3 級別以上的自動駕駛系統(tǒng)需對雷達、攝像頭等傳感器采集的點云和圖像數(shù)據(jù)進行抽取、 處理和融合,構建車輛行駛環(huán)境,為預測和決策做依據(jù)。目前自動駕駛的視覺技術主要應用有監(jiān)督的深度學習,是基于已知變量和因變量推導函數(shù)關系的算法模型,需要大量的標 注數(shù)據(jù)對模型進行訓練和調優(yōu)。近幾年,汽車廠商在 ADAS 和自動駕駛方向的投入明顯, 對于數(shù)據(jù)的采集和標注需求也逐年增加,汽車廠商有望成為需求主力。
自動駕駛領域對于基礎數(shù)據(jù)服務商提出更高要求,業(yè)內客戶需要全棧式閉環(huán)數(shù)據(jù)解決方案。數(shù)據(jù)獲取和處理能力是自動駕駛企業(yè)的核心競爭要素之一,自動駕駛能力取決于高效的數(shù) 據(jù)閉環(huán)和數(shù)據(jù)的利用效率,并能利用大量有效數(shù)據(jù)訓練智能駕駛算法。因此,自動駕駛客 戶要求數(shù)據(jù)服務商能夠提供閉環(huán)數(shù)據(jù)解決方案,以滿足智能駕駛業(yè)務數(shù)據(jù)處理量大、數(shù)據(jù) 處理需求迭代頻次高等特點,專業(yè)知識、服務經驗及準入資質將成為衡量的重要標準。
3.2 場景需求:自動駕駛領域數(shù)據(jù)標注分為 2D 圖像標注與 3D 點云標注
自動駕駛領域的數(shù)據(jù)可分為車載攝像頭采集的 2D 圖像數(shù)據(jù)和激光雷達采集的 3D 點云數(shù) 據(jù)。一般而言,低 level 的自動駕駛技術以 2D 圖像數(shù)據(jù)為主,3D 點云標注數(shù)據(jù)是中高 level 自動駕駛技術的基礎訓練數(shù)據(jù),在自動駕駛領域中發(fā)揮著愈發(fā)重要的作用。3D 點云標注 數(shù)據(jù)在自動駕駛領域的應用可以分為兩個方面,一是基于場景理解和目標檢測的實時環(huán)境 感和處理,二是 SLAM(即時定位與地圖構建)加強定位。
2D 標注:通過精確理解來自可見光攝像頭的信息,尋找能夠創(chuàng)建用于目標物體的可 擴展邊界框。
3D 點云標注:通過識別和跟蹤場景中的對象,了解汽車前方和周圍的場景。將點云 數(shù)據(jù)和視頻流合并到要標注的場景中。
視頻對象和事件跟蹤 3D 點云標注:鎖定隨時間移動的對象,并標注時間事件。在多 幀視頻和 LiDar 場景中跟蹤進入和離開本體中的關注區(qū)域的對象(如其他汽車和行 人)。在整個視頻中,無論對象進入和離開視線的頻率如何,都會保持對其特性的一 致理解。
3.3 場景價值:自動駕駛訓練數(shù)據(jù)市場方興未艾,2025 年國內市場規(guī)模或達 25 億元
自動駕駛約占我國 AI 基礎數(shù)據(jù)服務市場規(guī)模的 35%,2025 年市場規(guī)模或達 25 億元。自 動駕駛的視覺技術主要應用于有監(jiān)督的深度學習,需要大量的標注數(shù)據(jù)對模型進行訓練和 調優(yōu)。目前該領域的數(shù)據(jù)采集和標注需求已成為AI基礎數(shù)據(jù)服務的主要下游之一。據(jù)IDC, 2020 年我國自動駕駛領域占 AI 基礎數(shù)據(jù)服務市場規(guī)模的 35%,系第一大下游場景。另 據(jù)艾瑞咨詢,2025 年我國自動駕駛 AI 基礎數(shù)據(jù)服務市場規(guī)?;蜻_ 24.9 億元,預計 18~25 年 CAGR 高達 23.2%,跑贏 AI 基礎數(shù)據(jù)服務整體增速 21.8%。
4. 國內市場集中度趨勢性收斂,海天瑞聲具備領先優(yōu)勢
4.1 發(fā)展趨勢:品牌商價值效應凸顯,國內市場集中度持續(xù)收斂
品牌數(shù)據(jù)服務商未來將替代中小型供應商成為市場主要供應力量。我國 AI 基礎數(shù)據(jù)服務 行業(yè)主要市場主體包括需求方自建基礎數(shù)據(jù)團隊與基礎數(shù)據(jù)服務商(品牌數(shù)據(jù)服務商、中 小數(shù)據(jù)服務商)。截至 2019 年,中小數(shù)據(jù)供應商是主要供應力量,占比高達 47%。其中 百度眾包、海天瑞聲分居 top2,占比分別為 11.0%、8.0%,2019 年行業(yè) CR5 僅為 26.2%。結合本文 1.2 部分分析可知,近年間需求端垂直場景及專業(yè)化需求凸顯,業(yè)務門檻提高;供給端競爭加劇擠壓中低端業(yè)務利潤空間,加速市場出清。預計當前我國 AI 基礎數(shù)據(jù)服 務行業(yè)市場主要以品牌數(shù)據(jù)供應商與需求方自建團隊為主,行業(yè)龍頭逐漸浮出水面,中小 供應商份額顯著下降。
業(yè)內品牌數(shù)據(jù)商包括海外巨頭 Appen、國內領軍廠商海天瑞聲、慧聽數(shù)據(jù)、標貝科技等:
Appen:1996 年成立于澳大利亞,面向機器學習和人工智能開發(fā)的高質量人工標注 數(shù)據(jù)集,于 2015 年 1 月于澳大利亞證券交易所上市。Appen 在采集并豐富語音、文 字、圖像和視頻等各種數(shù)據(jù)類型上積累多年經驗,與全球技術、汽車和電子商務公司, 以及政府部門建立了合作。
海天瑞聲:成立于 2005 年,是國內領先的訓練數(shù)據(jù)提供商。主要從事訓練數(shù)據(jù)的研 發(fā)設計、生產及銷售業(yè)務。目前已成為同時具備核心技術、產品資源、優(yōu)質客戶為一體的本土訓練數(shù)據(jù)提供企業(yè)。核心收入來源為數(shù)據(jù)資源定制服務。
慧聽科技:成立于 2011 年,業(yè)務包括語音識別、語音合成、語音評測、語言文本類、 多媒體類等多領域數(shù)據(jù)制作,以及語音合成、語音識別、輸入法系統(tǒng)的研發(fā)等。公司 提供服務涵蓋語音訓練數(shù)據(jù)制作、音樂數(shù)據(jù)制作標注、語音質量評測等,經營模式包 括定制開發(fā)和自有訓練數(shù)據(jù)產品銷售。
標貝科技:成立于 2016 年,主要提供智能語音交互相關服務,包括語音合成整體解 決方案,以及語音合成、語音識別、圖像識別等數(shù)據(jù)服務,經營模式包括定制開發(fā)和 自有訓練數(shù)據(jù)產品銷售。
4.2 競爭格局:業(yè)內主要玩家發(fā)展各有側重,Appen 及海天瑞聲具備領先優(yōu)勢
據(jù) IDC,2021 年海天瑞聲在國內 AI 基礎數(shù)據(jù)服務行業(yè)市占率高達 12.9%,位居第一。其 技術實力、語種/方言覆蓋能力、專利及軟著數(shù)量、成品訓練集數(shù)量均位居行業(yè)前列。相 比之下,Appen 在覆蓋區(qū)域、語種/方言覆蓋能力等方面更具優(yōu)勢?;勐牽萍寂c標貝科技 則在音樂領域具備差異化業(yè)務覆蓋能力。
在語音類數(shù)據(jù)產品中,海天瑞聲在結構方面的差異主要體現(xiàn)在覆蓋的噪聲類型、錄音通道 數(shù)量、錄音文本內容類型等方面。相比之下,海天瑞聲的訓練數(shù)據(jù)產品結構整體而言可覆 蓋更豐富的錄音文本內容類型、噪音環(huán)境類型、錄音通道數(shù)量,Appen 則在稀有語言覆 蓋數(shù)量上更勝一籌。
在自然語言訓練數(shù)據(jù)產品中,不同自然語言訓練數(shù)據(jù)產品的結構差異主要體現(xiàn)在文本來源、 內容、標注屬性等方面。Appen 具備更為豐富的產品數(shù)量與更為全面的語言覆蓋能力, 海天瑞聲在上述指標上緊隨其后。
在計算機視覺訓練數(shù)據(jù)產品中,海天瑞聲在結構方面的差異主要體現(xiàn)在人像識別檢測相關 數(shù)據(jù)產品領域。主要玩家均可覆蓋不同類型的人臉、姿勢、場景等,因計算機視覺數(shù)據(jù)產 品個性化特征較強,各類訓練數(shù)據(jù)產品在具體的人臉類型、姿勢范圍、場景等方面具備一 定差異。與 Appen 相比,海天瑞聲的 OCR 訓練數(shù)據(jù)產品可覆蓋更多語種的光學字符識 別需要,具備廣泛性、強適用性特征。
4.3 他山之石:Appen 發(fā)展復盤,全球 AI 基礎數(shù)據(jù)服務巨頭的崛起之路
Appen 系 AI 基礎數(shù)據(jù)服務行業(yè)全球巨頭,經歷爆發(fā)式成長后收入利潤短期雙雙回落。Appen 成立于 1996 年,面向機器學習和人工智能開發(fā)的高質量人工標注數(shù)據(jù)集,于 2015 年于澳大利亞證券交易所上市。2015~2019 年,公司經歷了爆發(fā)式成長期,營收增速一 度沖高至 100%以上,同期凈利率接近 10%。2020~2022 年,受到全球疫情及公司內生 發(fā)展階段調整影響,2022 年公司營收規(guī)模相較 2021 年回落 13.1%,凈利率由 9.1%回落 至 5.9%。
Appen 業(yè)務類型齊全,客戶質量較高。Appen 主要業(yè)務類型包括數(shù)據(jù)采集、數(shù)據(jù)預處理 與模型評價三大類。其中,數(shù)據(jù)采集環(huán)節(jié)基于公司預先標記完備的海量數(shù)據(jù)集為下游客戶 提供大量其所需的高質量數(shù)據(jù),數(shù)據(jù)集語種覆蓋范圍領先優(yōu)勢較大。數(shù)據(jù)預處理環(huán)節(jié),公 司具備全類型數(shù)據(jù)標注能力。模型評價環(huán)節(jié),公司通過用戶測試及針對客戶競爭對手的性 能基準測試,診斷模型潛在問題,并為此提供能夠優(yōu)化模型的訓練數(shù)據(jù)。公司主要客戶質 量較高,包括 Google、Amazon、Microsoft 等知名 IT 巨頭。
Appen 位居同業(yè)員工量能及數(shù)據(jù)標注技術前列。全球范圍來看,Appen 位居全球 AI 基礎 數(shù)據(jù)服務行業(yè)收入體量首位。其員工量能(數(shù)量及質量)與數(shù)據(jù)標注技術領先程度均位居 行業(yè)頭部,緊隨之后的是 Telus 和 Lionbrigde。以數(shù)據(jù)堂、海天瑞聲為代表的國內頭部廠 商距離 Appen 等海外大廠仍存在一定差距。
編輯:黃飛
?
評論