一、大模型發(fā)展情況
1、行業(yè)發(fā)展歷程
語(yǔ)言是人類表達(dá)和交流的突出能力,其在兒童早期發(fā)展并在一生中不斷演變。然而,除非配備強(qiáng)大的人工 智能(AI)算法,機(jī)器不會(huì)自然地掌握理解和使用人類語(yǔ)言的能力。要讓機(jī)器像人類一樣閱讀、寫作和交流一 直是一個(gè)長(zhǎng)期的研究挑戰(zhàn)。從技術(shù)上講,語(yǔ)言建模(Language Model, LM)是提高機(jī)器語(yǔ)言智能的主要方法之 一。一般來說,LM 旨在對(duì)單詞序列的生成概率進(jìn)行建模,以便預(yù)測(cè)未來(或缺失)單詞的概率。LM 的研究在 學(xué)界中得到了廣泛的關(guān)注,可以分為四個(gè)主要發(fā)展階段: 統(tǒng)計(jì)語(yǔ)言模型(SLM):SLM 是基于 20 世紀(jì) 90 年代興起的統(tǒng)計(jì)學(xué)習(xí)方法開發(fā)的。其基本思想是基于馬爾 可夫假設(shè)構(gòu)建單詞預(yù)測(cè)模型,例如根據(jù)最近的上下文預(yù)測(cè)下一個(gè)單詞。具有固定上下文長(zhǎng)度 n 的 SLM 也被稱為 n-gram 語(yǔ)言模型,例如二元和三元語(yǔ)言模型。SLM 已經(jīng)被廣泛應(yīng)用于提高信息檢索(IR)和自然語(yǔ)言處理(NLP) 任務(wù)的性能。然而,它們經(jīng)常受到維度災(zāi)難的影響:由于需要估計(jì)指數(shù)級(jí)的轉(zhuǎn)移概率,因此很難準(zhǔn)確估計(jì)高階 語(yǔ)言模型。因此,專門設(shè)計(jì)的平滑策略,例如后退估計(jì)和 Good-Turing 估計(jì)已經(jīng)被引入為緩解數(shù)據(jù)稀疏問題。
神經(jīng)語(yǔ)言模型(NLM):NLM 通過神經(jīng)網(wǎng)絡(luò),例如遞歸神經(jīng)網(wǎng)絡(luò)(RNNs),來描述單詞序列的概率。作為 一個(gè)顯著的貢獻(xiàn),Y. Bengio 和 R. Ducharme 等人引入了單詞的分布式表示的概念,并構(gòu)建了基于聚合上下文特 征(即分布式單詞向量)的單詞預(yù)測(cè)函數(shù)。通過擴(kuò)展學(xué)習(xí)詞或句子有效特征的想法,已有研究開發(fā)了一種通用 神經(jīng)網(wǎng)絡(luò)方法來為各種自然語(yǔ)言處理任務(wù)構(gòu)建統(tǒng)一解決方案。此外,word2vec 提出了構(gòu)建一個(gè)簡(jiǎn)化的淺層神經(jīng) 網(wǎng)絡(luò),用于學(xué)習(xí)分布式單詞表示,這在各種 NLP 任務(wù)中被證明非常有效。這些研究開創(chuàng)了語(yǔ)言模型用于表示學(xué) 習(xí)(超越了詞序列建模)的應(yīng)用,對(duì) NLP 領(lǐng)域產(chǎn)生了重要影響。 預(yù)訓(xùn)練語(yǔ)言模型(PLM):作為早期嘗試,ELMo 被提出來通過預(yù)訓(xùn)練一個(gè)雙向 LSTM(biLSTM)網(wǎng)絡(luò)(而 不是學(xué)習(xí)固定的詞表示)來捕捉上下文感知的詞表示,然后根據(jù)特定的下游任務(wù)微調(diào) biLSTM 網(wǎng)絡(luò)。此外,基 于高度可并行化的 Transformer 架構(gòu)和自注意力機(jī)制,BERT 提出了通過在大規(guī)模無標(biāo)注語(yǔ)料庫(kù)上設(shè)計(jì)特定的預(yù) 訓(xùn)練任務(wù)來預(yù)訓(xùn)練雙向語(yǔ)言模型。這些預(yù)訓(xùn)練的上下文感知的單詞表示非常有效,可作為通用語(yǔ)義特征,大大 提高了 NLP 任務(wù)的性能。這項(xiàng)研究啟發(fā)了大量的后續(xù)工作,建立了“預(yù)訓(xùn)練和微調(diào)”學(xué)習(xí)范式。在此范式下, 開發(fā)了大量關(guān)于 PLM 的研究,引入了不同的架構(gòu)(例如 GPT-2 和 BAR)或改進(jìn)的預(yù)訓(xùn)練策略。在這個(gè)范式中, 通常需要微調(diào) PLM 以適應(yīng)不同的下游任務(wù)。
大型語(yǔ)言模型(LLM):研究人員發(fā)現(xiàn),擴(kuò)展 PLM(例如擴(kuò)展模型大小或數(shù)據(jù)大?。┩ǔ?huì)導(dǎo)致模型在下 游任務(wù)上具有更強(qiáng)的能力(即遵循縮放定律)。一些研究探索了通過訓(xùn)練更大的 PLM(例如 175B 參數(shù)的 GPT-3 和 540B 參數(shù)的 PaLM)來達(dá)到性能極限。盡管縮放主要是在模型大?。ň哂蓄愃频募軜?gòu)和預(yù)訓(xùn)練任務(wù))方面進(jìn) 行的,但這些大型 PLM 顯示出與較小 PLM(例如 330M 參數(shù)的 BERT 和 1.5B 參數(shù)的 GPT-2)不同的行為,并 展現(xiàn)出令人驚訝的能力(稱為涌現(xiàn)能力)以解決一系列復(fù)雜任務(wù)。例如,GPT-3 可以通過上下文學(xué)習(xí)來解決少 樣本任務(wù),而 GPT-2 做不好。因此,研究界為這些大型 PLM 創(chuàng)造了“大型語(yǔ)言模型(LLM)”的術(shù)語(yǔ)。LLM 的 一個(gè)顯著應(yīng)用是 ChatGPT,它利用 GPT 系列的 LLM 適應(yīng)對(duì)話,具有驚人的與人類對(duì)話的能力。大語(yǔ)言模型相 較于以往的語(yǔ)言模型具備顯著優(yōu)勢(shì),其具備優(yōu)秀的上下文學(xué)習(xí)能力、可觀的知識(shí)容量、優(yōu)秀的泛化性和復(fù)雜推 理能力。
大型語(yǔ)言模型研究的發(fā)展有三條技術(shù)路線:Bert 模式、GPT 模式、混合模式。其中國(guó)內(nèi)大多采用混合模式, 多數(shù)主流大型語(yǔ)言模型走的是 GPT 技術(shù)路線,直到 2022 年底在 GPT-3.5 的基礎(chǔ)上產(chǎn)生了 ChatGPT。到 2019 年 后,Bert 路線基本沒有標(biāo)志性的新模型更新,而 GPT 技術(shù)路線則趨于繁榮。從 Bert 往 GPT 演化的過程中,模 型越來越大,所實(shí)現(xiàn)的性能也越來越通用。各類大語(yǔ)言模型路線各有側(cè)重,GPT 模式在生成類任務(wù)表現(xiàn)最優(yōu)。 大型語(yǔ)言模型按照從數(shù)據(jù)到知識(shí)來劃分,數(shù)據(jù)可分為通用數(shù)據(jù)和領(lǐng)域數(shù)據(jù),知識(shí)分為語(yǔ)言知識(shí)和世界知識(shí)。從 任務(wù)類型來劃分,大型語(yǔ)言模型可以分為單一任務(wù)和多任務(wù)、理解類和生成類;Bert 模式有兩階段(雙向語(yǔ)言 模型預(yù)訓(xùn)練+任務(wù) Fine-tuning),適用于理解類以及某個(gè)場(chǎng)景的具體任務(wù),表現(xiàn)得“專而輕”。GPT 模式是由兩階 段到一階段(單向語(yǔ)言模型預(yù)訓(xùn)練+zero-shot prompt),比較適合生成類任務(wù)、多任務(wù),表現(xiàn)得“重而通”。T5 模式則將兩者的方法結(jié)合,包含有兩階段(單向語(yǔ)言模型預(yù)訓(xùn)練+Fine-tuning)。根據(jù)當(dāng)前研究結(jié)論,如果模型 規(guī)模不特別大,面向單一領(lǐng)域的理解類任務(wù),適合用 T5 模式,而 GPT 模式在做生成類任務(wù)時(shí)的效果最好。綜 合來看,當(dāng)前幾乎所有參數(shù)規(guī)模超過千億的大型語(yǔ)言模型都采取 GPT 模式。
如今,LLM 正在對(duì)人工智能社區(qū)產(chǎn)生重大影響,ChatGPT 和 GPT-4 的出現(xiàn)引發(fā)了重新思考人工智能通用智 能(AGI)的可能性。OpenAI 已經(jīng)發(fā)表了一篇名為“Planning for AGI and beyond”的技術(shù)文章,討論了實(shí)現(xiàn) AGI 的短期和長(zhǎng)期計(jì)劃,而最近的一篇論文則認(rèn)為 GPT-4 可能被視為一個(gè)早期版本的 AGI 系統(tǒng)。LLM 的快速進(jìn)步 正在徹底改變?nèi)斯ぶ悄艿难芯款I(lǐng)域。在自然語(yǔ)言處理領(lǐng)域,LLM 可以在某種程度上充當(dāng)通用語(yǔ)言任務(wù)求解器, 研究范式已經(jīng)轉(zhuǎn)向使用 LLM。在信息檢索領(lǐng)域,傳統(tǒng)的搜索引擎正在被 AI 聊天機(jī)器人(即 ChatGPT)挑戰(zhàn), 而 New Bing 則是基于 LLM 增強(qiáng)搜索結(jié)果的初始嘗試。在計(jì)算機(jī)視覺領(lǐng)域,研究人員試圖開發(fā)類似于 ChatGPT 的視覺語(yǔ)言模型,以更好地服務(wù)于多模態(tài)對(duì)話,而 GPT-4 通過集成視覺信息已經(jīng)支持多模態(tài)輸入。這股新的技 術(shù)浪潮有可能會(huì)導(dǎo)致基于 LLM 的真實(shí)世界。例如,Microsoft 365 正在被 LLM(如 Copilot)賦能以自動(dòng)化辦公 工作,而 OpenAI 支持在 ChatGPT 中使用插件來實(shí)現(xiàn)特殊功能。
起源于 Transformer 模型,ChatGPT 經(jīng)過 5 年迭代成功出世。ChatGPT 的誕生經(jīng)歷了從 Transformer -> GPT -> GPT2 -> GPT3 -> ChatGPT 的逐步迭代過程,其具體發(fā)展歷程如下:(1)2017 年 6 月,Google 發(fā)布論文《Attention is all you need》,首次提出 Transformer 模型,成為 GPT 發(fā)展的基礎(chǔ);(2)2018 年 6 月, OpenAI 發(fā)布論文《Improving Language Understanding by Generative Pre-Training》,首次提出 GPT 模型,即 GPT-1,模型參數(shù)量達(dá) 1.17 億;(3)2019 年 2 月,OpenAI 發(fā)布論文《Language Models are Unsupervised Multitask Learners》,提出 GPT-2 模型, 大模 型共計(jì) 48 層,參數(shù)量達(dá) 15 億;(4)2020 年 5 月,OpenAI 發(fā)布論文《Language Models are Few-Shot Learners》, 提出 GPT-3 模型, 參數(shù)量達(dá) 1750 億;(5)2022 年 2 月底,OpenAI 發(fā)布論文《Training language models to follow instructions with human feedback》,公布 Instruction GPT 模型,參數(shù)量達(dá) 13 億;(6)2022 年 11 月 30 日,OpenAI 推出 ChatGPT 模型,并提供試用。
2、大語(yǔ)言模型概覽
通常,大型語(yǔ)言模型(LLMs)是指包含數(shù)千億(或更多)參數(shù)的語(yǔ)言模型,它們是在海量文本數(shù)據(jù)上進(jìn)行 訓(xùn)練的,例如 GPT-3,PaLM,Galactica 和 LLaMA。具體來說,LLMs 建立在 Transformer 架構(gòu)之上,其中多頭 注意力層在一個(gè)非常深的神經(jīng)網(wǎng)絡(luò)中堆疊?,F(xiàn)有的 LLMs 主要采用類似的模型架構(gòu)(即 Transformer)和預(yù)訓(xùn)練 目標(biāo)(即語(yǔ)言建模)作為小型語(yǔ)言模型。作為主要區(qū)別,LLMs 大量擴(kuò)展了模型大小、預(yù)訓(xùn)練數(shù)據(jù)和總計(jì)算量 (數(shù)量級(jí))。它們可以更好地理解自然語(yǔ)言,并基于給定的上下文(即提示)生成高質(zhì)量的文本。這種能力提升 可以部分地由縮放法則描述,即性能大致隨著模型大小的增加而顯著增加。然而,一些能力(例如上下文學(xué)習(xí)) 是不可預(yù)測(cè)的,只有當(dāng)模型大小超過一定水平時(shí)才能觀察到。
百億參數(shù)量級(jí)別的模型:這類模型的參數(shù)規(guī)模除了 LLaMA(最大版本 65B 參數(shù))和 NLLB(最大版本 54.5B 參數(shù)),大多在 10B 至 20B 之間。這一參數(shù)范圍內(nèi)的模型包括 mT5、PanGu-α、T0、GPT-NeoX-20B、CodeGen、 UL2、Flan-T5 和 mT0 等。其中,F(xiàn)lan-T5(11B 版本)可以作為研究指令微調(diào)的首選模型,因?yàn)樗鼜娜齻€(gè)方面 探索了指令微調(diào):增加任務(wù)數(shù)量、擴(kuò)大模型規(guī)模和使用思維鏈提示數(shù)據(jù)進(jìn)行微調(diào)。CodeGen(11B)是一個(gè)為生 成代碼設(shè)計(jì)的自回歸語(yǔ)言模型,可用作探索代碼生成能力的候選模型,其提出了一個(gè)新的基準(zhǔn)測(cè)試 MTPB,專 門用于多輪程序合成,由 115 個(gè)專家生成的問題組成,為了解決這些問題,需要大語(yǔ)言模型獲得足夠的編程知 識(shí)(例如數(shù)學(xué)、數(shù)組操作和算法)。對(duì)于多語(yǔ)言任務(wù),mT0(13B)可能是一個(gè)比較好的候選模型,因?yàn)樗诙?語(yǔ)言任務(wù)中使用多語(yǔ)言提示進(jìn)行微調(diào)。此外,對(duì)于中文的下游任務(wù),PanGu-α具有較好的表現(xiàn),特別是在零樣 本或小樣本的設(shè)置下,該模型基于深度學(xué)習(xí)框架 MindSpore 開發(fā),擁有多個(gè)參數(shù)版本(最大版本 200B 參數(shù)), 而最大的公開版本只有 13B 參數(shù)。此外,作為最近發(fā)布的模型,LLaMA(65B)在與指令遵循相關(guān)的任務(wù)中展現(xiàn)了卓越的性能。由于其開放性和有效性,LLaMA 引起了研究界的廣泛關(guān)注,許多工作致力于微調(diào)或繼續(xù)訓(xùn)練 其不同的模型版本以實(shí)現(xiàn)新模型或工具的開發(fā)。百億參數(shù)量級(jí)別的模型通常需要數(shù)百甚至上千個(gè) GPU 或 TPU。 例如,GPT-NeoX-20B 使用了 12 個(gè)微服務(wù)器,每個(gè)服務(wù)器配備了 8 個(gè) NVIDIA A100-SXM4-40GBGPU,LLaMA 使用了 2048 個(gè) A100-80GGPU。為了準(zhǔn)確估計(jì)所需的計(jì)算資源,我們還是建議使用衡量涉及計(jì)算量的指標(biāo),例 如計(jì)算 FLOPS(每秒浮點(diǎn)數(shù)運(yùn)算次數(shù))。
據(jù)中移智庫(kù)統(tǒng)計(jì),截止到 2023 年 4 月 18 日,國(guó)內(nèi)至少有 19 家企業(yè)及科研院所涉足人工智能大模型訓(xùn)練, 主要分為大型科技公司、科研院校和初創(chuàng)科技團(tuán)隊(duì)三類。具體來看:百度、阿里等 12 家大型科技公司和中國(guó)科 學(xué)院、清華大學(xué)等 3 家科研院校已經(jīng)提供開放測(cè)試,或有明確的推出時(shí)間計(jì)劃;字節(jié)跳動(dòng)、搜狗創(chuàng)始人王小川、 美團(tuán)創(chuàng)始人王慧文、創(chuàng)新工場(chǎng)創(chuàng)始人李開復(fù)等則是最近對(duì)外宣布組建團(tuán)隊(duì),進(jìn)軍大模型研發(fā)領(lǐng)域。其中,字節(jié) 跳動(dòng)旗下火山引擎于 4 月 18 日發(fā)布自研 DPU(數(shù)據(jù)處理器)等系列云產(chǎn)品,推出新版機(jī)器學(xué)習(xí)平臺(tái),可以支 持萬卡級(jí)大模型訓(xùn)練、微秒級(jí)延遲網(wǎng)絡(luò),為預(yù)訓(xùn)練模型提供強(qiáng)大的算力支持。
從大模型參數(shù)量看,科技大廠的參數(shù)量遠(yuǎn)大于科研院所??萍即髲S的大模型參數(shù)量較大:阿里通義千問大 模型參數(shù)在 10 萬億級(jí)以上、騰訊混元大模型和華為盤古大模型參數(shù)量均在萬億級(jí)以上、百度文心一言大模型參 數(shù)量在 2 千億級(jí)以上、京東言犀大模型的參數(shù)量為千億級(jí);垂直行業(yè)科技企業(yè)已經(jīng)上線的參數(shù)量普遍在千億級(jí) 以上;而科研院校大模型的參數(shù)量在千億級(jí)及以下。 從大模型應(yīng)用方向看,大部分企業(yè)前期以內(nèi)部應(yīng)用為主,后續(xù)主要向 B 端企業(yè)拓展服務(wù),預(yù)計(jì)少數(shù)企業(yè)將 在 C 端市場(chǎng)形成規(guī)模。目前,百度文心大模型、華為盤古大模型、中國(guó)科學(xué)院紫東太初大模型均在 B 端垂類市 場(chǎng)積累了標(biāo)桿應(yīng)用案例,騰訊混元大模型、阿里通義大模型則更多聚焦公司自身業(yè)務(wù)。而在 C 端市場(chǎng)應(yīng)用方面, 百度文心一言、阿里通義千問、騰訊混元助手三類大模型最有可能向此方向拓展,但目前只有百度文心一言大 模型正在進(jìn)行友好客戶測(cè)試,阿里通義千問大模型則計(jì)劃在今年 9 月份進(jìn)行公測(cè),騰訊混元助手大模型則處于 計(jì)劃開發(fā)狀態(tài)。
3、產(chǎn)業(yè)發(fā)展趨勢(shì)
大模型是基于海量多源數(shù)據(jù)打造的預(yù)訓(xùn)練模型,是對(duì)原有算法模型的技術(shù)升級(jí)和產(chǎn)品迭代,用戶可通過開 源或開放 API/工具等形式進(jìn)行模型零樣本/小樣本數(shù)據(jù)學(xué)習(xí),以實(shí)現(xiàn)更優(yōu)的識(shí)別、理解、決策、生成效果和更低 成本的開發(fā)部署方案。大模型的核心作用是突破數(shù)據(jù)標(biāo)注的困境,通過學(xué)習(xí)海量無標(biāo)注的數(shù)據(jù)來做預(yù)訓(xùn)練,拓 展整體模型前期學(xué)習(xí)的廣度和深度,以此提升大模型的知識(shí)水平,從而低成本、高適應(yīng)性地賦能大模型在后續(xù) 下游任務(wù)中的應(yīng)用。在實(shí)踐中,預(yù)訓(xùn)練大模型在基于海量數(shù)據(jù)的自監(jiān)督學(xué)習(xí)階段完成了“通識(shí)”教育,再借助 “預(yù)訓(xùn)練+精調(diào)”等模式,在共享參數(shù)的情況下,根據(jù)具體應(yīng)用場(chǎng)景的特性,用少量數(shù)據(jù)進(jìn)行相應(yīng)微調(diào),即可高 水平完成任務(wù)。
大模型增強(qiáng)了 AI 技術(shù)的通用性,讓開發(fā)者以更低成本、更低門檻,面向場(chǎng)景研發(fā)更好的 AI 模型,助力普 惠 AI 的實(shí)現(xiàn)。但目前,基礎(chǔ)大模型距離大規(guī)模產(chǎn)業(yè)應(yīng)用并成為產(chǎn)業(yè)基座還有很長(zhǎng)的一段路要走,不僅需要有與 場(chǎng)景深度融合的大模型體系,也需要有支持全流程應(yīng)用落地的專業(yè)工具和平臺(tái),還需要開放的生態(tài)來激發(fā)創(chuàng)新; 三層之間交互賦能,才能形成良性循環(huán)的產(chǎn)業(yè)智能化生態(tài)共同體。我們看到 OpenAI 在開發(fā) GPT 大模型的過程 中具有相似的思路,在不斷加強(qiáng)大模型本身性能的同時(shí),將 GPT 打包成產(chǎn)品,對(duì)外提供 API 服務(wù),相關(guān)開發(fā)者、 企業(yè)、學(xué)術(shù)機(jī)構(gòu)以及高校都可以申請(qǐng)使用。開放后,大量開發(fā)者利用 API 開發(fā)出了各種各樣的功能,例如翻譯 機(jī)、網(wǎng)站生成器等;OpenAI 則通過用戶獲取了更多的行為數(shù)據(jù),形成了對(duì) GPT 的反哺。由此可見,“模型+工 具平臺(tái)+生態(tài)”三層共建有助于業(yè)務(wù)的良性循環(huán),也更容易借助長(zhǎng)期積累形成競(jìng)爭(zhēng)壁壘。
生態(tài)層是基于大模型能力打造共創(chuàng)、共享社區(qū)。大模型“預(yù)訓(xùn)練+精調(diào)”的新研發(fā)范式,讓 AI 在識(shí)別、理 解、生成等方面的能力實(shí)現(xiàn)突破,帶來深度語(yǔ)義理解、智能交互、內(nèi)容生成的技術(shù)與產(chǎn)品變革動(dòng)能。打造基于 大模型能力的生態(tài),提供能力、工具、服務(wù),連接供需,吸引更多的開發(fā)者和企業(yè)共創(chuàng)、共享,是釋放大模型 潛力的重要路徑?!澳P?工具平臺(tái)+生態(tài)”的模式需要協(xié)同優(yōu)化,拓寬人工智能技術(shù)落地的場(chǎng)景覆蓋廣度,加深 產(chǎn)業(yè)實(shí)際應(yīng)用的深度,共同加速產(chǎn)業(yè)智能化,推動(dòng)人工智能技術(shù)賦能千行百業(yè),惠及千家萬戶。 “模型+工具平臺(tái)+生態(tài)”的模式需要協(xié)同優(yōu)化,才能拓寬人工智能技術(shù)落地的場(chǎng)景覆蓋廣度,加深產(chǎn)業(yè)實(shí) 際應(yīng)用的深度,共同加速產(chǎn)業(yè)智能化,推動(dòng)人工智能技術(shù)賦能千行百業(yè),惠及千家萬戶。
二、互聯(lián)網(wǎng)大廠模型
1、阿里
阿里以“通義大模型+飛天智算平臺(tái)+魔塔社區(qū)+行業(yè)應(yīng)用”成為大模型全部環(huán)節(jié)的重要參與者。2019 年, 阿里達(dá)摩院開啟大模型研究。2022 年 9 月,阿里正式發(fā)布通義大模型,包括通義 M6 多模態(tài)模型、通義 AliceMind 自然語(yǔ)言處理模型、通義視覺計(jì)算機(jī)視覺模型。2022 年 11 月,阿里推出 AI 開源社區(qū)“魔搭”(ModelScope), 旨在打造下一代“模型即服務(wù)”的共享平臺(tái),整合業(yè)界多方模型提供者,為開發(fā)者提供預(yù)訓(xùn)練基礎(chǔ)模型和 API 接口。目前該平臺(tái)已有超過 300 個(gè)開源模型,包括阿里自有的通義大模型系列以及瀾舟科技孟子系列模型等外 部資源和能力。2023 年 4 月,阿里正式發(fā)布了“通義千問”產(chǎn)品,該產(chǎn)品基于 10 萬億級(jí)參數(shù)的大模型底座 M6-OFA, 未來將具有多輪交互及復(fù)雜指令理解、可多模態(tài)融合、支持外部增強(qiáng) API 等多種能力。另外,阿里不僅擁有最 多的英偉達(dá) A100 芯片,還擁有自研芯片含光 800、倚天 710 芯片,共同為人工智能大模型提供算力。
1.1 模型
阿里推出“通義”系列大模型,由統(tǒng)一底座層、通用模型層、行業(yè)模型層組成,不僅通用多種任務(wù),又容 易落地應(yīng)用,其中,應(yīng)用在 B 端更有優(yōu)勢(shì)。2022 年 9 月 2 日,阿里推出“通義”系列大模型,核心模型通過“魔 搭”社區(qū)向全球開發(fā)者開源開放,推出“飛天智算平臺(tái)”提升 AI 訓(xùn)練效率。通義大模型通過打造業(yè)界首個(gè) AI 統(tǒng)一底座并構(gòu)建大小模型協(xié)同的層次化人工智能體系,解決了大模型通用性與易用性仍欠缺的難題。通義大模 型由統(tǒng)一底座層、通用模型層、行業(yè)模型層組成。其中,統(tǒng)一底座是基于 transformer 框架,由統(tǒng)一學(xué)習(xí)范式和 模塊化設(shè)計(jì)理念構(gòu)成;通用模型層主要包括通義-M6、通義-AliceMind 和通義-CV 三大模型體系。由于低訓(xùn)練能 耗優(yōu)勢(shì),通義大模型運(yùn)行速度加快,例如,M6 在相同參數(shù)規(guī)模下的訓(xùn)練能耗僅是 GPT-3 的 1%。目前,阿里通 義大模型已廣泛用于電商、設(shè)計(jì)、醫(yī)療、法律、金融等領(lǐng)域,助力其降本增效。而在落地應(yīng)用方面,阿里原有 的產(chǎn)品資源導(dǎo)致其在 B 端更有優(yōu)勢(shì)。阿里巴巴于 2023 年 4 月 7 日推出通義千問大語(yǔ)言模型內(nèi)測(cè)。在 4 月 11 日 的 2023 阿里云峰會(huì)上,阿里巴巴 CEO 張勇表示阿里巴巴所有產(chǎn)品未來將接入通義千問大模型,進(jìn)行全面改造, 包括天貓、釘釘、高德地圖、淘寶、優(yōu)酷、盒馬等。阿里將結(jié)合 200 多萬的企業(yè)用戶和輻射的 2-3 億真實(shí)活躍 用戶資源,把文本作為核心場(chǎng)景鑲嵌到釘釘?shù)娜笕肟?,預(yù)計(jì) 2023Q3 推送給部分 B 端客戶的企業(yè)釘。
通義-M6 屬于多模態(tài)模型,覆蓋文本和語(yǔ)音模態(tài),在短時(shí)間內(nèi)高速發(fā)展,并實(shí)現(xiàn)架構(gòu)、模態(tài)和任務(wù)統(tǒng)一。 通義-M6(英文全稱是 MultiModality-to-MultiModality Multitask Mega-transformer,6 個(gè) M,簡(jiǎn)稱 M6)包括圖 文生成,圖文理解,多模態(tài)對(duì)話,運(yùn)動(dòng)預(yù)測(cè),運(yùn)動(dòng)生成,語(yǔ)音理解,語(yǔ)音生成,多模態(tài)檢測(cè)和分割。通義-M6 已經(jīng)從 2020 年 6 月的 3 億參數(shù)基礎(chǔ)模型逐漸發(fā)展到 2021 年 10 月的 10 萬億參數(shù)全球最大預(yù)訓(xùn)練模型再到 2022 年 1 月的業(yè)界首個(gè)通用統(tǒng)一大模型 M6-OFA。2020 年 1 月,阿里巴巴達(dá)摩院?jiǎn)?dòng)中文多模態(tài)預(yù)訓(xùn)練模型 M6 項(xiàng) 目,同年 6 月推出 3 億參數(shù)的基礎(chǔ)模型。2021 年 1 月,模型參數(shù)規(guī)模到達(dá)百億,已經(jīng)成為世界上最大的中文多 模態(tài)模型。2021 年 3 月,千億參數(shù)模型 KDD2021 發(fā)布,與 10B 模型相比:①訓(xùn)練損失減少 37%,在許多下游 任務(wù)實(shí)現(xiàn) SOTA 結(jié)果;②混合精度提亮 90%的效率;③僅需 32 張 v100GPU 即可完成訓(xùn)練。 2021 年 5 月,具 有萬億參數(shù)規(guī)模的模型正式投入使用,追上了谷歌的發(fā)展腳步。2021 年 10 月,M6 的參數(shù)規(guī)模擴(kuò)展到 10 萬億, 成為當(dāng)時(shí)全球最大的 AI 預(yù)訓(xùn)練模型。 2022 年 1 月,業(yè)界首個(gè)通用的統(tǒng)一大模型 M6-OFA 發(fā)布。
AliceMind 是 NLP 的深度語(yǔ)言模型體系,以通用預(yù)訓(xùn)練語(yǔ)言模型 StructBERT 為基礎(chǔ),拓展到超大的領(lǐng)域模 型、多語(yǔ)言、多領(lǐng)域、多模態(tài)方向,可用于結(jié)構(gòu)化、生成式、知識(shí)驅(qū)動(dòng)等應(yīng)用。AliceMind, 取名來自 Alibaba's Collection of Encoder-decoders from MinD (Machine Intelligence of Damo),是阿里達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室傾 力打造的具有領(lǐng)先性和系統(tǒng)化的深度語(yǔ)言模型體系。AliceMind 的核心應(yīng)用場(chǎng)景有:文本標(biāo)簽分類、序列標(biāo)注、 智能中文生成(如商品描述寫作推薦、小說續(xù)寫、古詩(shī)生成、菜譜生成等)、多模態(tài)問答(如 VQA,圖片問答)、 問答對(duì)自動(dòng)生成等。Alicemind 已經(jīng)服務(wù)阿里內(nèi)部和外部客戶幾百個(gè)場(chǎng)景。
通義-視覺屬于 CV 模型,覆蓋圖像,視頻模態(tài)。通義-視覺大模型自下往上分為底層統(tǒng)一算法架構(gòu)、中層通 用算法和上層產(chǎn)業(yè)應(yīng)用,由兩個(gè)基礎(chǔ)模型構(gòu)成,能夠?qū)崿F(xiàn)視頻處理、視覺問答、視覺算數(shù)等多種算法,在電商、 交通、自動(dòng)駕駛等領(lǐng)域發(fā)揮作用。
1.2 算力
2022 年,阿里云推出全棧智能計(jì)算解決方案“飛天智算平臺(tái)”,并啟動(dòng)兩座超大規(guī)模智算中心,為科研、 公共服務(wù)和企業(yè)機(jī)構(gòu)提供強(qiáng)大的智能計(jì)算服務(wù),可將計(jì)算資源利用率提高 3 倍以上,AI 訓(xùn)練效率提升 11 倍, 推理效率提升 6 倍。 飛天智算平臺(tái)源于阿里巴巴內(nèi)部廣泛實(shí)踐,也源于廣泛的產(chǎn)業(yè)智能實(shí)踐。目前,該平臺(tái)正在支撐建設(shè)兩座 超大規(guī)模智算中心。張北智算中心建設(shè)規(guī)模為 12 EFLOPS(每秒 1200 億億次浮點(diǎn)運(yùn)算)AI 算力。在云端,張 北智算中心支撐 AI 預(yù)訓(xùn)練大模型、AI Earth、數(shù)字人等前沿 AI 應(yīng)用,將成為全球最大的智算中心。烏蘭察布智 算中心建設(shè)規(guī)模為 3 EFLOPS(每秒 300 億億次浮點(diǎn)運(yùn)算)AI 算力,位于“東數(shù)西算”內(nèi)蒙古樞紐節(jié)點(diǎn),采用 自然風(fēng)冷、AI 調(diào)溫等綠色技術(shù),實(shí)現(xiàn)綠色低碳。
智能計(jì)算不同于通用型計(jì)算,需要海量數(shù)據(jù)對(duì) AI 模式進(jìn)行訓(xùn)練,算力被損耗在數(shù)據(jù)遷移、同步等環(huán)節(jié),千 卡以上規(guī)模的算力輸出最低往往僅有 40%左右。這導(dǎo)致了智能算力成本高昂,制約了產(chǎn)業(yè)發(fā)展。阿里云通過體 系化的技術(shù)創(chuàng)新,改變了智能計(jì)算的損耗難題,將千卡并行計(jì)算效率提升至 90%以上。在網(wǎng)絡(luò)技術(shù)上:阿里云 采用高性能 RDMA 網(wǎng)絡(luò),實(shí)現(xiàn)端對(duì)端最低 2 微秒延遲。在通信技術(shù)上:阿里云自研的無阻塞通信技術(shù),讓計(jì)算 過程中的數(shù)據(jù)交換速度提升了 5 倍以上。在存儲(chǔ)技術(shù)上:自研的 IO 加速器讓數(shù)據(jù)存取實(shí)現(xiàn)最高 10 倍性能提升。 在大數(shù)據(jù) AI 開發(fā)層:阿里云提供分布式訓(xùn)練框架,并通過 API 對(duì)分布式策略進(jìn)行自動(dòng)組合和調(diào)優(yōu),將訓(xùn)練效率 提升了 11 倍以上。一站式 AI 計(jì)算開發(fā)服務(wù):阿里云為用戶提供了一站式的通用推理優(yōu)化工具,對(duì)算法模型進(jìn) 行量化、剪枝、稀疏化、蒸餾等操作,將推理效率提升 6 倍以上。
阿里研發(fā)出高質(zhì)量的大模型壓縮技術(shù),快速匹配客戶計(jì)算資源。達(dá)摩院推出了大模型落地技術(shù) S4(Sound、 Sparse、Scarce、Scale)框架,就包含了各種微調(diào)算法和模型壓縮算法,將稀疏化等技術(shù)應(yīng)用到百億量級(jí)的大模 型中?;谶@一技術(shù),阿里的 270 億參數(shù)語(yǔ)言大模型 PLUG 在壓縮率達(dá) 99%的情況下,多項(xiàng)任務(wù)的精度損失 在 1%以內(nèi)。這意味著百億參數(shù)大模型也可能在幾乎不損失精度的情況下進(jìn)行稀疏化,最終實(shí)現(xiàn)單卡運(yùn)行。
另一方面,基于“通用大模型+行業(yè) knowhow”的方式迭代模型。通用大模型基于“大一統(tǒng)”技術(shù),預(yù)訓(xùn) 練時(shí)就已經(jīng)具備了很強(qiáng)的理解和生成能力,只需再針對(duì)特定任務(wù)進(jìn)行簡(jiǎn)單微調(diào)。即先打造一個(gè)基礎(chǔ)大模型,再 繼續(xù)訓(xùn)練得到領(lǐng)域模型,最后通過微調(diào)構(gòu)建具體行業(yè)任務(wù)模型。通義大模型的架構(gòu)設(shè)計(jì)將這一過程做得更快且 更高效。 目前,通過部署超大模型的輕量化及專業(yè)模型版本,通義大模型已在超過 200 個(gè)場(chǎng)景中提供服務(wù),實(shí)現(xiàn)了 2%-10%的應(yīng)用效果提升。比如,通義大模型在淘寶服飾類搜索場(chǎng)景中實(shí)現(xiàn)了以文搜圖的跨模態(tài)搜索、在 AI 輔 助審判中司法卷宗的事件抽取、文書分類等場(chǎng)景任務(wù)中實(shí)現(xiàn) 3~5%的應(yīng)用效果提升、在開放域人機(jī)對(duì)話領(lǐng)域通 過建立初步具備“知識(shí)、情感以及個(gè)性、記憶”的中文開放域?qū)υ挻竽P蛯?shí)現(xiàn)了主動(dòng)對(duì)話、廣泛話題、緊跟熱 點(diǎn)等對(duì)話體驗(yàn)。
1.3 平臺(tái)
2022 年 11 月,阿里巴巴達(dá)摩院與中國(guó)計(jì)算機(jī)學(xué)會(huì)開源發(fā)展委員會(huì)共同推出人工智能模型開源社區(qū)“魔搭” (Model Scope),首批合作方還包括瀾舟科技、智譜 AI、深勢(shì)科技、中國(guó)科學(xué)技術(shù)大學(xué)等多家科研機(jī)構(gòu),旨在 打造下一代開源的模型即服務(wù)共享平臺(tái),致力降低 AI 應(yīng)用門檻。 ModelScope Library 為模型貢獻(xiàn)者提供了必要的分層 API,以便將來自 CV、NLP、語(yǔ)音、多模態(tài)以及科學(xué) 計(jì)算的模型集成到 ModelScope 生態(tài)系統(tǒng)中。所有這些不同模型的實(shí)現(xiàn)都以一種簡(jiǎn)單統(tǒng)一訪問的方式進(jìn)行封裝, 用戶只需幾行代碼即可完成模型推理、微調(diào)和評(píng)估。同時(shí),靈活的模塊化設(shè)計(jì)使得在必要時(shí)也可以自定義模型 訓(xùn)練推理過程中的不同組件。除了包含各種模型的實(shí)現(xiàn)之外,ModelScope Library 還支持與 ModelScope 后端服 務(wù)進(jìn)行必要的交互,特別是與 Model-Hub 和 Dataset-Hub 的交互。這種交互促進(jìn)了模型和數(shù)據(jù)集的管理在后臺(tái) 無縫執(zhí)行,包括模型數(shù)據(jù)集查詢、版本控制、緩存管理等。當(dāng)前,魔搭社區(qū)收錄模型共 775 個(gè),其中中文模型 約 300 個(gè),主要通過大模型幫助開發(fā)者提取、抽象知識(shí),通過下游調(diào)優(yōu),將下游目標(biāo)精確化,從而快速形成針 對(duì)行業(yè)的解決模型,解決實(shí)際應(yīng)用問題。
1.4 應(yīng)用
通義千問將陸續(xù)接入阿里巴巴生態(tài)的所有商業(yè)應(yīng)用中,如企業(yè)通訊、智能語(yǔ)音助手、電子商務(wù)、搜索、導(dǎo) 航、娛樂等,從而進(jìn)一步提升用戶體驗(yàn)。憑借其中英雙語(yǔ)能力,通義千問將首先部署于阿里巴巴的數(shù)碼協(xié)同辦 公和應(yīng)用開發(fā)平臺(tái)釘釘,以及物聯(lián)網(wǎng)智能家居終端機(jī)天貓精靈上。 通義千問賦能釘釘:讓職場(chǎng)溝通更高效。例如,釘釘將能夠總結(jié)會(huì)議紀(jì)要、將會(huì)議對(duì)話生成文字會(huì)議記錄、 撰寫電子郵件,以及僅用簡(jiǎn)單輸入就可創(chuàng)建業(yè)務(wù)策劃或推廣方案初稿。用戶還可以透過上傳一張構(gòu)思草圖的圖 像,轉(zhuǎn)瞬間就能在釘釘上生成小程序。通義千問賦能天貓精靈:與中國(guó)用戶更活潑生動(dòng)地對(duì)話。例如,天貓精 靈將能夠?yàn)閮和瘎?chuàng)作和講故事、提供健康食譜和旅行建議,或推薦健身背景音樂等。 從應(yīng)用的角度,在傳統(tǒng) APP 中,因?yàn)楦鳂I(yè)務(wù)邏輯上的不同,比如淘寶與餓了么,飛豬與高德打車,APP 間 很難整合,強(qiáng)行整合反而會(huì)帶來產(chǎn)品使用復(fù)雜度大幅增加,用戶體 驗(yàn)下降。但如果統(tǒng)一接入到通義千問中,參 考智能座艙的語(yǔ)音助手,其更強(qiáng)的理解能力將 使得交互邏輯變得非常簡(jiǎn)單,用戶可以像詢問生活助手一樣詢問 通義千問來完成業(yè)務(wù)交互,不再需要學(xué)習(xí)操作邏輯,阿里生態(tài)中的家庭終端入口將實(shí)現(xiàn)統(tǒng)一。
圖像理解和“文生圖(text-to-image)”等多模態(tài)能力也將很快添加到通義千問模型中,為用戶提供更具吸 引力的 AI 功能。阿里云智能首席技術(shù)官周靖人表示:“語(yǔ)言大模型支持下的生成式 AI 正迎來全新的發(fā)展階段。 在新 AI 時(shí)代,我們憑借可靠的公有云基礎(chǔ)設(shè)施和久經(jīng)驗(yàn)證的 AI 能力,為客戶和廣大社會(huì)創(chuàng)造價(jià)值。我們正見 證 AI 發(fā)展的新范式,云和 AI 模型在其中發(fā)揮至關(guān)重要的作用。我們致力于讓這種范式更普惠,希望以此促進(jìn) 各行各業(yè)的數(shù)智化轉(zhuǎn)型,助力提高企業(yè)生產(chǎn)力,擴(kuò)展專業(yè)知識(shí)和能力,并通過創(chuàng)新釋放更大的機(jī)遇?!蓖x千問 基于阿里巴巴自研的“通義”預(yù)訓(xùn)練模型框架,其統(tǒng)一底座包括“文生圖”、“文生短視頻”等 AI 模型。去年, 阿里云推出開源“模型即服務(wù)”(Model-as-a-Service)平臺(tái)“魔搭”(ModelScope),開放了數(shù)以百計(jì) AI 模型, 包括面向全球開發(fā)者和研究人員的通義“文生圖”模型。目前“魔搭”小區(qū)擁有超過 100 萬活躍用戶,提供 800 多個(gè)模型,模型總下載量超 1600 萬次。
2、百度
百度是國(guó)內(nèi)領(lǐng)先布局 AI 領(lǐng)域的科技大廠,也是我國(guó)最早發(fā)布知識(shí)增強(qiáng)大語(yǔ)言模型產(chǎn)品的企業(yè),其在 AI 領(lǐng) 域累計(jì)投入研發(fā)總額超過千億元,專利數(shù)量連續(xù)五年居全國(guó)第一。2010 年,百度成立了人工智能自然語(yǔ)言處理 部,是中國(guó)最早布局 AI 的企業(yè)之一。2012 年,百度的 AI 戰(zhàn)略已經(jīng)初步成型,陸續(xù)成立了深度學(xué)習(xí)研究院 IDL、人 工智能實(shí)驗(yàn)室。2014 年,百度開始涉足智能駕駛領(lǐng)域,先后推出了深度語(yǔ)音系統(tǒng)、百度大腦、度秘、 Apollo 自 動(dòng)駕駛平臺(tái)等技術(shù)體系,涉及自然語(yǔ)言處理、機(jī)器翻譯、語(yǔ)音、視覺、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識(shí)圖譜等核心技 術(shù)。2016 年 9 月,百度在百度世界大會(huì)上正式對(duì)外開放集視覺、語(yǔ)音、自然語(yǔ)言處理、知識(shí)圖譜、深度學(xué)習(xí)等 技術(shù)于一體的百度大腦,并且每隔一段時(shí)間就會(huì)進(jìn)行迭代,合作伙伴可以直接調(diào)用百度 AI 的核心能力。同年,百 度主導(dǎo)的深度學(xué)習(xí)框架 PaddlePaddle(飛槳)上線,涵蓋了深度學(xué)習(xí)核心訓(xùn)練和推理框架、基礎(chǔ)模型庫(kù)、端到端開發(fā) 套件和豐富的工具組件,填補(bǔ)了中國(guó)開源深度學(xué)習(xí)框架的空白。2017 年開始,百度就開始整合人工智能體系,在 2019 年下半的一次架構(gòu)調(diào)整后,王海峰開始統(tǒng)管 AIG、ACG 和 TG 三塊業(yè)務(wù),百度 AI 的打法也進(jìn)一步清晰,云計(jì) 算被定義為智能基礎(chǔ)設(shè)施的底座,同時(shí)將人工智能和底層技術(shù)能力灌輸?shù)降鬃?進(jìn)而成為賦能各行各業(yè)的“動(dòng)力 工廠”。2020 年,百度智能云確立了“以云計(jì)算為基礎(chǔ),以人工智能為抓手,聚焦重要賽道”的新戰(zhàn)略,選擇智慧城 市、智慧金融、智慧醫(yī)療、智能制造、智慧能源等為重要賽道,并屢屢簽下數(shù)億級(jí)別的訂單。2021 年初,百度再 次夯實(shí)了自身的人工智能戰(zhàn)略,從“AI+云”的整合過渡到云智一體的新階段。2022 年底,百度智能云推出了全 棧自研的 AI 基礎(chǔ)設(shè)施“百度 AI 大底座”,其包括“芯片–框架–模型”三層技術(shù)棧,在各個(gè)層面都擁有關(guān)鍵自 研技術(shù)和領(lǐng)先產(chǎn)品,分別對(duì)應(yīng)昆侖芯、飛槳(PaddlePaddle)、文心大模型。百度 AI 大底座對(duì)各層的技術(shù)棧進(jìn)行 了全棧融合、系統(tǒng)優(yōu)化,完成了云和智的技術(shù)一體化建設(shè),可以實(shí)現(xiàn)對(duì)大模型訓(xùn)練的端到端優(yōu)化和加速。
2.1 模型
文心大模型架構(gòu)分為“基礎(chǔ)+任務(wù)+行業(yè)”三級(jí)模型?;A(chǔ)大模型聚焦技術(shù)方向的技術(shù)挑戰(zhàn)、通用性、泛化 性探索;任務(wù)大模型深入理解任務(wù)特性,構(gòu)建預(yù)訓(xùn)練算法、訓(xùn)練數(shù)據(jù)集,打造緊貼任務(wù)的模型能力;行業(yè)大模 型深度融合行業(yè)數(shù)據(jù)與知識(shí)特性,構(gòu)建更適配行業(yè)的模型底座?;A(chǔ)大模型支撐任務(wù)與行業(yè)大模型的建設(shè),任 務(wù)和行業(yè)大模型結(jié)合真實(shí)場(chǎng)景與數(shù)據(jù)反哺基礎(chǔ)大模型優(yōu)化。目前,文心大模型已經(jīng)建設(shè)了 36 個(gè)大模型,其中基 礎(chǔ)大模型包含:NLP(自然語(yǔ)言處理)大模型、CV(計(jì)算機(jī)視覺)大模型、跨模態(tài)大模型,任務(wù)大模型包含對(duì) 話、搜索、信息抽取、生物計(jì)算等多個(gè)典型任務(wù),行業(yè)大模型包含與來自 8 個(gè)行業(yè)的頭部企業(yè)或機(jī)構(gòu)共建的 11 個(gè)行業(yè)大模型。
2.1.1 文心 NLP 大模型
文心 NLP 大模型發(fā)展歷程有三條主線,1)是文心 ERNIE,百度發(fā)布了文心 ERNIE 3.0 以及文心·ERNIE 3.0 Titan 模型,并且在 SuperGLUE 和 GLUE 都超過了人類排名第一的水平,以及基于層次化多任務(wù)學(xué)習(xí)的文心 ERNIE 3.0 Zeus。同時(shí)為了進(jìn)一步降低落地門檻,出現(xiàn)了效率高、泛化能力強(qiáng)的輕量級(jí)大模型,比如文心 ERNIE 3.0 Tiny。2)對(duì)話生成大模型文心 PLATO 的發(fā)布,對(duì)話的流暢性得到了很大提升。3)文心 ERNIE 在跨模態(tài)、 跨語(yǔ)言以及長(zhǎng)文檔、圖模型等方面獲得了非常好的發(fā)展,在各種榜單尤其是視覺語(yǔ)言相關(guān)的榜單上獲得第一百, 比如文心 ERNIE-ViLG 2.0,該模型可以生成語(yǔ)義更相關(guān)、質(zhì)量更高的圖片。 文心一言整合了過往關(guān)鍵技術(shù),在文心知識(shí)增強(qiáng)大模型 ERNIE 及對(duì)話大模型 PLATO 的基礎(chǔ)上研發(fā),基于 飛槳深度學(xué)習(xí)平臺(tái)訓(xùn)練和部署,其關(guān)鍵技術(shù)包括,有監(jiān)督精調(diào)、人類反饋的強(qiáng)化學(xué)習(xí)、提示、知識(shí)增強(qiáng)、檢索 增強(qiáng)和對(duì)話增強(qiáng)。前三項(xiàng)是這類大語(yǔ)言模型都會(huì)采用的技術(shù),在 ERNIE 和 PLATO 模型中已經(jīng)有應(yīng)用和積累, 文心一言中又進(jìn)行了進(jìn)一步強(qiáng)化和打磨,做到了更懂中文、更懂中國(guó)文化、更懂中國(guó)的使用場(chǎng)景;后三項(xiàng)則是 百度已有技術(shù)優(yōu)勢(shì)的再創(chuàng)新。
ERNIE 3.0 系列模型(ERNIE 3.0、ERNIE 3.0 Titan、ERNIE 3.0 Zeus)有四大特點(diǎn): 從大規(guī)模知識(shí)圖譜和海量無結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí),突破異構(gòu)數(shù)據(jù)統(tǒng)一表達(dá)的瓶頸問題。同時(shí)輸入大規(guī)模圖譜和 相應(yīng)無標(biāo)注、無結(jié)構(gòu)化的文本,通過文本的 Mask,能夠推理這個(gè)知識(shí)圖譜里的關(guān)系,從而使這個(gè)模型具有知識(shí) 推理能力。
融合了自編碼和自回歸的結(jié)構(gòu),使模型既可以做語(yǔ)言理解,也可以做語(yǔ)言生成。在做語(yǔ)言理解時(shí),模型擁 有上下文相關(guān)的信息,從而做語(yǔ)言理解。在生成的時(shí)候,由于模型只看到了上文,所以只能基于自回歸的方式 學(xué)習(xí)。因此,在一個(gè)框架中同時(shí)能夠擁有語(yǔ)言理解和語(yǔ)言生成兩種能力非常重要。
基于持續(xù)學(xué)習(xí)框架,從不同任務(wù)中持續(xù)學(xué)習(xí)。不斷從不同的數(shù)據(jù)和知識(shí)上學(xué)習(xí),而不斷地構(gòu)建新任務(wù),比 如文本分類任務(wù)、問答任務(wù)、完形填空任務(wù)等。大模型從不同任務(wù)中持續(xù)學(xué)習(xí),使能力得到持續(xù)提升,擁有更 多知識(shí)。 為了進(jìn)一步學(xué)習(xí)特定任務(wù)的相關(guān)知識(shí),ERNIE 3.0 Zeus 提出了層次化提示(Prompt)學(xué)習(xí)技術(shù)。在數(shù)據(jù)構(gòu) 造時(shí)通過層次化的 Text Prompt 庫(kù)將百余種不同的任務(wù)統(tǒng)一組織成自然語(yǔ)言的形式,和海量無監(jiān)督文本以及百 度知識(shí)圖譜聯(lián)合學(xué)習(xí)。此外訓(xùn)練過程引入了層次化的 Soft Prompt 建模了不同任務(wù)之間的共性與特性,進(jìn)一步 提升了模型對(duì)于不同下游任務(wù)的建模能力。此外,通過持續(xù)學(xué)習(xí)對(duì)百余種不同形式的任務(wù)數(shù)據(jù),實(shí)現(xiàn)了任務(wù)知 識(shí)增強(qiáng),顯著提升了模型的零樣本/小樣本學(xué)習(xí)能力。
PLATO (Towards Building an Open-Domain Chatbot via Curriculum Learning) 是文心一言的另一項(xiàng)關(guān)鍵 技術(shù),主要作用是多輪對(duì)話,其發(fā)展經(jīng)歷了三個(gè)階段。1)2019 年 10 月,百度首次發(fā)布了 PLATO 對(duì)話模型, 其是全球首個(gè)大規(guī)模變量對(duì)話模型,刷新開放領(lǐng)域?qū)υ捫Ч?)2020 年 7 月,發(fā)布 PLATO-2,其是基于課程 學(xué)習(xí)的對(duì)話生成模型,進(jìn)一步刷新了開放領(lǐng)域?qū)υ捫Ч?020 年 10 月,PLATO-2 斬獲全球?qū)υ捈夹g(shù)競(jìng)賽 DSTC-9 五項(xiàng)冠軍。3)2021 年 9 月,發(fā)布 PLATO-XL,其是首個(gè)百億參數(shù)中英對(duì)話預(yù)訓(xùn)練生成模型。 PLATO 在預(yù)訓(xùn)練模型之上,對(duì)對(duì)話能力進(jìn)行增強(qiáng),讓對(duì)話具有人格屬性,包括人設(shè)穩(wěn)定性、知識(shí)增強(qiáng)、跨 模態(tài)對(duì)話、情感撫慰、主動(dòng)對(duì)話、長(zhǎng)期記憶等。同時(shí),PLATO 也已應(yīng)用到百度的各個(gè)產(chǎn)品線,比如:小度聊天, 百度推出的虛擬人對(duì)話,領(lǐng)域?qū)υ挕M瑫r(shí),百度也通過 UNIT 平臺(tái),對(duì)外輸出對(duì)話技術(shù)。
2019 年,百度首次發(fā)布了 PLATO 對(duì)話模型,首次創(chuàng)新性的提出了“隱變量”的概念。開放型對(duì)話具有一 對(duì)多的特點(diǎn),用戶輸入 query 后,系統(tǒng)可以有多種多樣的回復(fù)。每個(gè)回復(fù)有不同的性質(zhì),比如,輸入“我得健 身了,不能放縱了”。可以給用戶建議、詢問、質(zhì)詢、質(zhì)疑等類型的回復(fù)。除了這種關(guān)系外,還會(huì)有對(duì)話背后的 場(chǎng)景信息,這會(huì)導(dǎo)致開放型對(duì)話一對(duì)多的關(guān)系,這會(huì)導(dǎo)致模型學(xué)習(xí)很困難。如果針對(duì)一個(gè)輸入,有特定的輸出, 模型的學(xué)習(xí)會(huì)相對(duì)簡(jiǎn)單。但當(dāng)模型的輸出不確定,甚至有多種多樣的輸出,這就會(huì)導(dǎo)致模型學(xué)習(xí)復(fù)雜。針對(duì)這 一問題,我們提出隱變量建模輸入和輸出的映射信息。它不是一個(gè)顯式的建模,而是一個(gè)隱式建模輸入和每一 個(gè)輸出的對(duì)應(yīng)關(guān)系。這就會(huì)讓原來的輸入和輸出一對(duì)多的關(guān)系,轉(zhuǎn)化為一對(duì)一的關(guān)系。通過在輸入增加 soft token 的方式,讓 transformer 建立輸入和輸出之間的關(guān)系。Transformer 不是獨(dú)立的編碼器和解碼器的方式,我們選擇 了使用編碼器和解碼器共享參數(shù)的方式來實(shí)現(xiàn)即 unified transformer。預(yù)訓(xùn)練分為兩個(gè)階段,先根據(jù)輸入和輸出 預(yù)測(cè)隱變量的分布,然后從分布中采樣隱變量,將其加入輸入中再去學(xué)習(xí)根據(jù)隱變量和輸入預(yù)測(cè)回答的能力。
2021 年,百度推出 PLATO-XL,將模型的規(guī)模推進(jìn)至 110 億,模型有 72 層。同時(shí)引入了 role embedding 的特征來感知角色信息。在對(duì)話上文中,既有用戶的輸入,也有系統(tǒng)的輸入,使用 role embedding 來區(qū)分用戶 和系統(tǒng)的角色。在原有 transformer 模型三個(gè)特征,token、sentence type、position 的基礎(chǔ)上,模型新增了 role embedding 的信息,能讓模型更好的掌控角色。
2.1.2 文心 CV 大模型
文心 CV 大模型基于領(lǐng)先的視覺技術(shù),利用海量的圖像、視頻等數(shù)據(jù),為企業(yè)和開發(fā)者提供強(qiáng)大的視覺基 礎(chǔ)模型,以及一整套視覺任務(wù)定制與應(yīng)用能力。百度文心發(fā)布了 VIMER 系列的 CV 大模型,視覺自監(jiān)督預(yù)訓(xùn)練 大模型 VIMER-CAE 創(chuàng)新性地提出“在隱含的編碼表征空間完成掩碼預(yù)測(cè)任務(wù)”的預(yù)訓(xùn)練框架,在圖像分類、 目標(biāo)檢測(cè)、語(yǔ)義分割等經(jīng)典下游任務(wù)上刷新 SOTA 結(jié)果。在此之上,多任務(wù)學(xué)習(xí)模型 VIMER-UFO 2.0 可抽取輕 量級(jí)小模型,兼顧大模型效果和小模型推理性能,單模型覆蓋 20 多個(gè) CV 基礎(chǔ)任務(wù),在 28 個(gè)公開測(cè)試集上效 果刷新 SOTA。端到端文檔 OCR 表征學(xué)習(xí)預(yù)訓(xùn)練模型 VIMER-StrucTexT 2.0 解決了訓(xùn)練數(shù)據(jù)匱乏和傳統(tǒng) OCR+NLP 鏈路過長(zhǎng)導(dǎo)致的模型表達(dá)能力不足、優(yōu)化效率偏低等問題,能夠廣泛應(yīng)用于各行各業(yè)行的文檔、卡 證、票據(jù)等圖像文字識(shí)別和結(jié)構(gòu)化理解。 VIMER-CAE 基于自監(jiān)督圖像掩碼建模原理,創(chuàng)新性地提出“在隱含的編碼表征空間完成掩碼預(yù)測(cè)任務(wù)” 的預(yù)訓(xùn)練框架,對(duì)編碼模塊和解碼模塊進(jìn)行分離,通過編碼模塊對(duì)輸入的圖像塊進(jìn)行特征表達(dá),并利用隱式上 下文回歸和解碼模塊對(duì)輸入圖像的掩碼塊進(jìn)行特征表達(dá)恢復(fù),在圖像掩碼建模問題上提高了預(yù)訓(xùn)練模型的圖像 表征能力?;?VIMER-CAE 的預(yù)訓(xùn)練模型在下游各類圖像任務(wù)上取得了明顯的效果提升,其中在目標(biāo)檢測(cè)、 實(shí)例分割、語(yǔ)義分割等任務(wù)的指標(biāo)上達(dá)到最優(yōu)水平。
VIMER-UFO 2.0 技術(shù)方案的主要內(nèi)容包括:1)All in One——行業(yè)最大 170 億參數(shù)視覺多任務(wù)模型,覆 蓋人臉、人體、車輛、商品、食物細(xì)粒度分類等 20+ CV 基礎(chǔ)任務(wù),單模型 28 個(gè)公開測(cè)試集效果 SOTA;2) One for All——首創(chuàng)針對(duì)視覺多任務(wù)的超網(wǎng)絡(luò)與訓(xùn)練方案,支持各類任務(wù)、各類硬件的靈活部署,解決大模型參 數(shù)量大,推理性能差的問題。 針對(duì)大模型的開發(fā)和部署問題,VIMER-UFO 給出了 One for All 的解決方案,通過引入超網(wǎng)絡(luò)的概念,超網(wǎng)絡(luò)由眾多稀疏的子網(wǎng)絡(luò)構(gòu)成,每個(gè)子網(wǎng)絡(luò)是超網(wǎng)絡(luò)中的一條路徑,將不同參數(shù)量、不同任務(wù)功能和不同精度 的模型訓(xùn)練過程變?yōu)橛?xùn)練一個(gè)超網(wǎng)絡(luò)模型。訓(xùn)練完成的 VIMER-UFO One for All 超網(wǎng)絡(luò)大模型即可針對(duì)不同的 任務(wù)和設(shè)備低成本生成相應(yīng)的可即插即用的小模型,實(shí)現(xiàn) One for All Tasks 和 One for All Chips 的能力。
VIMER-UFO 2.0 單個(gè)模型一套參數(shù),在不進(jìn)行下游 fine-tuning 的情況下,在 28 個(gè)主流的 CV 公開數(shù)據(jù) 集上取得了 SOTA 的結(jié)果。同時(shí),盡管 VIMER-UFO 2.0 大模型參數(shù)量達(dá)到了 170 億,得益于 Task-MoE 稀 疏結(jié)構(gòu),每個(gè)任務(wù)推理時(shí)只需激活部分參數(shù),計(jì)算量相當(dāng)于 6 億參數(shù)模型規(guī)模,加速比接近 30 倍。
VIMER-StrucTexT 2.0 是端到端文檔 OCR 表征學(xué)習(xí)預(yù)訓(xùn)練模型,首次創(chuàng)新性地提出“單模態(tài)圖像輸入、 多模態(tài)表征學(xué)習(xí)”預(yù)訓(xùn)練框架,僅通過單一文檔圖像的輸入,就能讓模型充分捕獲語(yǔ)義和結(jié)構(gòu)信息。經(jīng)過大規(guī) 模文檔圖像數(shù)據(jù)充分學(xué)習(xí)后的預(yù)訓(xùn)練模型,顯著提高文檔理解全景應(yīng)用任務(wù)效果,包括文檔圖像分類、文檔版 式分析、表格結(jié)構(gòu)解析、文檔 OCR、端到端信息抽取等。VIMER-StrucTexT 2.0 同時(shí)解決了訓(xùn)練數(shù)據(jù)匱乏和傳 統(tǒng) OCR + NLP 鏈路過長(zhǎng)導(dǎo)致的模型表達(dá)能力不足、優(yōu)化效率偏低等問題,能夠廣泛應(yīng)用于各行各業(yè)行文檔、 卡證、票據(jù)等圖像文字識(shí)別和結(jié)構(gòu)化理解。
VIMER-UMS (Unified Multi-Source Pre-training for Product),是百度基于海量的互聯(lián)網(wǎng)商品圖文信息提 出的多源信息統(tǒng)一建模的商品圖文表征預(yù)訓(xùn)練模型,也是行業(yè)首個(gè)統(tǒng)一視覺單模態(tài)與多源圖文模態(tài)表征的商品 多模態(tài)預(yù)訓(xùn)練模型。針對(duì)圖文多模態(tài)建模中模態(tài)信息殘缺問題,通過構(gòu)建視覺特征與多源圖文對(duì)比的多任務(wù)學(xué) 習(xí)框架,實(shí)現(xiàn)統(tǒng)一圖文表征預(yù)訓(xùn)練同時(shí)覆蓋商品視覺單模態(tài)、多模態(tài)識(shí)別與檢索任務(wù),可以顯著改善商品視覺 檢索和商品多模態(tài)檢索體驗(yàn)。
VIMER-UMS 基于端到端 Transformer 訓(xùn)練方式,通過視覺編碼、文本編碼、融合編碼、搜索查詢編碼, 提供多源商品信息的統(tǒng)一表達(dá)結(jié)構(gòu)。由于現(xiàn)有主流多模態(tài)預(yù)訓(xùn)練方法依靠語(yǔ)言作為弱監(jiān)督關(guān)聯(lián)信號(hào),視覺表征 能力存在退化現(xiàn)象。為了解決該問題,VIMER-UMS 通過建立視覺與多源圖文對(duì)比多任務(wù)預(yù)訓(xùn)練,實(shí)現(xiàn)視覺特 征、圖文特征的統(tǒng)一增強(qiáng)表征。
2.1.3 文心跨模態(tài)大模型
文心·跨模態(tài)大模型基于知識(shí)增強(qiáng)的跨模態(tài)語(yǔ)義理解關(guān)鍵技術(shù),可實(shí)現(xiàn)跨模態(tài)檢索、圖文生成、圖片文檔 的信息抽取等應(yīng)用的快速搭建,落實(shí)產(chǎn)業(yè)智能化轉(zhuǎn)型的 AI 助力。 ERNIE-ViL 是業(yè)界首個(gè)融合場(chǎng)景圖知識(shí)的多模態(tài)預(yù)訓(xùn)練模型。ERNIE-ViL 將場(chǎng)景圖知識(shí)融入到視覺-語(yǔ)言 模型的預(yù)訓(xùn)練過程,學(xué)習(xí)場(chǎng)景語(yǔ)義的聯(lián)合表示,顯著增強(qiáng)了跨模態(tài)的語(yǔ)義理解能力。ERNIE-ViL 還在包括視覺 常識(shí)推理、視覺問答、引用表達(dá)式理解、跨模態(tài)圖像檢索、跨模態(tài)文本檢索等 5 項(xiàng)典型多模態(tài)任務(wù)中刷新了世 界最好效果。并在多模態(tài)領(lǐng)域權(quán)威榜單視覺常識(shí)推理任務(wù)(VCR)上登頂榜首。 基于文本中解析出的場(chǎng)景圖,ERNIE-ViL 提出了三個(gè)多模態(tài)場(chǎng)景圖預(yù)測(cè)任務(wù):物體預(yù)測(cè),隨機(jī)選取圖中的 一部分物體,然后對(duì)其在句子中對(duì)應(yīng)的詞進(jìn)行掩碼和預(yù)測(cè);屬性預(yù)測(cè),對(duì)于場(chǎng)景圖中的屬性-物體組合,隨機(jī)選 取一部分詞對(duì)其中屬性詞進(jìn)行掩碼和預(yù)測(cè);關(guān)系預(yù)測(cè),對(duì)于場(chǎng)景圖中的物體-關(guān)系-物體三元組,對(duì)其中的關(guān)系詞 進(jìn)行掩碼和預(yù)測(cè)。
ERNIE-ViL 在場(chǎng)景圖里加入知識(shí),通過它的文字信息去構(gòu)建場(chǎng)景圖,使得模型能夠理解圖中細(xì)粒度的語(yǔ)義。 舉例而言,下圖中有 6 個(gè)人,但只有 5 個(gè)人運(yùn)動(dòng)員,因?yàn)槠渲幸粋€(gè)是裁判,模型要能依據(jù)運(yùn)動(dòng)場(chǎng)景進(jìn)行判斷, 才能給出正確答案。
文心 ERNIE-ViLG 2.0 采用基于知識(shí)增強(qiáng)算法的混合降噪專家建模,是全球首個(gè)知識(shí)增強(qiáng)的 AI 作畫大模 型,也是目前全球參數(shù)規(guī)模最大的 AI 作畫大模型,在文本生成圖像公開權(quán)威評(píng)測(cè)集 MS-COCO 和人工盲評(píng)上 均超越了 Stable Diffusion、DALL-E 2 等模型,取得了當(dāng)前該領(lǐng)域的世界最好效果,并在語(yǔ)義可控性、圖像清 晰度、中國(guó)文化理解等方面展現(xiàn)出了顯著優(yōu)勢(shì)。 文心 ERNIE-ViLG 2.0 通過視覺、語(yǔ)言等多源知識(shí)指引擴(kuò)散模型學(xué)習(xí),強(qiáng)化文圖生成擴(kuò)散模型對(duì)于語(yǔ)義的 精確理解,以提升生成圖像的可控性和語(yǔ)義一致性。同時(shí),ERNIE-ViLG 2.0 首次引入基于時(shí)間步的混合降噪專家模型來提升模型建模能力,讓模型在不同的生成階段選擇不同的“降噪專家”網(wǎng)絡(luò),從而實(shí)現(xiàn)更加細(xì)致的降 噪任務(wù)建模,提升生成圖像的質(zhì)量。
2.2 算力
百度早在 2011 年就開始布局 AI 芯片領(lǐng)域,并逐步建立 AI 技術(shù)的全棧布局,拓展了全面的 AI 應(yīng)用場(chǎng)景。 同時(shí),擁有數(shù)億用戶規(guī)模的產(chǎn)品百度搜索,以及服務(wù)各個(gè)行業(yè)的百度智能云等。同時(shí),百度依托昆侖芯科技前 身為百度智能芯片及架構(gòu)部,昆侖芯是百度自主研發(fā)的云端通用 AI 芯片,目前,昆侖芯 1、2 代已實(shí)現(xiàn)量產(chǎn), 并達(dá)到數(shù)萬片規(guī)模部署。昆侖芯 3 代將于 2024 年初量產(chǎn)。依托深厚技術(shù)沉淀,昆侖芯科技核心團(tuán)隊(duì)于 2017 年 發(fā)布 100%自研、面向通用 AI 計(jì)算的芯片核心架構(gòu)昆侖芯 XPU,并從 AI 落地的實(shí)際需求出發(fā),按照復(fù)雜前沿的人工智能場(chǎng)景需求來迭代架構(gòu)。2018 年至今,昆侖芯云端 AI 芯片已經(jīng)迭代兩代,并實(shí)現(xiàn)數(shù)萬片的規(guī)模落地。 其中,昆侖芯 1 代已經(jīng)在百度搜索引擎、小度等業(yè)務(wù)中部署超過兩萬片,昆侖芯 2 代也于 2021 年 8 月實(shí)現(xiàn)量產(chǎn), 并已在互聯(lián)網(wǎng)、智慧工業(yè)、智慧城市、智算中心、智慧交通、科研等領(lǐng)域?qū)崿F(xiàn)規(guī)?;渴?,服務(wù)來自千行百業(yè) 的不同客戶。
針對(duì)大模型,昆侖芯持續(xù)打磨部署優(yōu)化方案,領(lǐng)跑產(chǎn)業(yè)落地。昆侖芯已將大模型的 Transformer 相關(guān)優(yōu)化 技術(shù)沉淀為重要基建,優(yōu)化后的性能比原有方案提升 5 倍以上,壓縮顯存 30% 以上。以文生圖大模型為例, 昆侖芯已跑通一條端到端優(yōu)化、規(guī)模落地之路。AI 繪畫模型的推理算力及顯存需求隨圖像分辨率增大而指數(shù)級(jí) 增加,同時(shí),圖像生成需要循環(huán)采樣數(shù)十次,產(chǎn)業(yè)落地動(dòng)輒需要高昂成本的部署集群,嚴(yán)重阻礙了 AIGC 模型 大規(guī)模商業(yè)化落地。2022 年第四季度,昆侖芯聯(lián)合客戶,基于飛槳 PaddlePaddle 發(fā)起了端到端聯(lián)合優(yōu)化項(xiàng)目。 在 2-3 周內(nèi),項(xiàng)目組快速完成端到端優(yōu)化,最終實(shí)現(xiàn)輸入文本后 2 秒出圖的優(yōu)化效果,性能提升近 8 倍。 目前,昆侖芯 AI 加速卡 R200 已在該客戶的大模型場(chǎng)景完成規(guī)模部署,性能數(shù)據(jù)全面超越同系列主流推 理卡,基于昆侖芯 AI 加速卡 R200 高效運(yùn)算與推理能力,綜合優(yōu)化方案,在 dpm-25steps 算法下,利用昆侖 芯 AI 加速卡 R200,生成 1024*1024 圖像時(shí)的推理速度為 10.89 iters/s,相比同能力的主流推理卡快 20%; 昆侖芯 AI 加速卡 R200 擁有 32G GDDR6 顯存,為大規(guī)模參數(shù)提供更大的存儲(chǔ)容量、更高帶寬的內(nèi)存訪問、更穩(wěn)定的性能,生成更高分辨率的圖片,為用戶提供高性價(jià)比服務(wù)。
2.3 平臺(tái)
百度飛槳是我國(guó)首個(gè)自主研發(fā)的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)開源開放平臺(tái),飛槳在平臺(tái)功能上具備豐富的產(chǎn)業(yè)級(jí)模型 庫(kù)、端到端開發(fā)套件、工具組件,以及零門檻 AI 開發(fā)平臺(tái) EasyDL 和全功能 AI 開發(fā)平臺(tái) BML、學(xué)習(xí)與實(shí) 訓(xùn)社區(qū) AI Studio,高效支持深度學(xué)習(xí)模型開發(fā)、訓(xùn)練、部署等全流程,降低 AI 技術(shù)應(yīng)用門檻;在生態(tài)上,飛 槳推動(dòng)構(gòu)建了全方位的生態(tài)體系,包括開發(fā)者生態(tài)、教育生態(tài)、企業(yè)生態(tài)、硬件生態(tài),通過生態(tài)共享共創(chuàng)加速 產(chǎn)學(xué)研用協(xié)同創(chuàng)新發(fā)展。
飛槳官方精選產(chǎn)業(yè)算法新增 100 多個(gè),累計(jì)超過 600 個(gè),覆蓋計(jì)算機(jī)視覺(PaddleCV)、自然語(yǔ)言處理 (PaddleNLP)、推薦(PaddleRec)、語(yǔ)音(PaddleSpeech)四大應(yīng)用領(lǐng)域,超過 95%的用戶使用模型庫(kù)。包含經(jīng)過產(chǎn)業(yè) 實(shí)踐長(zhǎng)期打磨的主流模型,42 個(gè)精度與性能平衡的產(chǎn)業(yè)級(jí) PP 系列特色模型,以及文心系列大模型。
飛槳硬件生態(tài)持續(xù)繁榮,包括 Intel、NVIDIA、Arm 等諸多芯片廠商紛紛開展對(duì)飛槳的支持,并主動(dòng)在開 源社區(qū)為飛槳貢獻(xiàn)代碼。飛槳還與飛騰、海光、鯤鵬、龍芯、申威等 CPU 進(jìn)行深入融合適配,并結(jié)合麒麟、統(tǒng) 信、普華操作系統(tǒng),以及昆侖芯、海光、寒武紀(jì)、瑞芯微、算能、高通、Graphcore、Ambarella 等 AI 芯片深度 融合,與浪潮、中科曙光等服務(wù)器廠商合作形成軟硬一體的全棧 AI 基礎(chǔ)設(shè)施。當(dāng)前已經(jīng)適配飛槳的芯片或 IP 廠商超過 40 家,處于業(yè)界領(lǐng)先地位。2022 年 5 月,飛槳聯(lián)合硬件生態(tài)伙伴發(fā)布“硬件生態(tài)共創(chuàng)計(jì)劃”,在聯(lián)合 研發(fā)、資源共享、聯(lián)合授權(quán)、培訓(xùn)賦能等多個(gè)維度全面合作。2022 年 11 月,飛槳“硬件生態(tài)共創(chuàng)計(jì)劃”成員 已經(jīng)從 13 家增加至 28 家。
飛槳平臺(tái)服務(wù)規(guī)??焖贊B透,技術(shù)能力創(chuàng)新卓著。截至 2022 年 11 月,飛槳已凝聚國(guó)內(nèi)規(guī)模最大的開發(fā)者 群體(535 萬)、服務(wù) 20 萬企事業(yè)單位,基于飛槳平臺(tái)創(chuàng)造出 67 萬個(gè) AI 模型,超越 TensorFlow 和 PyTorch 成 為國(guó)內(nèi)服務(wù)規(guī)模最為廣泛的框架工具,不斷夯實(shí) AI 工業(yè)大生產(chǎn)的基礎(chǔ),有力推動(dòng)了我國(guó)實(shí)體經(jīng)濟(jì)的高質(zhì)量發(fā)展。 百度飛槳從 2016 年經(jīng)歷多年積累、沉淀、探索后,創(chuàng)新成果已經(jīng)逐步涌現(xiàn)。飛槳 PaddleClas、PaddleDetection、 PaddleGAN、PaddleOCR、PaddleSpeech 等開發(fā)套件發(fā)布后多次登頂 Papers with Code 和 Github 趨勢(shì)榜單,引起 業(yè)界高度關(guān)注。此外,針對(duì)國(guó)內(nèi)市場(chǎng)需求特點(diǎn),飛槳提供了大量經(jīng)過真實(shí)應(yīng)用場(chǎng)景有效驗(yàn)證的高精度、便捷部 署的官方模型庫(kù),相關(guān)算法及 API 更加強(qiáng)調(diào)對(duì)中文情境的支持優(yōu)化,能夠廣泛支持國(guó)產(chǎn)硬件平臺(tái),技術(shù)能力優(yōu) 勢(shì)逐步凸顯,相較于 TensorFlow 和 PyTorch 成為更滿足國(guó)內(nèi)技術(shù)應(yīng)用需求的開發(fā)框架。
2.4 應(yīng)用
百度文心大模型積極拓展內(nèi)外部應(yīng)用,目前面向公眾和企業(yè)用戶同時(shí)進(jìn)行開放測(cè)試。 內(nèi)部應(yīng)用層面,文心大模型已經(jīng)率先應(yīng)用于百度搜索、信息流、智能駕駛、百度地圖、小度智能屏等內(nèi)部 重要產(chǎn)品上。百度在 5 月 25 日的移動(dòng)生態(tài)大會(huì)上展示了全新的 AI 搜索體系。1)極致滿足:搜索結(jié)果不再是簡(jiǎn) 單的文本段落,而是多模態(tài)的,包括相關(guān)的圖片和視頻,省去了用戶的瀏覽和總結(jié)時(shí)間。對(duì)于那些相對(duì)簡(jiǎn)單但 沒有現(xiàn)成答案的問題,AI 可以展示邏輯推理和計(jì)算能力,直接給出可用的結(jié)果。對(duì)于開放的多答案問題,百度 AI 搜索可以整合多個(gè)符合要求的答案,并列出引用和選擇依據(jù),滿足用戶需求。此外,搜索引擎還能自動(dòng)定位 到視頻中相關(guān)內(nèi)容的位置,方便用戶查看。根據(jù)介紹,現(xiàn)在百度搜索每天有 70%的問答需求能在首條搜索結(jié)果 中得到滿足,這一比例在半年前只有 40%,這種改進(jìn)進(jìn)一步提升了需求,現(xiàn)在每天有超過 3000 萬次的新增問答 需求。2)AI 伙伴:除了提供豐富準(zhǔn)確的搜索結(jié)果,百度還提出了全能的"AI 伙伴",使人們能夠以最直接的方 式獲取人工智能的能力。通過 AI 伙伴,人們可以使用自然語(yǔ)言或語(yǔ)音作為輸入,獲得準(zhǔn)確詳細(xì)的搜索結(jié)果。 AI 伙伴不僅會(huì)在生成答案時(shí)標(biāo)出重點(diǎn)并列出引用鏈接,還能調(diào)用其他工具和服務(wù)完成任務(wù),并接受進(jìn)一步追問 或指正。AI 伙伴還可以根據(jù)用戶意圖生成圖片、進(jìn)行文案寫作,在不同任務(wù)中扮演具體的角色,如旅行時(shí)可以充當(dāng)導(dǎo)游,寫作業(yè)時(shí)可以充當(dāng)老師。3)AIBOT:以往人們對(duì)搜索引擎結(jié)果的準(zhǔn)確性有所顧慮,因?yàn)闊o論 AI 算 法有多準(zhǔn)確,始終只是概率統(tǒng)計(jì)的結(jié)果,并不能代表專家意見。為解決這個(gè)問題,百度推出了全新的 AIBOT。 類似于 ChatGPT 的插件,AIBOT 通過與第三方技術(shù)提供商的合作,使搜索可以自動(dòng)接入特定能力。目前亮相的 AIBOT 覆蓋了創(chuàng)作、商業(yè)、機(jī)構(gòu)、服務(wù)和品牌等多個(gè)領(lǐng)域,它們可以利用專業(yè)領(lǐng)域知識(shí)直接回答用戶的問題。
百度文心圍繞大模型產(chǎn)業(yè)應(yīng)用的不同研發(fā)環(huán)節(jié),面向各階段不同技術(shù)、業(yè)務(wù)背景的開發(fā)者或用戶,打造系 列工具平臺(tái)與場(chǎng)景化產(chǎn)品。 大模型套件:百度文心推出新一代預(yù)訓(xùn)練范式的 NLP 算法定制開發(fā)工具集 ERNIEKit,面向 NLP 工程師, 提供全流程大模型開發(fā)與部署工具集,端到端、全方位發(fā)揮大模型效能。包括數(shù)據(jù)標(biāo)注與處理、大模型精調(diào)、 大模型壓縮、高性能部署、場(chǎng)景化工具五大模塊能力; AI 開發(fā)平臺(tái):百度 AI 開發(fā)以雙平臺(tái)模式驅(qū)動(dòng),面向應(yīng)用開發(fā)者或業(yè)務(wù)專家提供零門檻 AI 開放平臺(tái) EasyDL, 面向 AI 算法開發(fā)者提供全功能 AI 開發(fā)平臺(tái) BML。EasyDL 使用百度文心 NLP、CV、跨模態(tài)大模型作為訓(xùn)練基 座,利用少量數(shù)據(jù)即可獲得理想的模型效果,具有零門檻、高精度、低成本數(shù)據(jù)、超靈活部署四大核心優(yōu)勢(shì)。 BML 深度融合文心大模型,提供 Notebook 建模、預(yù)置模型調(diào)參、可視化建模、模型產(chǎn)線建模、Pipeline 建模、 實(shí)驗(yàn)管理等功能,兼具性能和性價(jià)比;
3、騰訊
騰訊構(gòu)建了“太極機(jī)器學(xué)習(xí)平臺(tái)+混元大模型”,同時(shí)騰訊啟動(dòng)了“混元助手”知識(shí)增強(qiáng)大語(yǔ)言模型項(xiàng)目。 2016 年,騰訊成立了 AI Lab 實(shí)驗(yàn)室。2022 年 4 月,騰訊對(duì)外披露了混元大模型,涉及自然語(yǔ)言處理、計(jì)算機(jī) 視覺、多模態(tài)等多個(gè)領(lǐng)域。騰訊自研的太極機(jī)器學(xué)習(xí)平臺(tái)為混元大模型提供算力,可支持 10TB 級(jí)模型訓(xùn)練、 TB 級(jí)模型推理計(jì)算能力等。 騰訊 AI Lab 是騰訊的企業(yè)級(jí) AI 實(shí)驗(yàn)室,于 2016 年 4 月在深圳成立,目前有 100 多位頂尖研究科學(xué)家及 300 多位應(yīng)用工程師。2017 年公司提出了“Make AI Everywhere” 的戰(zhàn)略愿景,和“基礎(chǔ)研究—場(chǎng)景共建—能力開 放”的三層 AI 戰(zhàn)略架構(gòu)。作為衡量機(jī)構(gòu)研究實(shí)力的重要標(biāo)準(zhǔn),成立四年多來,騰訊 AI Lab 的基礎(chǔ)研究成果已 覆蓋 CVPR、ACL、ICML、NIPS 及 Nature Communications 等國(guó)際頂級(jí) AI 學(xué)術(shù)會(huì)議或期刊,發(fā)表論文超過 460 篇,位居國(guó)內(nèi)企業(yè)前列。截止 2020 年 3 月,騰訊擁有 AI 全球?qū)@^ 6500 個(gè),中國(guó)專利超過 5000 個(gè)。
3.1 模型
2022 年 4 月,騰訊首次披露了混元 AI 大模型研發(fā)進(jìn)展,先后在 MSR-VTT、MSVD、LSMDC、DiDeMo 和 ActivityNet 五大最具權(quán)威的跨模態(tài)視頻檢索數(shù)據(jù)集榜單中取得第一名,實(shí)現(xiàn)跨模態(tài)檢索領(lǐng)域的大滿貫。當(dāng) 月,騰訊混元 AI 大模型又在中文語(yǔ)言理解評(píng)測(cè)基準(zhǔn) CLUE 分類榜中取得第一名,分?jǐn)?shù)突破了 80.000 分,接 近人類語(yǔ)言理解能力,刷新該榜單歷史記錄。這是混元 AI 大模型在斬獲跨模態(tài)檢索榜單大滿貫后,取得的又 一突破性進(jìn)展,展現(xiàn)了該模型在自然語(yǔ)言處理上的實(shí)力。 2022 年 5 月,騰訊混元 AI 大模型在 CLUE 總排行榜、閱讀理解、大規(guī)模知識(shí)圖譜三個(gè)榜單同時(shí)登頂, 一舉打破三項(xiàng)紀(jì)錄。據(jù)了解,CLUE 總榜由分類任務(wù)和閱讀理解任務(wù)構(gòu)成。騰訊混元 AI 大模型在一個(gè)月內(nèi)先后實(shí)現(xiàn)分類任務(wù)、閱讀理解雙佳績(jī),最終以 84.730 的成績(jī)?nèi)〉每偘竦谝?。之后混?AI 大模型又在多模態(tài)理 解領(lǐng)域國(guó)際權(quán)威榜單 VCR(Visual Commonsense Reasoning,視覺常識(shí)推理)中登頂,兩個(gè)單項(xiàng)成績(jī)和總成績(jī) 均位列第一。這是繼在跨模態(tài)檢索領(lǐng)域?qū)崿F(xiàn)大滿貫、CLUE 自然語(yǔ)言理解分類榜及 CLUE 總榜登頂后,混元 AI 大模型的又一重大突破,展現(xiàn)了其在多模態(tài)理解領(lǐng)域的強(qiáng)大實(shí)力。
3.2 算力
騰訊發(fā)布大模型算力集群 HCC 大幅提速模型訓(xùn)練。大模型進(jìn)入萬億參數(shù)時(shí)代,單體服務(wù)器提供的算力有限, 需要將大量服務(wù)器相連,協(xié)同優(yōu)化單機(jī)算力、網(wǎng)絡(luò)架構(gòu)和存儲(chǔ)性能,打造大規(guī)模、分布式的高性能計(jì)算集群。 以新一代集群為標(biāo)志,基于自研芯片、星星海自研服務(wù)器和分布式云操作系統(tǒng)遨馳,騰訊云正通過軟硬一體的 方式,打造面向 AIGC 的高性能智算網(wǎng)絡(luò),持續(xù)加速全社會(huì)云上創(chuàng)新。 2023 年 4 月 14 日,騰訊云發(fā)布新一代 HCC 高性能計(jì)算集群,其采用最新一代星星海自研服務(wù)器,搭載 NVIDIA H800 Tensor Core GPU,并基于自研網(wǎng)絡(luò)、存儲(chǔ)架構(gòu),帶來 3.2T 超高互聯(lián)帶寬 TB 級(jí)吞吐能力和千萬 級(jí) IOPS。實(shí)測(cè)結(jié)果顯示新一代集群算力性能較前代提升 3 倍。2022 年 10 月,騰訊完成首個(gè)萬億參數(shù)的 AI 大 模型——混元 NLP 大模型訓(xùn)練。在同等數(shù)據(jù)集下,將訓(xùn)練時(shí)間由 50 天縮短到 11 天。如果基于新一代集群,訓(xùn) 練時(shí)間將進(jìn)一步縮短至 4 天。 服務(wù)器單機(jī)性能是集群算力的基礎(chǔ),新一代集群的單 GPU 卡在不同精度下,支持輸出最高 1979 TFlops 的 算力。針對(duì)大模型場(chǎng)景,星星海自研服務(wù)器采用 6U 超高密度設(shè)計(jì),相較行業(yè)可支持的上架密度提高 30%;利 用并行計(jì)算理念,通過 CPU 和 GPU 節(jié)點(diǎn)的一體化設(shè)計(jì),將單點(diǎn)算力性能提升至更高。
此外,新一代集群集成了騰訊云自研的 TACO 訓(xùn)練加速引擎,對(duì)網(wǎng)絡(luò)協(xié)議、通信策略、AI 框架、模型編譯 進(jìn)行大量系統(tǒng)級(jí)優(yōu)化,大幅節(jié)約訓(xùn)練調(diào)優(yōu)和算力成本。騰訊太極機(jī)器學(xué)習(xí)平臺(tái)自研的訓(xùn)練框架 AngelPTM,也 已通過騰訊云 TACO 提供服務(wù),幫助企業(yè)加速大模型落地。依托分布式云原生的治理能力,騰訊云智算平臺(tái)提 供 16 EFLOPS 的浮點(diǎn)算力,規(guī)模業(yè)界領(lǐng)先。通過騰訊云的大模型能力和工具箱,企業(yè)可結(jié)合產(chǎn)業(yè)場(chǎng)景數(shù)據(jù)進(jìn)行 精調(diào)訓(xùn)練,提升生產(chǎn)效率、快速創(chuàng)建和部署 AI 應(yīng)用。
3.3 平臺(tái)
騰訊自研搭建了業(yè)界一流的太極機(jī)器學(xué)習(xí)平臺(tái),致力于讓用戶更加聚焦業(yè)務(wù) AI 問題解決和應(yīng)用,一站式的 解決算法工程師在 AI 應(yīng)用過程中特征處理,模型訓(xùn)練,模型服務(wù)等工程問題。結(jié)合對(duì)用戶的習(xí)慣理解和功能沉 淀,太極在產(chǎn)品層提供數(shù)據(jù)/特征工程,模型訓(xùn)練,模型服務(wù)三塊。閉環(huán)了用戶離線訓(xùn)練到在線服務(wù)的應(yīng)用,包 含了不同場(chǎng)景下的數(shù)據(jù)訪問訴求,不同訓(xùn)練模型的訴求,在線服務(wù)可靠性的訴求。算法框架&組件層提供了機(jī) 器學(xué)習(xí)、深度學(xué)習(xí)核心組件??芍С?10TB 級(jí)模型訓(xùn)練、TB 級(jí)模型推理和分鐘級(jí)模型發(fā)布上線,擴(kuò)展集群規(guī)模 則可支持更大的模型訓(xùn)練和推理,為實(shí)際業(yè)務(wù)提供大模型的情況下,同時(shí)具有很高的性能,達(dá)到行業(yè)領(lǐng)先水平。 太極機(jī)器學(xué)習(xí)平臺(tái)采用了分布式參數(shù)服務(wù)器架構(gòu),其是業(yè)界第一梯隊(duì)企業(yè)們公認(rèn)的最佳選擇。這種架構(gòu)的 特點(diǎn)是,存儲(chǔ)模型參數(shù)和執(zhí)行模型計(jì)算,這兩種任務(wù)在分別的服務(wù)器上運(yùn)行,增加更多服務(wù)器就可以支持更大、 計(jì)算需求更高的模型。太極機(jī)器學(xué)習(xí)平臺(tái)中的參數(shù)服務(wù)器系統(tǒng) AngelPS 也是騰訊自研的成果,現(xiàn)在不僅可以承 載 10TB 級(jí)模型的訓(xùn)練,對(duì)多維特征融合、復(fù)雜模型結(jié)構(gòu)等更高級(jí)、更前瞻性的功能也有優(yōu)秀支持。同時(shí)太極 機(jī)器學(xué)習(xí)平臺(tái)還具備超大模型在線推理服務(wù)的能力。推理計(jì)算方面,不僅支持常規(guī)的 CPU 計(jì)算,還支持復(fù)雜模 型的 GPU 計(jì)算加速;存儲(chǔ)上,根據(jù)在線推理模型大小,自適應(yīng)選擇小模型本地內(nèi)存加載和大模型 AngelPS 遠(yuǎn)程 查詢的部署策略;在線服務(wù)運(yùn)營(yíng)上,平臺(tái)具備多級(jí)容災(zāi)能力,臟模型秒級(jí)回滾能力,以及完備的系統(tǒng)和業(yè)務(wù)運(yùn) 行實(shí)時(shí)指標(biāo)監(jiān)控和報(bào)警系統(tǒng)。
太極 AngelPTM 的設(shè)計(jì)目標(biāo)是依托太極機(jī)器學(xué)習(xí)平臺(tái),為 NLP、CV 和多模態(tài)、AICG 等多類預(yù)訓(xùn)練任 務(wù)提供一站式服務(wù)。其主要由高性能訓(xùn)練框架、通用加速組件和基礎(chǔ)模型倉(cāng)庫(kù)組成。太極 AngelPTM 主要有三 大部分:1)高性能訓(xùn)練框架:包含大模型訓(xùn)練框架 ZeRO-Cache,高性能 MOE 組件,以及 3D 并行和自動(dòng) 流水并行策略;2)通用加速組件:包含可減少顯存并提高精度的異構(gòu) Adafactor 優(yōu)化器,可穩(wěn)定 MOE 半精 度訓(xùn)練 loss 的 Z_loss 組件,選擇性重計(jì)算組件和降低通信代價(jià)的 PowerSGD 組件;3)基礎(chǔ)模型倉(cāng)庫(kù):包含 T5、BERT、GPT 以及 Transformer 等基礎(chǔ)模型。
3.4 應(yīng)用
騰訊 AI Lab 的 AI 技術(shù)也廣泛應(yīng)用在微信、QQ 和騰訊覓影等上百款產(chǎn)品。行業(yè)應(yīng)用上,實(shí)驗(yàn)室研發(fā)出的 圍棋 AI「絕藝」屢獲國(guó)際賽事冠軍,是科技賦能國(guó)粹文化的代表;與王者榮耀研發(fā)的策略協(xié)作型 AI「絕悟」達(dá) 到職業(yè)水平,代表國(guó)際水準(zhǔn)的研究能力。布局前沿多模態(tài)數(shù)字人技術(shù),探索數(shù)字內(nèi)容生成的新可能。實(shí)驗(yàn)室支 持的國(guó)家級(jí) AI+醫(yī)療標(biāo)桿產(chǎn)品「騰訊覓影」與「騰訊醫(yī)典」也不斷取得技術(shù)突破,「騰訊覓影」從醫(yī)療影像延伸 到輔助診療等功能,截止 2018 年 10 月,項(xiàng)目已落地 100 多家全國(guó)三甲醫(yī)院,服務(wù)患者近 40 萬人。2020 年, 實(shí)驗(yàn)室發(fā)布自研智能顯微鏡及 AI 藥物發(fā)現(xiàn)平臺(tái)「云深智藥」,并初步探索 AI+農(nóng)業(yè)智慧溫室項(xiàng)目。
AI + 生命健康:在醫(yī)療領(lǐng)域,騰訊 AI Lab 與北京協(xié)和醫(yī)院共同發(fā)布了具有完全自主知識(shí)產(chǎn)權(quán)的便攜式智 能化手術(shù)導(dǎo)航系統(tǒng),實(shí)現(xiàn)高精度、便攜式、低成本等特點(diǎn),就像給臨床醫(yī)生的手術(shù)配上了 GPS,輔助醫(yī)生精準(zhǔn) 定位隱藏在腦組織中的病變。該系統(tǒng)在協(xié)和神經(jīng)外科已成功開展了 50 余例臨床試驗(yàn),涉及腦出血、垂體腺瘤、 膠質(zhì)瘤、腦膜瘤、顱咽管瘤等多種疾病,臨床初步應(yīng)用取得成功。騰訊 AI Lab 還與邁瑞共同研發(fā)了全自動(dòng)外 周血細(xì)胞形態(tài)學(xué)分析儀,并完成了創(chuàng)新醫(yī)療器械特別審查申請(qǐng)公示,正式進(jìn)入國(guó)家藥品監(jiān)督管理局創(chuàng)新通道, 成為國(guó)內(nèi)體外診斷行業(yè)首個(gè)進(jìn)入該程序的 AI 類產(chǎn)品。該分析儀通過創(chuàng)新性的形態(tài)學(xué)檢測(cè)方案,以優(yōu)異的指標(biāo) 及效率,實(shí)現(xiàn)白血病等高發(fā)惡性腫瘤的早期篩查輔助臨床診斷。
AI+內(nèi)容:騰訊 AI Lab 持續(xù)探索 AI 與人協(xié)同合作的內(nèi)容生成技術(shù),此前相繼發(fā)布了文本理解系統(tǒng) TexSmart、交互翻譯系統(tǒng) TranSmart 等,并且創(chuàng)新性地探索了 AI 在游戲電競(jìng)、直播等領(lǐng)域的應(yīng)用。 智能寫作方面,22 年 4 月,發(fā)布智能寫作助手「文涌(Effidit)」,用技術(shù)助力文思泉涌。初版本融合了知 識(shí)抽取、文本理解、文本生成、大規(guī)模預(yù)訓(xùn)練模型、經(jīng)典語(yǔ)言模型、搜索等多項(xiàng)技術(shù)積累,提供多維度文本補(bǔ) 全,多樣化文本潤(rùn)色等核心功能,及例句推薦、文本糾錯(cuò)、云輸入法、學(xué)術(shù)專業(yè)版等完整的輔助寫作能力。22 年 12 月,文涌 2.0 版本發(fā)布,新版本增加了風(fēng)格化文本續(xù)寫等眾多功能,共包含「文本補(bǔ)全」、「智能糾錯(cuò)」、 「文本潤(rùn)色」、「超級(jí)網(wǎng)典」四個(gè)模塊,其中「文本補(bǔ)全」和「超級(jí)網(wǎng)典」旨在幫助寫作者在創(chuàng)作時(shí)開闊思路、 提供彈藥,而「智能糾錯(cuò)」和「文本潤(rùn)色」則是重在提升創(chuàng)作后的文本水平和質(zhì)量。部分功能目前已接入搜狗 輸入法 PC 端(「智能汪仔」)和 QQ 瀏覽器移動(dòng)端。
4、字節(jié)
相對(duì)于阿里、百度、騰訊均已經(jīng)推出大模型及布局,字節(jié)目前仍未公布內(nèi)部架構(gòu)、產(chǎn)品體系及大模型的最 新進(jìn)展。字節(jié)的 AI 布局可以追溯到 2016 年成立的字節(jié) AI LAB 的成立,AI Lab 對(duì)自身的定位是作為公司內(nèi)部 的研究所和技術(shù)服務(wù)商,為平臺(tái)輸出海量?jī)?nèi)容提供 AI 技術(shù)支持。AI Lab 最初成立的時(shí)候聚集了馬維英、李航、 李磊等大牛,此后馬維英離開團(tuán)隊(duì)回到學(xué)界,目前阿里 M6 大模型的前帶頭人楊紅霞已加入字節(jié) AI Lab(人工 智能實(shí)驗(yàn)室),參與語(yǔ)言生成大模型的研發(fā)。 字節(jié)目前大模型仍處于發(fā)展階段,現(xiàn)以旗下云平臺(tái)火山引擎在算力、平臺(tái)和生態(tài)端布局為主。大模型團(tuán)隊(duì) 由字節(jié)搜索部門牽頭,搜索業(yè)務(wù)部門、AI Lab 和 AML(應(yīng)用機(jī)器學(xué)習(xí))團(tuán)隊(duì)均調(diào)任部分人馬支援,目前團(tuán)隊(duì)規(guī) 模在 40 人左右,圖片大模型團(tuán)隊(duì)由產(chǎn)品研發(fā)與工程架構(gòu)部下屬的智能創(chuàng)作團(tuán)隊(duì)牽頭;團(tuán)隊(duì)負(fù)責(zé)人間接和直接匯 報(bào)對(duì)象,則均為 TikTok 產(chǎn)品技術(shù)負(fù)責(zé)人朱文佳。根據(jù)調(diào)研情況,字節(jié)目前在仍在做模型調(diào)優(yōu),計(jì)劃 23 年 6-9 月達(dá)到 3.5 模型相當(dāng)?shù)乃剑? 月之后語(yǔ)言模型可以同步做發(fā)布和多模態(tài)模型訓(xùn)練,語(yǔ)言模型發(fā)布至少要到 9 月 之后。后面會(huì)基于當(dāng)前的語(yǔ)言模型,做多模態(tài)的模型,多模態(tài)相對(duì)來說難度會(huì)更大,至少要等到 24 年 3-4 月。
4.1 模型
字節(jié)在 AI 方面的積累主要集中在機(jī)器翻譯、智能語(yǔ)音、視頻圖像和多模態(tài)四個(gè)領(lǐng)領(lǐng)域。字節(jié)跳動(dòng)的研究成 果包括非自回歸模型 DA-Transformer、端到端語(yǔ)音到文本翻譯模型 ConST、多顆粒度的視覺語(yǔ)言模型 X-VLM、 圖片和文本統(tǒng)一生成模型 DaVinci 等。 在機(jī)器翻譯方面,字節(jié)旗下火山翻譯團(tuán)隊(duì) 2022 年在 SC22、ACL2022、ICML2022 等頂會(huì)發(fā)表學(xué)術(shù)成果 10 余篇,受邀參加了英偉達(dá) GTC 2022 全球 AI 開發(fā)者大會(huì)等知名技術(shù)論壇,申報(bào)翻譯技術(shù)專利 15 項(xiàng),榮獲中國(guó) 專利優(yōu)秀獎(jiǎng)在 WMT2022 的非洲語(yǔ)向任務(wù)上奪得桂冠。目前,火山翻譯提供 9 大領(lǐng)域翻譯,其中包括但不限于 人工智能、互聯(lián)網(wǎng)行業(yè)生物醫(yī)療、科學(xué)技術(shù)、金融財(cái)經(jīng),支持共 114 個(gè)語(yǔ)向的翻譯,其中包括伊博語(yǔ)、亞美尼 亞語(yǔ)等小語(yǔ)種。其中,字節(jié)和清華聯(lián)合發(fā)布了 DA-Transformer,DA-Transformer 在機(jī)器翻譯上首次達(dá)到了 Transformer 同樣的精度,而處理的速度提高了 7~14 倍。DA-Transformer 不僅可以用于機(jī)器翻譯,而且可以用 于任意的序列到序列任務(wù)。
在多模態(tài)方面,2022 年 3 月,字節(jié)發(fā)布的 text2image 模型實(shí)現(xiàn)了文生圖能力,實(shí)驗(yàn)數(shù)據(jù)顯示,其效果比 VQGAN-CLIP 要真實(shí),尤其是泛化能力還比不少用大量文本-圖像數(shù)據(jù)對(duì)訓(xùn)練出來的模型要好很多。2022 年 5 月,字節(jié)跳動(dòng) AI Lab Research 團(tuán)隊(duì)提出了 X-VLM,首次提出學(xué)習(xí)多粒度的視覺和語(yǔ)言對(duì)齊。實(shí)驗(yàn)證明,這種 預(yù)訓(xùn)練方法十分高效,模型規(guī)模無需很大,預(yù)訓(xùn)練數(shù)據(jù)無需很多,僅 216M 參數(shù)量的 X-VLM 就能在廣泛的多模 態(tài)任務(wù)上獲得了十分優(yōu)秀的表現(xiàn),例如:圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成。 目前,X-VLM 在字節(jié)跳動(dòng)的真實(shí)應(yīng)用場(chǎng)景上超過了業(yè)界常用的多個(gè)模型,完成了上線,服務(wù)于如今日頭條等 業(yè)務(wù)。相關(guān)論文已被 ICML 2022 接收。
4.2 算力
2023 年 4 月 18 日,火山引擎在春季火山引擎 FORCE 原動(dòng)力大會(huì)上正式發(fā)布自研 DPU 等系列云產(chǎn)品,并 正式推出智能推薦-高速訓(xùn)練引擎,支持 100GB 至 10TB 以上超大模型的高效訓(xùn)練,采取軟硬一體優(yōu)化設(shè)計(jì)等, 讓面向推薦場(chǎng)景的高速訓(xùn)練更快,成本更低。 火山引擎智能推薦-高速訓(xùn)練引擎具備軟硬一體、細(xì)粒度算子優(yōu)化、分布式訓(xùn)練和推理三大特點(diǎn),1)軟硬 一體化:針對(duì)關(guān)鍵場(chǎng)景的超大模型,火山引擎智能推薦-高速訓(xùn)練引擎提供了全 GPU 方案,可以支持 100GB-10TB 的超大模型的高速訓(xùn)練,綜合 ROI 是 CPU 的 5 倍;覆蓋更多場(chǎng)景的模型,提供了 GPU+CPU 混訓(xùn)方案,綜合 ROI 是 CPU 的 2 倍;2)細(xì)粒度算子優(yōu)化:針對(duì)搜索、推薦和營(yíng)銷場(chǎng)景,優(yōu)化細(xì)粒度算子,使得在模型推理的 過程中有更好的性能表現(xiàn)。在訓(xùn)練時(shí),通過算子融合并精細(xì)調(diào)優(yōu),性能提升 20%;在推理時(shí),通過算子優(yōu)化, 性能提升 40%;3)分布式訓(xùn)練和推理:智能推薦-高速訓(xùn)練引擎為了保障系統(tǒng)的穩(wěn)定性,支持訓(xùn)練和推理的全 方位容錯(cuò),當(dāng)某一個(gè)節(jié)點(diǎn)故障時(shí),可以快速恢復(fù);支持分布式推理,包括多分片、多副本,從而保證線上服務(wù) 的高可用。
4.3 平臺(tái)
2022 年 7 月,火山引擎正式發(fā)布機(jī)器學(xué)習(xí)平臺(tái),達(dá)到 0 碎片的極致性能和優(yōu)秀的開發(fā)體驗(yàn),火山引擎機(jī)器 學(xué)習(xí)平臺(tái)解決方案已在金融、零售、能源、教育等行業(yè)落地,幫助更多企業(yè)不斷縮短智能業(yè)務(wù)研發(fā)周期,提高 模型上線效率和 GPU 使用率,并依靠定制化的智能模型實(shí)現(xiàn)業(yè)務(wù)增長(zhǎng)。 火山引擎在數(shù)據(jù)管理、資源管理、流程和模型三大領(lǐng)域具備核心優(yōu)勢(shì)。1)在數(shù)據(jù)管理場(chǎng)景下,火山引擎機(jī) 器學(xué)習(xí)平臺(tái)可通過結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)庫(kù)、數(shù)據(jù)協(xié)同標(biāo)注與版本化管理、多租戶安全等,保護(hù)企業(yè)數(shù)據(jù)資產(chǎn), 為機(jī)器學(xué)習(xí)、深度學(xué)習(xí)開發(fā)助力;2)在資源管理場(chǎng)景下,機(jī)器學(xué)習(xí)平臺(tái)可通過 GPU、CPU 調(diào)度,模型分布式 訓(xùn)練,資源動(dòng)態(tài)分配,彈性線上推理服務(wù)等,提供機(jī)器學(xué)習(xí)模型開發(fā)所需要的算力。無論是在字節(jié)跳動(dòng)內(nèi)部還 是在外部客戶,該平臺(tái)都已實(shí)現(xiàn)萬級(jí) GPU 算力資源的池化管理、調(diào)度和共享;3)對(duì)于流程和模型管理,機(jī)器 學(xué)習(xí)平臺(tái)提供 DevOps 能力。不同于一般業(yè)務(wù),機(jī)器學(xué)習(xí)應(yīng)用的發(fā)布包含了所有規(guī)則和處理邏輯,在應(yīng)用上線 后,由于需要周期性地進(jìn)行更新、優(yōu)化迭代,模型本身對(duì)外部數(shù)據(jù)有強(qiáng)依賴,這使得整個(gè) DevOps 更復(fù)雜。火 山引擎機(jī)器學(xué)習(xí)平臺(tái)構(gòu)建了 DevOps 流水線,實(shí)現(xiàn)從數(shù)據(jù)處理、模型訓(xùn)練、模型評(píng)估、模型發(fā)布的持續(xù)集成, 提升端對(duì)端業(yè)務(wù)上線效率。平臺(tái)也支持通過超參數(shù)自動(dòng)搜索、多模型自動(dòng)比對(duì)與評(píng)估、模型版本化管理、線上 模型運(yùn)維等,降低模型開發(fā)和維護(hù)門檻。
4.4 應(yīng)用
火山引擎的 AI 場(chǎng)景產(chǎn)品主要包括智能創(chuàng)作、智能體驗(yàn)以及智能營(yíng)銷,目前已服務(wù)數(shù)百家客戶,分別在視頻 創(chuàng)作、互動(dòng)創(chuàng)作、直播短視頻構(gòu)建中推動(dòng)客戶業(yè)務(wù)增長(zhǎng)。在內(nèi)容視頻化和互動(dòng)趣味化的大趨勢(shì)下,火山引擎創(chuàng) 作與體驗(yàn)場(chǎng)景提供了從算法到平臺(tái)的全域解決方案,在 AI 底層算法的支持下,通過全品類的正版素材和特色化 的創(chuàng)作工具,快速完成視頻、特效、虛擬形象、XR 等創(chuàng)新內(nèi)容。不管是企業(yè)用戶還是個(gè)人用戶,人人都可擁有 創(chuàng)作比較專業(yè)的短視頻的能力。 智能創(chuàng)作云是火山引擎發(fā)布的面向企業(yè)的創(chuàng)作 AI 產(chǎn)品,智能創(chuàng)作云包括眾多 AI 創(chuàng)作工具,比如圖文轉(zhuǎn)視 頻能力,用戶只需輸入文字即可生成視頻,AI 通過理解文字內(nèi)容,搭配適合的圖片、音樂和轉(zhuǎn)場(chǎng)等,快速生成 一支專業(yè)的視頻;比如視頻模板,剪同款功能就是把優(yōu)質(zhì)視頻內(nèi)容抽象成腳本,用戶只要會(huì)打開攝像頭拍攝, 就有了專業(yè)拍、剪視頻的能力,極大降低了創(chuàng)作門檻,保障了內(nèi)容生產(chǎn)的質(zhì)量。
字節(jié)旗下云服務(wù)平臺(tái)云服務(wù)平臺(tái)火山引擎提供有關(guān)音視頻的智能美化特效。智能美化特效基于自主研發(fā)的 特效 SDK,提供多項(xiàng)圖像渲染和算法,提供貼紙?zhí)匦?美化濾鏡/人像智能/計(jì)算機(jī)視覺基礎(chǔ)檢測(cè)識(shí)別等功能,用 于拍照工具、直播、短視頻、在線教育、體感游戲等場(chǎng)景。目前,智能美化特效擁有超過 200 個(gè)自研算法、具 備小于 2ms 的人臉檢測(cè)速度,提供超過 90 萬個(gè)抖音同款特效貼紙和濾鏡。 此外,字節(jié)在內(nèi)部的相關(guān)產(chǎn)品持續(xù)引入 AI。2022 年 5 月,字節(jié)推出海綿樂隊(duì) App,海綿樂隊(duì)是一款手機(jī)端 的便攜式音頻創(chuàng)作工具,在實(shí)現(xiàn)傳統(tǒng)的錄音、效果器同時(shí),引入大量 AI 智能來協(xié)助創(chuàng)作,降低使用難度,提高 創(chuàng)作趣味和效率。2023 年 4 月 12 日,飛書宣布將推出智能 AI 助手“My AI”, My AI 包括自動(dòng)匯總會(huì)議紀(jì)要、 創(chuàng)建報(bào)告、優(yōu)化和續(xù)寫文字內(nèi)容等。在飛書 App 中,My AI 也可以通過對(duì)話形式,幫助用戶自動(dòng)創(chuàng)建日程、搜 索公司內(nèi)部知識(shí)庫(kù)等功能。飛書還表示,My AI 能做的遠(yuǎn)不止于此。未來,更強(qiáng)大的智能助手,也會(huì)讓工作中 的人們更強(qiáng)大。
三、商業(yè)模式
當(dāng)前全球大模型產(chǎn)業(yè)落地仍處于早期探索階段。一方面,研發(fā)機(jī)構(gòu)在大模型方面的技術(shù)研發(fā)已較為成熟, 如算法架構(gòu)、預(yù)訓(xùn)練和微調(diào)策略、計(jì)算并行加速等,但對(duì)落地場(chǎng)景不夠熟悉,沒有形成完善的商業(yè)化模式,需 要與下游場(chǎng)景企業(yè)合作建立大模型商業(yè)模式;另一方面,絕大多數(shù)下游場(chǎng)景的企業(yè)對(duì)大模型沒有形成基本的概 念和認(rèn)知,同時(shí)也沒有能夠支撐模型微調(diào)的算力,以及定制、二次開發(fā)模型的人力資源和技術(shù)實(shí)力。 此輪基于 ChatGPT 的大模型浪潮興起伊始,結(jié)合我國(guó) AI 產(chǎn)業(yè)鏈與競(jìng)爭(zhēng)格局現(xiàn)狀,一種判斷是:基于大模 型的通用和泛化性提高,未來手握通用基礎(chǔ)大模型的巨頭企業(yè)會(huì)逐漸侵蝕垂直領(lǐng)域廠商業(yè)務(wù)。這種壓力長(zhǎng)期來 看的確存在,但大模型與產(chǎn)品結(jié)合,尤其在非檢索或開放域交互等場(chǎng)景中,需要依賴垂直領(lǐng)域數(shù)據(jù)和行業(yè) know-how、應(yīng)用場(chǎng)景和用戶數(shù)據(jù)反哺、一站式端到端工程化能力等。在此窗口期,垂直領(lǐng)域與應(yīng)用層廠商應(yīng)積 極將大模型能力整合入自己的技術(shù)棧,服務(wù)于產(chǎn)品功能優(yōu)化,建立“數(shù)據(jù)飛輪”壁壘。在下游豐富的基于大語(yǔ) 言模型、AIGC 應(yīng)用開發(fā)需求的影響下,還將分化出一類工具型或平臺(tái)型廠商,主要提供基于各類大模型的開 發(fā)平臺(tái)服務(wù),幫助客戶實(shí)現(xiàn)便捷的 AIGC 應(yīng)用開發(fā)與落地。
1、API 模式
API 模式指的是由大模型的研發(fā)主體(如科研機(jī)構(gòu))對(duì)完成的模型文件進(jìn)行封裝,將模型在各類任務(wù)上的 推理能力封裝成統(tǒng)一的應(yīng)用程序接口,對(duì)外提供服務(wù)的模式。下游企業(yè)可以獲得這些接口,并按照自身的業(yè)務(wù) 需求,將接口作為可以調(diào)用的代碼庫(kù)、程序包等,植入已有的應(yīng)用和服務(wù)中,讓大模型的 API 為整個(gè)程序進(jìn)行 賦能。API 模式的主要優(yōu)勢(shì)在于降低了企業(yè)應(yīng)用大模型的成本。API 將大模型內(nèi)部的所有技術(shù)細(xì)節(jié)進(jìn)行封閉, 企業(yè)不需要過多了解模型的技術(shù)細(xì)節(jié),也不需要投入額外的開發(fā)人力和算力資源進(jìn)行大模型調(diào)優(yōu)。
2、PaaS 模式
大模型作為一種技術(shù),將其集成在 AI 平臺(tái)上,對(duì)外提供能力和服務(wù),成為一些技術(shù)實(shí)力雄厚企業(yè)的選擇。 這種模式中,企業(yè)的主要落地產(chǎn)品的 PaaS 平臺(tái)、開發(fā)工具、AI 服務(wù)等組合而成的套件,大模型是套件中的一 個(gè)重要的組成部分,但不是全部。用戶購(gòu)買或使用平臺(tái)的過程中,可以利用平臺(tái)提供的工具,對(duì)大模型進(jìn)行開 發(fā)和應(yīng)用,集成于自有的體系中,為自身業(yè)務(wù)提供服務(wù)。需要注意的是,和 API 模式不同,PaaS 服務(wù)模式提供 的是包括模型在內(nèi)的一系列工具和平臺(tái),用戶不能單獨(dú)獲得模型的能力。同時(shí),用戶雖然可以通過 PaaS 模式, 獲得對(duì)模型更高的開發(fā)和控制權(quán),但往往需要為此付費(fèi),這為 PaaS 服務(wù)的供應(yīng)商帶來了一定的利潤(rùn)。
以微調(diào)對(duì)話領(lǐng)域模型為例,英偉達(dá)提供了具體的部署流程。用戶首先可以從云上下載已預(yù)訓(xùn)練好的模型, 并結(jié)合場(chǎng)景數(shù)據(jù)集,利用 TLT 工具,對(duì)數(shù)據(jù)進(jìn)行處理、增強(qiáng),并對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),微調(diào)后利用平臺(tái)進(jìn)行 測(cè)評(píng)。待測(cè)評(píng)結(jié)果符合實(shí)際應(yīng)用要求后,可導(dǎo)出模型,進(jìn)行下一步的使用(如后續(xù)用 RIVA 進(jìn)行模型的應(yīng)用).。 目前 TLT 平臺(tái)已經(jīng)支持 BERT、Megatron 等預(yù)訓(xùn)練語(yǔ)言模型,以及計(jì)算機(jī)視覺領(lǐng)域多種任務(wù)的模型。英偉達(dá)稱, 在 TLT 平臺(tái)的支持下,相比非遷移學(xué)習(xí),用戶只需要使用十分之一的數(shù)據(jù)進(jìn)行訓(xùn)練,模型部署效率提升 10 倍。 TLT 平臺(tái)本身是免費(fèi)的,支持英偉達(dá)旗下的 A100、V100GPU 等硬件。 國(guó)內(nèi)也有大型科技企業(yè)推動(dòng) PaaS 模式的發(fā)展。例如,2020 年 7 月,百度發(fā)布了 NLP 開發(fā)與服務(wù)平臺(tái)文心, 其依托 ERNIE 預(yù)訓(xùn)練技術(shù),為開發(fā)者提供 NLP 定制與應(yīng)用能力。文心平臺(tái)可通過公有云(如 EasyDL-NLP、 BML 等)和私有化兩種方式為產(chǎn)業(yè)提供服務(wù)。用戶不需要關(guān)注計(jì)算開發(fā)環(huán)境的搭建和算法實(shí)現(xiàn)的底層實(shí)現(xiàn)細(xì)節(jié)。 對(duì)于對(duì)場(chǎng)景要求更高的用戶,百度提供全流程、可深度定制、可私有化部署的文心開發(fā)套件。用戶可以獲得模 型技術(shù)選型、本地化訓(xùn)練、離線部署等深度解決方案。截至目前,文心平臺(tái)已累計(jì)支持 4 萬開發(fā)者,及涵蓋各 行各業(yè)的 200 多家企業(yè)客戶。
3、MaaS 模式
MaaS 商業(yè)模式是以算力平臺(tái)、模型倉(cāng)庫(kù)及數(shù)據(jù)集倉(cāng)庫(kù)為基礎(chǔ)的,倡導(dǎo)零門檻的模型體驗(yàn),提供簡(jiǎn)單快速的 模型使用、完整的模型定制鏈路及模型云端部署服務(wù),主要提供給 AI 的愛好者、開發(fā)者、研究員以及部分中小 型轉(zhuǎn)型企業(yè)的商業(yè)化模型使用。 “模型→單點(diǎn)工具→應(yīng)用場(chǎng)景”是 MaaS 產(chǎn)業(yè)結(jié)構(gòu)的核心。大模型是 MaaS 的最重要基座,例如 OpenAI 提供的訪問執(zhí)行各種自然語(yǔ)言任務(wù)的 GPT-3、將自然語(yǔ)言翻譯成代碼的 Codex、創(chuàng)建和編輯原始圖像的 DALL? E;單點(diǎn)工具是大模型應(yīng)用的補(bǔ)充,例如 ChatGPT 是在 GPT-3.5 模型的基礎(chǔ)上,產(chǎn)生出的能“對(duì)話”的 AI 系統(tǒng); 內(nèi)容寫作工具 Jasper 它基于開源的 GPT-3 模型,它使用人工智能為用戶編寫內(nèi)容等;各種應(yīng)用場(chǎng)景是大模型應(yīng) 用的變現(xiàn),例如商湯科技的書生(INTERN)大模型可以讓 AI 模型處理多樣化的視覺任務(wù);又如 GPT 模型系列 作為基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓(xùn)練的文本生成深度學(xué)習(xí)模型,應(yīng)用場(chǎng)景持續(xù)擴(kuò)展。
而除了模型本身進(jìn)行訂閱收費(fèi)以外,嵌入其他產(chǎn)品獲得引流式收入也是模式之一,例如,微軟宣布推出高 級(jí)付費(fèi)版 Microsoft Teams Premium,這項(xiàng)高級(jí)服務(wù)將在 6 月份每月收費(fèi) 7 美元,然后在 7 月份恢復(fù)到正常的 10 美元,訂閱者可享用由 OpenAI GPT-3.5 提供支持的“智能回顧(Intelligent Recap)”這一重要功能,該功能將 提供自動(dòng)生成的會(huì)議記錄、推薦任務(wù)和個(gè)性化標(biāo)亮;微軟旗下 Dynamics 365 產(chǎn)品線宣布旗下客戶關(guān)系管理軟件 Viva Sales 也將集成 OpenAI 的技術(shù),通過人工智能幫助銷售人員完成許多繁雜且重復(fù)的文字工作。雖然,GPT-3.5 并未在 Viva Sales 中作為單獨(dú)的收費(fèi)項(xiàng)目存在,但是 Viva Sales 作為 CRM 產(chǎn)品本身每月就收費(fèi) 40 美元,假設(shè) 有 1000 萬客戶是因?yàn)?GPT-3.5 而選購(gòu) Viva Sales,則代表 GPT-3.5 每年能夠?yàn)槲④泿?48 億美元的收入。
其它的收費(fèi)模式還包括不同的 Model 應(yīng)對(duì)不同的客戶需求和客戶定價(jià),如 OpenAI 在推出 ChatGPT 以前, 其主要收入來源于對(duì)外部客戶開源自身大模型,通過提供 API 接口調(diào)用來收費(fèi)。例如用于創(chuàng)建和編輯原始圖像 的 DALL·E 模型,Mixtiles 利用 DALL·E API 來創(chuàng)建和構(gòu)建能引起情感共鳴的藝術(shù)品(圖片);數(shù)字平臺(tái) CALA 同樣調(diào)用了 DALL·E 模型,使得 CALA 的智能工具允許用戶從自然文本描述或上傳的參考圖像中生成新的設(shè)計(jì) 理念圖。可以看出,相較于 Mixtiles,CALA 對(duì)于 DALL·E 模型的應(yīng)用更偏商業(yè),對(duì)于細(xì)節(jié)的要求也更高,那在 這種情況下,CALA 和 Mixtiles 兩者調(diào)用 DALL·E 模型的收費(fèi)肯定是有所不同的。 總結(jié)來說,不同的 Model 應(yīng)對(duì)不同的客戶需求和客戶定價(jià)肯定也會(huì)有所不同,客戶的要求越高,使用的模 型越好,那么大模型的收費(fèi)也將會(huì)更高。
編輯:黃飛
?
評(píng)論