一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

文生圖大型實(shí)踐:揭秘百度搜索AIGC繪畫工具的背后故事!

jf_WZTOguxH ? 來源:AI前線 ? 2023-11-21 16:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自從進(jìn)入 2023 年以來,AIGC 技術(shù)已催生了新一輪人工智能浪潮。AI 繪畫作為大模型最引人矚目的應(yīng)用領(lǐng)域之一,近年來也取得了重大突破。AI 繪畫系統(tǒng)可以根據(jù)用戶的輸入或提示生成各種風(fēng)格的圖像,這為藝術(shù)家、設(shè)計(jì)師和創(chuàng)作者提供了強(qiáng)大的工具,也為數(shù)字創(chuàng)意領(lǐng)域帶來了新的可能性。在本期“極客有約”對話節(jié)目中,魚哲和百度搜索主任架構(gòu)師 TianBao 就圖像生成技術(shù)進(jìn)行了深入探討,包括百度搜索的應(yīng)用場景、相關(guān)技術(shù)的思考,以及在搜索業(yè)務(wù)場景的應(yīng)用落地經(jīng)驗(yàn)。

亮點(diǎn):

這是一個巨大的變革,從過去用戶在全網(wǎng)尋找圖像,轉(zhuǎn)變?yōu)榻Y(jié)合了查找圖像和生成圖像兩種方式,以滿足用戶更具體的需求,這也在一定程度上鼓勵用戶更主動地表達(dá)他們真正的需求。

要使一個模型更好地理解中文,準(zhǔn)備和清理與中文語義相關(guān)的語料非常重要。

對于去除低質(zhì)量樣本和構(gòu)建高價(jià)值樣本,這些都是圖文對齊所必需的能力。

百度搜索需要滿足用戶在內(nèi)容和風(fēng)格方面多樣化的需求,因此在百度搜索目前支持上千種不同的畫面風(fēng)格定義。

遵循美學(xué)標(biāo)準(zhǔn),構(gòu)建自己的美學(xué)認(rèn)知,無論是在整體模型構(gòu)建方面還是在算法優(yōu)化方面,都需要按照這些先進(jìn)標(biāo)準(zhǔn)來進(jìn)行相關(guān)的指導(dǎo)和評估。

文生圖的技術(shù)發(fā)展過程

魚哲:AIGC 從去年 9 月到現(xiàn)在,我們能看到各種各樣的模型和公司不斷涌現(xiàn)。從最初大家使用 Stable Diffusion 來生成簡單的圖像,到后來用一些其它方法進(jìn)行生成式圖像編輯,后來甚至 Adobe Photoshop 支持使用自然語言方式修改圖片。我覺得從之前看到的 AIGC 在生成文本方面取得的成就之外,還有更多有趣的應(yīng)用領(lǐng)域。除了生成圖片,還能夠生成視頻音頻。最近,我也看到了一些令人驚艷的生成視頻產(chǎn)品。今天想請 TianBao 老師跟大家展開介紹一下文生圖技術(shù)目前的整體發(fā)展趨勢是什么樣的。

TianBao:2022 年可以算是文生圖的元年,整體上分為以 Stable Diffusion 為代表的開源的流派,以及 Midjourney 、Adobe 的 Firefly、Dall-E 3 為代表的閉源模型。而之所以說這一年是元年,是源于 Disco Diffusion。Disco Diffusion 的目標(biāo)主要是 landscape 等風(fēng)景類創(chuàng)作,風(fēng)景類場景是一個容錯率比較高的場景,并結(jié)合了富有視覺沖擊的色彩,極具藝術(shù)質(zhì)感,這在 2021 年底至 2022 年初,是一個很大膽、很驚艷的一個嘗試。

直到 2022 年 2 月,Midjourney 發(fā)布了 v1 版本。v1 的整體效果相當(dāng)令人吃驚,但在生成人像方面還差強(qiáng)人意。直到同年 7 月中旬,Midjourney v3 才能正常地生成一些常規(guī)人像。在 8 月份時(shí),作品《太空歌劇院》就通過 Midjourney v3 進(jìn)行生成,加上 Photoshop 的后期處理,這使得 Midjourney 成功引起了轟動。

stable-diffusion 1.5 版本也在同一時(shí)期開源,這個開源事件具有里程碑的意義,因?yàn)閺哪菚r(shí)起,像 C 站這樣的更多用戶開始涌向去中心化的模型和優(yōu)化領(lǐng)域。隨著開源技術(shù)的發(fā)展,整個生態(tài)系統(tǒng),包括下游應(yīng)用,都經(jīng)歷了爆發(fā)式增長和涌現(xiàn)。之后,技術(shù)的進(jìn)步以及下游應(yīng)用的發(fā)展持續(xù)在相互促進(jìn)。

百度文生圖的探索和成果

魚哲:我大致還記得 Stable Diffusion 剛開始的效果并不太好,例如在嘗試生成人像時(shí),出現(xiàn)了很多扭曲的結(jié)果,如一個人有三條腿或多個眼睛。隨著時(shí)間推移,這一技術(shù)逐漸變得更加逼真。同時(shí),類似 Civitai 的 AI 技術(shù)也興起,允許人們根據(jù)他們的圖像進(jìn)行各種場景的創(chuàng)作,比如受歡迎的原神系列。這種生成圖像技術(shù)的發(fā)展催生了多種應(yīng)用。比如,在抽卡類游戲中,原畫師可以利用這一技術(shù)來創(chuàng)建游戲組件。在百度搜索等國民級應(yīng)用中,文生圖又如何與場景相結(jié)合的?剛開始,我理解它可能是在搜索框中,用戶輸入關(guān)鍵詞后能夠找到相關(guān)的圖像,但我相信你們會有更多不同的創(chuàng)新。

TianBao:早期,百度也進(jìn)行了一些 AIGC 圖像生成的嘗試。正如剛才和大家討論的,文生圖技術(shù)從最初的結(jié)果不夠可用,逐漸變得可用,并能夠釋放想象力,帶來了引人注目的視覺沖擊。對于搜索,用戶以前要找一張圖片,通常會進(jìn)行文本搜索。例如,一個戴著太陽鏡和帽子的貓,做著憤怒的手勢,用戶在腦海中構(gòu)想的畫面,他們通常只能在全網(wǎng)中搜索到已經(jīng)被創(chuàng)作好的、可感知的內(nèi)容。但對于一些更具體的場景,比如貓要做著憤怒的手勢,穿著特殊服飾,如果全網(wǎng)沒有人創(chuàng)作這種圖片,用戶需求的滿足就會受到限制,導(dǎo)致需求退化成尋找一個憤怒的貓,之后,他們將變成瀏覽型需求,查看全網(wǎng)上是否有類似的憤怒的貓來滿足他們的需求。

93aff642-8842-11ee-939d-92fbcf53809c.jpg

然而,隨著生成式技術(shù)的迅速發(fā)展,我們現(xiàn)在有能力將用戶腦海中的圖像具體呈現(xiàn)出來,以滿足他們的需求。我們將用戶的查找需求,轉(zhuǎn)變?yōu)榻Y(jié)合了查找圖像和生成圖像兩種方式,以滿足用戶更具體的需求,這也在一定程度上鼓勵用戶更主動地表達(dá)他們真正的需求。在產(chǎn)品方面,用戶可以通過百度的 App,搜索"畫一個憤怒的貓"或者"畫一畫",然后進(jìn)入文生圖的相關(guān)功能頁面,大家可以親自體驗(yàn)一下。

尋找一張圖片是搜索的第一步。在圖像領(lǐng)域,許多創(chuàng)作者首先需要找到適合他們需求的圖像,然后他們可能需要用這張圖像作為頭像,或者用它作為創(chuàng)作素材,或者在工作中使用它。因此,在生成的過程中,我們正在加入編輯工作,例如修復(fù)(inpainting)、擴(kuò)展(outpainting)。舉個例子,如果畫面中有一只戴著帽子的貓,通過自然語言交互,我們可以將貓?zhí)鎿Q為一只狗,從而增加了圖像的再利用能力。這背后通常會涉及一個基于文生圖的預(yù)訓(xùn)練大模型,用于圖像編輯。整體而言,從最初的尋找圖像,變成了“找圖”加“生圖”的過程,然后進(jìn)入到第二個階段,即圖像的用途,以滿足用戶在圖像領(lǐng)域的需求。

文生圖的實(shí)踐及挑戰(zhàn)

魚哲:聽起來這是一個非常有趣的應(yīng)用場景,因?yàn)楹芏鄷r(shí)候,比如我以前制作 PPT 時(shí),需要找到能滿足我的想象場景的圖像,例如客戶使用產(chǎn)品的場景或某個行業(yè)的照片。然而,我又不希望侵犯版權(quán),或者避免涉及各種圖像來源的糾紛。在這種情況下,能夠找到圖像,并在此基礎(chǔ)上進(jìn)行 inpainting 修改、邊框補(bǔ)全,甚至進(jìn)行圖像超分辨率處理,這實(shí)際上是一個非常實(shí)用的應(yīng)用場景。

外界可能認(rèn)為我們只支持一些基本的圖像生成和編輯功能,如生成、簡單編輯、邊框展開以及高分辨率圖像的補(bǔ)全。但實(shí)際上,根據(jù)我的了解,這項(xiàng)技術(shù)在中文語境下是相當(dāng)具有挑戰(zhàn)性的。特別是針對中文文化和語義場景,大部分模型通常是在以英語為基礎(chǔ)的語境下進(jìn)行訓(xùn)練的,其原始語料庫也是英語為主。然而,百度作為中文搜索引擎領(lǐng)域的巨頭,需要處理中文和英文,甚至一些方言的情況,面對這種挑戰(zhàn)是如何應(yīng)對的?

TianBao:作為最大的中文搜索引擎,百度在理解中文方面具有更強(qiáng)的優(yōu)勢,包括對中文特有元素、中文習(xí)慣表達(dá)以及方言的理解。要使一個模型更好地理解中文,準(zhǔn)備和清理與中文語義相關(guān)的語料顯然是不可或缺的步驟。

我們在搜索領(lǐng)域擁有感知全網(wǎng)最全的中文語料的能力,這是天然優(yōu)勢。但除此之外,還需要進(jìn)行樣本的清理、更全面的知識覆蓋、獲取更多多樣性的高質(zhì)量樣本等,以更好地理解整體模型的語義。同時(shí),如果我們希望模型生成的圖像質(zhì)量更高,就需要考慮圖像質(zhì)量、美學(xué)因素,例如圖像中物體的明顯特征和美學(xué)風(fēng)格的準(zhǔn)確呈現(xiàn)。此外,還需要進(jìn)行去重處理,這些都需要有基礎(chǔ)的算子能力支持。

所以對于清洗來說,底層基礎(chǔ)算子的基建也是一個非常重要的工作。百度在圖片基礎(chǔ)層面的刻畫體系上有多年的積累,所以我們在收錄的數(shù)據(jù)優(yōu)勢之上,可以快速根據(jù)模型的不同目標(biāo),進(jìn)行樣本的組織和篩選。例如,我們想要更好的語義樣本,要做到樣本的均衡,要積累不同等級質(zhì)量和美觀度的樣本,包括一些人像或者是特殊的 IP 概念等。我們對這些樣本進(jìn)行快速學(xué)習(xí),而后應(yīng)用在模型里。

魚哲:對于生成圖像大模型,一方面,在訓(xùn)練過程中,我們需要準(zhǔn)備高質(zhì)量的數(shù)據(jù)集,建立一個良好的基礎(chǔ)。另一方面,用戶在使用時(shí)可能會提供各種各樣的復(fù)雜描述,例如描述一個杯子,用戶可能會加入很多形容詞,比如高的、透明的、藍(lán)色的,里面裝了一只蟋蟀等,這些描述詞可能超出了標(biāo)準(zhǔn)模型支持的 Token 長度。特別是在中文語境中,用戶的描述可能更長,就像您剛才提到的,一只戴著帽子、站在山峰頂、吹著西北風(fēng)、雪花在背后飄落的貓。在這種情況下,如何處理具有大量描述詞和形容詞的圖像是一個挑戰(zhàn)嗎?

TianBao:這是一個非常好的問題。圖文配對的質(zhì)量非常重要。目前,大家主要關(guān)注的是開源的 Laion-5b,一個包含 50 億樣本的英文模型,主要基于英文數(shù)據(jù)集,中文數(shù)據(jù)相對較少。同時(shí),從這個數(shù)據(jù)集中,我們也觀察到許多不相關(guān)的圖文對的問題,這些問題可能是由一些雜質(zhì)引起的。因此,我們需要使用相關(guān)性建模算法來過濾掉這些不相關(guān)的圖文對。

對于使用中文數(shù)據(jù)集,例如 Laion-5b,有一種較快速的方法,即通過英文翻譯成中文。然而,這種方法可能會引入很多語言上的歧義,特別是中英文之間表達(dá)上的歧義,以及中文所特有的一些語義。例如,如果我們將"transformer"翻譯成中文,它可能會變成"變壓器",而如果是指一個頭像,對應(yīng)的英文可能會是"阿凡達(dá)"。這些情況都是由于中文語料建設(shè)不足導(dǎo)致的中文理解能力上的不足。關(guān)于剛才提到的圖文對的相關(guān)性質(zhì)量問題,過濾低質(zhì)量的圖文對,需要使用類似于常規(guī)的 CLIPScore 等方式來度量圖文的相關(guān)性。

另一個方向是在優(yōu)質(zhì)數(shù)據(jù)集的構(gòu)建上。畢竟,一張圖片可以被非常詳細(xì)地描述成上百個字,而當(dāng)前互聯(lián)網(wǎng)上這種詳細(xì)描述的數(shù)據(jù)還相對較少。當(dāng)前互聯(lián)網(wǎng)上的描述通常較為簡短,可能只包含幾十個標(biāo)記,甚至更短。因此,在構(gòu)建優(yōu)質(zhì)數(shù)據(jù)集方面,需要將一些高質(zhì)量的圖像與文本描述的力度和視角相結(jié)合,以進(jìn)行文本描述的補(bǔ)充。通常,人們描述的可能是圖像的主體和意境,但他們可能會忽略掉圖像中的背景、物體的數(shù)量以及基本實(shí)體的描述。因此,如何實(shí)現(xiàn)圖像和文本的對齊理解對于文生圖的構(gòu)建非常重要。

因此,對于提供高質(zhì)量樣本的問題,可能需要更適合于圖像生成任務(wù)的模型,例如 caption 生成模型。百度在這方面積累了一些經(jīng)驗(yàn),所以對于去除低質(zhì)量樣本和構(gòu)建高價(jià)值樣本,這些都是圖文對齊所必需的能力。

圖片美感的評估

魚哲:確實(shí),與我想象的相比,這個處理的復(fù)雜度要高得多。您剛才提到的去除低質(zhì)量、保留高質(zhì)量的很重要。您所說的低值和高值是指圖像質(zhì)量對嗎?在生成圖像時(shí),如果要生成一只貓,首先它必須是一只貓,其次重要的是它必須符合美感。它必須符合一只貓的形狀,或者說它必須符合一只狗的形狀,而美感是一個非常主觀的事情。例如,即使是一只貓,有些人喜歡圓圓的、胖胖的、毛發(fā)豐富的貓,他們認(rèn)為最好是長得像個球一樣,但有些人認(rèn)為貓應(yīng)該像貓一樣,應(yīng)該有貓的特征,頭是頭,腿是腿,脖子是脖子。在這種情況下,百度如何處理關(guān)于貓應(yīng)該長成什么樣子的問題呢?

93cc5972-8842-11ee-939d-92fbcf53809c.jpg

TianBao:對于美學(xué),確實(shí)像剛才提到的,它是一個偏主觀的一個感知,其實(shí)是千人千面的,大家可能對美的認(rèn)知是不太一樣的,但是這里面我們其實(shí)是期望通過大部分人的美學(xué)認(rèn)知,提出一些美學(xué)的定義。

例如,美學(xué)的定義通常包括圖像的構(gòu)圖,整個畫面的結(jié)構(gòu)是什么樣的,還包括色彩的應(yīng)用,如飽和度、對比度、整體的配色,以及光感,例如在攝影棚中的光線設(shè)置,如何為不同場景創(chuàng)造更好和更合適的光感。除了視覺色彩方面的定義,畫面的內(nèi)容也可以體現(xiàn)美學(xué),例如畫面內(nèi)容的豐富度或畫面的敘事性,這些都是由畫面內(nèi)的內(nèi)容構(gòu)成的。因此,這些維度形成了更具普世性的美學(xué)標(biāo)準(zhǔn)。

我們遵循這些美學(xué)標(biāo)準(zhǔn),然后構(gòu)建自己的美學(xué)認(rèn)知,無論是在整體模型構(gòu)建方面還是在算法優(yōu)化方面,都按照這些先進(jìn)標(biāo)準(zhǔn)來進(jìn)行相關(guān)的指導(dǎo)和評估。除了美學(xué)之外,圖像的清晰度也會影響整體的質(zhì)感。同時(shí),內(nèi)容的一致性也很重要,如果看到一只貓有三只腿,內(nèi)容實(shí)體的不一致性將會導(dǎo)致缺陷,從而間接影響圖像的可用性和美感。

魚哲:您剛剛提到內(nèi)容的一致性,可以展開這個解釋一下這個概念嗎?

TianBao:內(nèi)容一致性可以大概理解為內(nèi)容的質(zhì)量或可用性。比如,如果畫一只手,出現(xiàn)了手部的畸形或畸變,這實(shí)際上與我們通常對手的概念不符。這會導(dǎo)致手的實(shí)體不一致,因此可以認(rèn)為它存在質(zhì)量問題。

文生圖提示工程

魚哲:不同場景和用途對美學(xué)要求不同,以戴帽子和太陽鏡的貓為例,用戶可能希望生成不同風(fēng)格的漫畫,如日漫和美漫,它們在視覺體驗(yàn)上有顯著差異。美漫通常色彩豐富、輪廓鮮明,而日漫則以黑白為主,視覺沖擊力較強(qiáng)。在保障在內(nèi)容一致性的要求下,百度是如何在不同風(fēng)格的情況下,從用戶的 prompt 中獲取相關(guān)信息,以支持不同畫風(fēng)的生成?

TianBao:我們來看一下當(dāng)前文生成圖的應(yīng)用場景。目前,在主流的交互中,通常提供了一些明確定義的特定風(fēng)格選項(xiàng),如漫畫風(fēng)格或水彩畫風(fēng)格。但對于用戶而言,不應(yīng)該受到過多的限制,例如,如果用戶需要生成一個賽博朋克風(fēng)格的貓,將其繪制成卡通風(fēng)格就無法滿足用戶需求。也就是說,用戶不僅可以描述生成畫面中出現(xiàn)的內(nèi)容,如貓,還可以描述他們期望的畫面風(fēng)格。因此,百度搜索需要滿足用戶在內(nèi)容和風(fēng)格方面多樣化的需求。

在百度搜索中,我們目前支持上千種不同的畫面風(fēng)格定義。舉例來說,用戶可以將一只貓呈現(xiàn)為水墨畫或卡通畫,也可以將它呈現(xiàn)為鋁制品或雕刻品,甚至以不同的材質(zhì)。此外,用戶還可以選擇不同的視角,如帶有運(yùn)動模糊效果、延時(shí)攝影效果,或者魚眼和廣角視角等。我們覆蓋了多種不同的風(fēng)格和分類,因此用戶如果有更具體的風(fēng)格要求,只需在他們的 prompt 中包含相關(guān)風(fēng)格,即可獲得符合他們期望的畫面并具備相應(yīng)風(fēng)格。

魚哲:我還有一個問題,就是關(guān)于風(fēng)格的疊加,是否支持這種操作?例如,能否將魚眼廣角和水墨畫的風(fēng)格同時(shí)應(yīng)用在圖像上?因?yàn)橐粋€是關(guān)于畫風(fēng),另一個是視角,那如果我們想要將水墨畫與卡通風(fēng)格結(jié)合,這是否也是支持的呢?

TianBao:在模型方面,支持多風(fēng)格是可行的,這樣可以激發(fā)新的風(fēng)格創(chuàng)意。然而,我們面臨的另一個問題是如何在保持內(nèi)容一致性的前提下,有效地融合和協(xié)調(diào)多種風(fēng)格。因?yàn)椴煌L(fēng)格之間的差異可能很大,可能會發(fā)生一些相互制約的情況,但這確實(shí)為用戶提供了更多的實(shí)驗(yàn)和探索機(jī)會,可以通過嘗試不同風(fēng)格的組合,實(shí)現(xiàn)更廣泛的創(chuàng)意空間。

魚哲:如果我有多個風(fēng)格的關(guān)鍵詞去描述最后的主體,最后整張圖出來的效果和關(guān)鍵詞所在的位置的關(guān)聯(lián)度大嗎?比如說水墨、卡通風(fēng)格的貓和卡通、水墨風(fēng)格的貓,這兩個出來的效果會是一樣的嗎?

TianBao:這個其實(shí)就會涉及到剛才說的一個可控性。最基本的,就像剛才提到的貓一樣。它關(guān)系到我們?nèi)绾慰刂粕傻膬?nèi)容,尤其是在涉及到風(fēng)格方面。實(shí)際上,可控性與我們整體的 prompt 方式相關(guān),因?yàn)椴煌?prompt 方式可以導(dǎo)致不同的結(jié)果。有些人可能會提供簡短的提示,可能前后并列會輸入兩個不同的風(fēng)格,而其他人可能更喜歡更詳細(xì)的 prompt 表達(dá)方式,比如他們可能希望描述一個場景的畫面,指定特定的風(fēng)格,或者強(qiáng)調(diào)某種風(fēng)格在生成中的比重。這些都是不同的 prompt 方式,可以影響生成內(nèi)容的方式。

然后對于這種可控來說,其實(shí)現(xiàn)在這種順序上會有一些 Bias。比如 Stable Diffusion 的 prompt 煉丹,也會提及一些,比如怎么寫 prompt,是放到前面好還是后面好,其實(shí)本質(zhì)上是一種控制的能力,理想的話應(yīng)該不會存在這樣的一些偏差。當(dāng)然最理想的還是我們可以引導(dǎo)用戶能夠去更精準(zhǔn)的去表達(dá)自己腦海中的畫面。

魚哲:剛才提到百度支持上千種風(fēng)格,我想問,這上千種風(fēng)格是人工梳理的,還是通過模型聚類后自動生成的?對于用戶來說,知道有這么多風(fēng)格可選可能一開始會覺得有點(diǎn)過多,有點(diǎn)難以選擇。

TianBao:關(guān)于風(fēng)格,基于我們之前提到的,我們對全網(wǎng)內(nèi)容的感知非常廣泛,因此我們有能力感知到全網(wǎng)存在的各種風(fēng)格數(shù)據(jù)。第二點(diǎn)是,我們也依賴于對圖像相關(guān)的理解,無論是聚合算法還是風(fēng)格美觀度的描述,都需要首先有數(shù)據(jù),然后通過數(shù)據(jù)的篩選和識別能力,對這些風(fēng)格進(jìn)行自然而然的呈現(xiàn)。這是對風(fēng)格定義的方式。

另外剛才提到的,比如說我們當(dāng)前支持上千種風(fēng)格,對于用戶來說,其實(shí)大家可能還是得有一個認(rèn)知的過程,因?yàn)槊恳环N風(fēng)格可能對于藝術(shù)向的用戶來說還是會有比較大的一些驚喜的。比如我們看到某種風(fēng)格和我們常規(guī)看到的畫面有很大的這種區(qū)別,也具備很強(qiáng)的視覺沖擊感。所以這里面怎么樣能夠把我們已有的這些風(fēng)格能夠更好的傳遞給用戶,讓用戶理解這種風(fēng)格,并且在后續(xù)的這些需求滿足創(chuàng)作中能夠應(yīng)用上這些風(fēng)格,這其實(shí)是需要整體的產(chǎn)品和技術(shù)來引導(dǎo)的一個工作。

魚哲:正如你剛提到的,有上千種不同的藝術(shù)風(fēng)格。即使對于非專業(yè)和一些專業(yè)的美術(shù)生來說,通常只了解一兩種風(fēng)格,比如素描或水墨畫。實(shí)際上,很少有人能深入了解這么多不同風(fēng)格并寫出好的提示詞。那么,當(dāng)用戶不太了解如何編寫 prompt 提示詞時(shí),我們該怎么處理呢?比如,用戶第一次使用百度,除非有人告訴他們,他們可能不知道支持上千種風(fēng)格。在這種情況下,我們應(yīng)該如何處理,并引導(dǎo)他們了解更多有關(guān)百度的各種風(fēng)格以及可以編寫的其他提示詞呢?

TianBao:對于藝術(shù)風(fēng)格和創(chuàng)造性而言,大家更常接觸到關(guān)鍵詞"Midjourney",可以將其作為一個例子,來講述一個從零開始激發(fā)想象力的過程。在早期的運(yùn)營推廣中,有些資源并未過多優(yōu)化提示詞。通常,它們提供了一些相對簡單的提示詞,比如"dog"(狗)。然而,這是建立在 disco 社區(qū)基礎(chǔ)之上的,允許所有用戶參與。一些用戶嘗試將他們的提示詞更改為描述一只毛茸茸的狗,而其他用戶可能更喜歡科幻題材,例如一只擁有鐳射眼睛的狗是什么樣子。通過不斷的嘗試,他們會發(fā)現(xiàn)在不同的提示詞下可以獲得更引人入勝或有趣的效果。這導(dǎo)致了彼此學(xué)習(xí),觀察其他人如何生成內(nèi)容,如何設(shè)置提示詞,以及這會產(chǎn)生什么樣的效果。因此,提示詞的優(yōu)化逐漸變得流行起來。這個問題對于整個業(yè)界,包括百度搜索和文生圖,也是類似的。

對于一般用戶而言,他們可能較少接觸文生圖這個場景。對于初次使用的用戶,通常只是嘗試?yán)L制一只貓或一只小狗,這引出了一個問題,即如何在用戶使用環(huán)境相對簡單的情況下,為他們生成更好的效果。

這里就會涉及到 prompt 的擴(kuò)充或者是改寫。這里有兩種思路,一種是去擴(kuò)充畫面的內(nèi)容,類似于內(nèi)容的一個豐富性或者是故事感。比如剛才說的戴著帽子,然后做著憤怒的手勢的狗,把畫面更具象,其實(shí)這是 prompt 的優(yōu)化所做的一個工作。同樣也可以對風(fēng)格進(jìn)行一些擴(kuò)展,我們可以感知到大部分人對于這個內(nèi)容之下更喜歡哪些風(fēng)格,我們就可以通過這種 prompt 來做更多風(fēng)格的一些擴(kuò)寫。像剛才說的內(nèi)容以及在風(fēng)格上的一些擴(kuò)寫多樣性之后,就可以極大的去優(yōu)化畫面的內(nèi)容豐富度、故事性,以及風(fēng)格和美觀的程度。所以這里面會涉及到怎么樣把一個簡單的表達(dá)的 prompt 的輸入,通過優(yōu)化的方式變成一個對模型來說效果更好的一組 prompt。

魚哲:有一個更具體的問題需要討論,涉及到 prompt 的改寫。例如,當(dāng)我們將一個提示從描述一只狗轉(zhuǎn)變?yōu)橐恢粠弊拥纳鷼獾氖謩莨窌r(shí),用戶實(shí)際上無法看到被改寫的部分。我們是否能夠確保每次改寫都是一樣的,或者每次改寫的內(nèi)容可能略有不同?舉例來說,第一次可能是一只戴帽子的狗,而第二次可能是一只戴眼鏡躺在沙灘上的狗。這個過程是否具有隨機(jī)性,或者每次都是固定的?

TianBao:對于 prompt 的改寫來說,其實(shí)我們更期望給到用戶更多多樣性、更多豐富的結(jié)果。因?yàn)槿绻且粭l狗的話,我們可以想象到的是一個主體是一條狗,可能會有不同的一些犬類的品種,但是狗可能穿著不同服飾出現(xiàn)在不同場景之下,這個對更多人來說會有更多樣的一些結(jié)果,大家會有更多的預(yù)期。所以在模型層面,我們期望通過 prompt 這種改寫和優(yōu)化,有更多的多樣性的備選,然后基于用戶實(shí)際的反饋,去來感知用戶對哪些風(fēng)格,對什么類型的內(nèi)容場景的一個畫面結(jié)果會感興趣,后驗(yàn)反饋會比較高,這對于整體的 prompt 的改寫模型也會有數(shù)據(jù)促進(jìn)的作用。

反饋和評估

魚哲:剛剛提到了改寫,從用戶側(cè)收集反饋來迭代模型,有一個詞叫做 RLHF(Reinforcement Learning from Human Feedback)。這里我覺得最難的點(diǎn)是 human feedback 是不穩(wěn)定的,因?yàn)槿伺c人之間的主觀觀點(diǎn)會差很多。如果我們需要依賴人的反饋來去迭代模型,其實(shí)是比較困難的。如果再落實(shí)到說模型的 evaluation 上來說,在這種情況下,百度是如何去 manage balance,在圖像生成的方向上去做評估。

TianBao:關(guān)于后驗(yàn)反饋,首先需要考慮反饋數(shù)據(jù)是否確實(shí)能夠代表人類的后驗(yàn)反饋,這對于反饋質(zhì)量有更高的要求。因此,可以將這一方面與產(chǎn)品的整體設(shè)計(jì)和用戶交互相結(jié)合,以收集更多積極的用戶行為反饋。例如,當(dāng)用戶對某個結(jié)果感興趣時(shí),他們可能會點(diǎn)擊圖片以進(jìn)行放大查看,然后進(jìn)行下載等后續(xù)行為,這些都是積極的反饋。如果用戶對某張圖片點(diǎn)贊或進(jìn)行評論,也提供了直接的反饋。我們希望在整個反饋系統(tǒng)中更有效地收集這些反饋,因?yàn)樗鼈儗?shí)際上反映了用戶的偏好。至于模棱兩可的反饋,只能通過更大的樣本量來收集更具代表性的數(shù)據(jù)。

魚哲:過去,無論是傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)還是標(biāo)準(zhǔn)的深度學(xué)習(xí)模型,基本上都是監(jiān)督學(xué)習(xí),需要樣本或監(jiān)督來計(jì)算 F1 分?jǐn)?shù)、IQZ 和 VCR 等指標(biāo)。然而,對于生成式模型,如 GPT 系列模型或 DALL-E 這樣的生成式模型,技術(shù)上并沒有像以前那樣的標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集,大家可以根據(jù)這些基準(zhǔn)數(shù)據(jù)集來生成和評估。相比之下,生成式模型需要一種更高效的評價(jià)方法,而不是依賴人工逐個觀察。在這個領(lǐng)域,與其讓人們用肉眼逐個觀察,是否有方法可以更高效地進(jìn)行評估呢?

TianBao:更高效的方法實(shí)際上更多地涉及到人機(jī)結(jié)合的手段。就像之前提到的圖像評價(jià),我們可以通過一些初步的機(jī)器指標(biāo)來進(jìn)行觀察。如果我們關(guān)注整體的相關(guān)性或質(zhì)量美觀度,那么在某些機(jī)器指標(biāo)上可以進(jìn)行一些刻畫。但如果需要精確評估兩張圖片之間的差異,這些機(jī)器指標(biāo)可能并不具備太大的意義,更需要人工進(jìn)行判斷。前面提到的機(jī)器初步評估可以幫助人們進(jìn)行初步的篩選,從而在人工評價(jià)方面節(jié)省一些勞動力。

未來展望

魚哲:好的,接下來的問題稍微展望未來,盡管并不是非常遙遠(yuǎn),因?yàn)樽罱铱吹皆S多初創(chuàng)團(tuán)隊(duì)和相關(guān)公司正在嘗試這個領(lǐng)域。以動畫為例,動畫實(shí)際上是將多幅圖像的幀疊加在一起呈現(xiàn)的。通常,動畫電影以每秒 24 幀或 16 幀的速度播放。除了靜態(tài)單幅圖像的編輯,我們可以看到在 AIGC 領(lǐng)域,對于視頻生成或短視頻生成,無論是三秒還是七八秒的視頻,都在不斷發(fā)展。之前 Runway 團(tuán)隊(duì)曾舉辦了一個使用文生圖進(jìn)行視頻生成的比賽。您認(rèn)為在未來多久內(nèi),我們會看到第一部完全由 AI 生成的電影或電影狀態(tài)?

TianBao:簡要回顧一下圖像生成,在 2022 年初,圖像生成效果并不是特別理想,但到了 2022 年的七八月份,整體變得更加可行。根據(jù)技術(shù)發(fā)展趨勢,對于動態(tài)圖或視頻的生成,預(yù)計(jì)不會太久就會迎來技術(shù)的飛速發(fā)展。因?yàn)樽罱谝曨l生成領(lǐng)域還有很多探索,無論是基于可控生成的方法還是像 Runway 這樣生成幾秒小短片的方法。對于幾秒小短片,大家通常會將生成的最后一幀作為下一段的第一幀,以實(shí)現(xiàn)更連貫的長視頻。然而,對于視頻生成來說,面臨更大的挑戰(zhàn),因?yàn)樗粌H要保證空間效果,還需要確保時(shí)間上的一致性,這引入了一個額外的維度,對技術(shù)要求更高。隨著最近對視頻生成的不斷探索,我們可以預(yù)計(jì)未來一到兩年內(nèi)可能會出現(xiàn)類似于 Stable Diffusion 這樣革命性的時(shí)刻。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 百度
    +關(guān)注

    關(guān)注

    9

    文章

    2335

    瀏覽量

    92218
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3520

    瀏覽量

    50421
  • AIGC
    +關(guān)注

    關(guān)注

    1

    文章

    387

    瀏覽量

    2461

原文標(biāo)題:文生圖大型實(shí)踐:揭秘百度搜索 AIGC 繪畫工具的背后故事!

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    百度搜索接入DeepSeek,業(yè)內(nèi)人士開始擔(dān)心

    電子發(fā)燒友網(wǎng)報(bào)道(文 / 吳子鵬)2 月 16 日,百度搜索正式宣布,為豐富多元化的搜索體驗(yàn),將全面接入 DeepSeek 和文心大模型的最新深度搜索功能。同一天,騰訊方面向媒體確認(rèn),微信搜一搜也已
    的頭像 發(fā)表于 02-18 00:59 ?3613次閱讀
    <b class='flag-5'>百度搜索</b>接入DeepSeek,業(yè)內(nèi)人士開始擔(dān)心

    百度發(fā)布文心4.5 Turbo、X1 Turbo和多款A(yù)I應(yīng)用

    近日,Create2025百度AI開發(fā)者大會在武漢舉辦。百度創(chuàng)始人李彥宏發(fā)布了文心大模型4.5 Turbo及深度思考模型X1 Turbo兩大模型,以及多款A(yù)I應(yīng)用。王海峰現(xiàn)場詳細(xì)解讀了背后的技術(shù)。
    的頭像 發(fā)表于 04-30 10:16 ?543次閱讀

    上汽大眾與百度地圖達(dá)成戰(zhàn)略合作

    近日,上海國際車展期間,百度地圖與上汽大眾舉行科技X生態(tài)戰(zhàn)略合作伙伴簽約儀式,雙方將基于百度領(lǐng)先的車道級地圖產(chǎn)品,為上汽大眾千萬車主打造更安全、高效的智能化出行體驗(yàn)。上汽大眾總經(jīng)理陶海龍、百度副總裁尚國斌等出席簽約儀式。
    的頭像 發(fā)表于 04-29 17:28 ?542次閱讀

    百度地圖在汽車智能化領(lǐng)域的應(yīng)用實(shí)踐

    近日,在中國電動汽車人會論壇(2025)的智能汽車創(chuàng)新技術(shù)與產(chǎn)業(yè)論壇,百度地圖事業(yè)部副總經(jīng)理劉增剛發(fā)表主旨演講,分享了百度地圖在汽車智能化浪潮中價(jià)值思考和應(yīng)用實(shí)踐。他表示:“25年汽
    的頭像 發(fā)表于 04-03 15:02 ?1608次閱讀

    百度搜索全量接入DeepSeek-R1滿血版

    就在今天,百度APP全量上線「AI搜索」入口,打開百度APP→點(diǎn)擊首頁底部AI入口,即可進(jìn)入搜索頁面,體驗(yàn)不同的模型解決復(fù)雜問題。
    的頭像 發(fā)表于 02-25 10:24 ?748次閱讀

    百度搜索,能否將DeepSeek變成“內(nèi)功”?

    實(shí)測之后,會發(fā)現(xiàn)百度搜索和DeepSeek稱得上“王炸組合”
    的頭像 發(fā)表于 02-21 10:04 ?2343次閱讀
    <b class='flag-5'>百度搜索</b>,能否將DeepSeek變成“內(nèi)功”?

    百度搜索全量上線DeepSeek滿血版

    近日,百度搜索迎來了一項(xiàng)重大更新——DeepSeek滿血版已全面上線。這一更新意味著用戶將能夠享受到更加智能、高效的搜索體驗(yàn)。 現(xiàn)在,用戶只需在百度App中輸入任意搜索詞,進(jìn)行一輪
    的頭像 發(fā)表于 02-19 13:58 ?928次閱讀

    百度搜索全量上線DeepSeek滿血版,開啟AI搜索新體驗(yàn)

    近日,百度搜索迎來了重大更新,全量上線了DeepSeek滿血版。這一更新意味著用戶現(xiàn)在可以在百度App中體驗(yàn)到更加智能、高效的搜索服務(wù)。 用戶只需在百度App中輸入任意
    的頭像 發(fā)表于 02-18 15:15 ?1246次閱讀

    百度搜索與文心智能體平臺接入DeepSeek及文心大模型深度搜索

    近日,百度搜索與文心智能體平臺聯(lián)合宣布了一項(xiàng)重要更新:將全面接入DeepSeek及文心大模型最新的深度搜索功能。這一更新將為用戶和開發(fā)者帶來更加智能、高效的搜索和智能體創(chuàng)建體驗(yàn)。 據(jù)悉,搜索
    的頭像 發(fā)表于 02-17 09:14 ?635次閱讀

    AIGC入門及鴻蒙入門

    人工智能和大數(shù)據(jù)技術(shù)的創(chuàng)新內(nèi)容生成工具,正逐漸成為矚目的焦點(diǎn)。它為創(chuàng)意性工作打開了全新的大門,尤其在文本和視覺內(nèi)容創(chuàng)作方面表現(xiàn)卓越。對于初學(xué)者來說,可以通過學(xué)習(xí)相關(guān)基礎(chǔ)知識和實(shí)踐操作來入門AIGC領(lǐng)域。同時(shí)
    發(fā)表于 01-13 10:32

    百度科啟動“繁星計(jì)劃”

    百度搜索的強(qiáng)大流量,為百度科注入新的活力與動能。 據(jù)悉,“繁星計(jì)劃”預(yù)計(jì)覆蓋超過10萬名權(quán)威專家,并將涵蓋超過100萬的知識內(nèi)容,旨在通過科技的力量,讓知識的傳播更加廣泛、深入。這一計(jì)劃的實(shí)施,無疑將極大地豐富
    的頭像 發(fā)表于 12-31 10:26 ?703次閱讀

    百度正式回應(yīng)進(jìn)軍短劇領(lǐng)域

    近日,百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司在知識產(chǎn)權(quán)領(lǐng)域有了新的動作,據(jù)天眼查信息顯示,該公司已申請注冊“百度短劇”商標(biāo),涵蓋網(wǎng)站服務(wù)、科學(xué)儀器、教育娛樂等多個國際分類,目前這些商標(biāo)均處于等待實(shí)質(zhì)審查
    的頭像 發(fā)表于 12-17 14:19 ?585次閱讀

    李彥宏:大模型行業(yè)消除幻覺,iRAG技術(shù)引領(lǐng)文生新紀(jì)元

    在理解和生成內(nèi)容方面邁出了重要一步,使得AI的輸出更加貼近真實(shí)世界,減少了誤導(dǎo)和誤解。 同時(shí),李彥宏還發(fā)布了百度最新的檢索增強(qiáng)文生技術(shù)——iRAG。這項(xiàng)技術(shù)將百度搜索的億級圖片資源與
    的頭像 發(fā)表于 11-14 11:39 ?645次閱讀

    百度文心一言APP升級為文小言

    百度宣布其文心一言APP正式升級為文小言,標(biāo)志著百度在智能搜索領(lǐng)域邁出了重要一步。文小言作為百度旗下的“新搜索”智能助手,不僅集成了富媒體
    的頭像 發(fā)表于 09-04 16:06 ?1002次閱讀

    百度聯(lián)合英偉達(dá)舉辦全球規(guī)模最大智能體大賽

    近日,科技巨頭百度宣布了一項(xiàng)激動人心的合作計(jì)劃:將與英偉達(dá)聯(lián)合舉辦“百度搜索·文心智能體創(chuàng)新大賽”。此次大賽聚焦于“智能體應(yīng)用”的創(chuàng)新與發(fā)展,旨在攜手廣大開發(fā)者,在文心智能體平臺上共同打造高質(zhì)量、具備廣泛分發(fā)潛力且能夠?qū)崿F(xiàn)盈利的智能體應(yīng)用。
    的頭像 發(fā)表于 09-02 15:43 ?564次閱讀