一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

【AI簡報(bào)20230908期】正式亮相!打開騰訊混元大模型,全部都是生產(chǎn)力

RTThread物聯(lián)網(wǎng)操作系統(tǒng) ? 來源:未知 ? 2023-09-08 19:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 1800億參數(shù),世界頂級開源大模型Falcon官宣!碾壓LLaMA 2,性能直逼GPT-4

原文:https://mp.weixin.qq.com/s/B3KycAYJ2bLWctvoWOAxHQ

一夜之間,世界最強(qiáng)開源大模型Falcon 180B引爆全網(wǎng)!

1800億參數(shù),F(xiàn)alcon在3.5萬億token完成訓(xùn)練,直接登頂Hugging Face排行榜。

基準(zhǔn)測試中,F(xiàn)alcon 180B在推理、編碼、熟練度和知識測試各種任務(wù)中,一舉擊敗Llama 2。

wKgaomT7A2KAWmLLAABxeZA7kW8523.png

甚至,F(xiàn)alcon 180B能夠與谷歌PaLM 2不差上下,性能直逼GPT-4。不過,英偉達(dá)高級科學(xué)家Jim Fan對此表示質(zhì)疑,- Falcon-180B的訓(xùn)練數(shù)據(jù)中,代碼只占5%。而代碼是迄今為止對提高推理能力、掌握工具使用和增強(qiáng)AI智能體最有用的數(shù)據(jù)。事實(shí)上,GPT-3.5是在Codex的基礎(chǔ)上進(jìn)行微調(diào)的。- 沒有編碼基準(zhǔn)數(shù)據(jù)。沒有代碼能力,就不能聲稱「優(yōu)于GPT-3.5」或「接近GPT-4」。它本應(yīng)是預(yù)訓(xùn)練配方中不可或缺的一部分,而不是事后的微調(diào)。- 對于參數(shù)大于30B的語言模型,是時候采用混合專家系統(tǒng)(MoE)了。到目前為止,我們只看到OSS MoE LLM < 10B。

wKgaomT7A2OAJtWEAAU8mL-8cYc409.png

一起來看看,F(xiàn)alcon 180B究竟是什么來頭?世界最強(qiáng)開源大模型此前,F(xiàn)alcon已經(jīng)推出了三種模型大小,分別是1.3B、7.5B、40B。官方介紹,F(xiàn)alcon 180B是40B的升級版本,由阿布扎比的全球領(lǐng)先技術(shù)研究中心TII推出,可免費(fèi)商用。

wKgaomT7A2OAPB8QAARGT4REvWM040.png

這次,研究人員在基底模型上技術(shù)上進(jìn)行了創(chuàng)新,比如利用Multi-Query Attention等來提高模型的可擴(kuò)展性。對于訓(xùn)練過程,F(xiàn)alcon 180B基于亞馬遜機(jī)器學(xué)習(xí)平臺Amazon SageMaker,在多達(dá)4096個GPU上完成了對3.5萬億token的訓(xùn)練??侴PU計(jì)算時,大約7,000,000個。Falcon 180B的參數(shù)規(guī)模是Llama 2(70B)的2.5倍,而訓(xùn)練所需的計(jì)算量是Llama 2的4倍。具體訓(xùn)練數(shù)據(jù)中,F(xiàn)alcon 180B主要是RefinedWe數(shù)據(jù)集(大約占85%) 。此外,它還在對話、技術(shù)論文,以及一小部分代碼等經(jīng)過整理的混合數(shù)據(jù)的基礎(chǔ)上進(jìn)行了訓(xùn)練。這個預(yù)訓(xùn)練數(shù)據(jù)集足夠大,即使是3.5萬億個token也只占不到一個epoch。官方自稱,F(xiàn)alcon 180B是當(dāng)前「最好」的開源大模型,具體表現(xiàn)如下:在MMLU基準(zhǔn)上,F(xiàn)alcon 180B的性能超過了Llama 2 70B和GPT-3.5。在HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC 及ReCoRD上,與谷歌的PaLM 2-Large不相上下。另外,它在Hugging Face開源大模型榜單上,是當(dāng)前評分最高(68.74分)的開放式大模型,超越了LlaMA 2(67.35)。

2. Meta的Flamera頭顯對增強(qiáng)現(xiàn)實(shí)有了新的愿景

原文:https://mp.weixin.qq.com/s/UepWwW7D03_jISTsSmjwnA
Meta的最新原型頭顯Flamera像是直接從科幻動作片中來的一樣,它在Siggraph 2023上引起了人們的注意 —— Flamera在那里獲得了令人垂涎的Best in Show獎。據(jù)悉,F(xiàn)lamera原型頭顯展示了接近人眼分辨率和全新的"透視"真實(shí)世界的技術(shù)。該原型或許為VR、MR和AR的未來鋪平了道路。頭顯原型展示的技術(shù)突破引發(fā)了人們的興趣和關(guān)注。Moor Insights&Strategy副總裁兼首席分析師Ansel Sag表示:“這絕對是我見過的質(zhì)量最好的(增強(qiáng)現(xiàn)實(shí))實(shí)現(xiàn)透視真實(shí)世界的全新方法。”

wKgaomT7A2OAKh8qAAMsKyyVc54133.png

Giving Reality the Bug Eye出于顯而易見的原因,在物理上不可能將頭顯的攝像頭與用戶的眼睛完全放置在同一位置。這種位移導(dǎo)致了我(作者,以下簡稱我)個人經(jīng)歷的視角的轉(zhuǎn)變:我在使用AR/VR頭顯時撞到了墻上,或者被被椅子絆倒了。像Meta Quest Pro這樣的尖端頭顯,通過從正確的角度重新投射周圍環(huán)境的視圖,跨越了這一障礙,但解決方案可能會導(dǎo)致視覺失真。Meta的蟲眼Flamera提出了一個新穎的解決方案。它摒棄了當(dāng)前頭顯青睞的外部攝像頭陣列,采用了獨(dú)特的“光場穿透”設(shè)計(jì),將圖像傳感器與物理控制到達(dá)傳感器的光的孔徑配對。會導(dǎo)致不正確視角的光被阻擋,而提供準(zhǔn)確視角的光則被允許到達(dá)傳感器。當(dāng)直接通過鏡頭觀看時,結(jié)果很奇怪:這有點(diǎn)像透過紙上的洞看世界。頭顯重新排列原始圖像以消除間隙并重新定位傳感器數(shù)據(jù)。一旦這個過程完成,耳機(jī)就會為用戶提供準(zhǔn)確的世界視圖。Sag說:“這絕對是一個原型,但它的圖像質(zhì)量和分辨率給我留下了深刻印象?!?“幀速率很好,”ModiFace的軟件開發(fā)總監(jiān)Edgar Maucourant也演示了這款頭顯,并對此印象深刻,“我的眼睛所看到的東西和我的手的位置與我的手真正的位置之間沒有延遲,也沒有差異。”Maucourant認(rèn)為Flamera的準(zhǔn)確性可能會為用戶直接與周圍世界互動的AR應(yīng)用程序帶來福音?!袄纾绻覀兛紤]遠(yuǎn)程輔助,人們必須操縱物體,那么今天它是用HoloLens和Magic Leap等AR眼鏡來實(shí)現(xiàn)的……我們可以想象使用AR穿透來實(shí)現(xiàn)這一點(diǎn)。”Meta’s Answer to the Apple Vision Pro?與微軟的HoloLens和Magic Leap進(jìn)行比較很重要。它們通過透明顯示器繞過了透視問題,讓用戶的視覺暢通無阻。當(dāng)HoloLens于2016年發(fā)布時,這種方法感覺像是未來的趨勢,但其顯示質(zhì)量、視野和亮度仍然存在問題。Meta的Quest Pro和蘋果即將推出的Vision Pro強(qiáng)調(diào)了這一方向的轉(zhuǎn)變。盡管以AR/VR頭顯(或者,蘋果方以“空間計(jì)算機(jī)”)的形式進(jìn)行營銷,但它們顯然是虛擬現(xiàn)實(shí)家族的一個分支。它們通過不透明的顯示器完全遮擋了用戶的視野。增強(qiáng)現(xiàn)實(shí)是通過視頻饋送提供的,該視頻饋送將外部世界投射到顯示器。Vision Pro解決直通問題的方法更注重肌肉而非大腦。它使用了一系列與其他AR/VR頭顯類似的外部攝像頭,但將其與蘋果定制的R1芯片配對,該芯片與蘋果M2芯片協(xié)同工作(就像該公司筆記本電腦中的芯片一樣)。R1是一個“視覺處理器”,可以幫助vision Pro的12臺相機(jī)通過計(jì)算校正視角(以及其他任務(wù))。這很像Meta在Quest Pro上嘗試的方法,但蘋果將功率提高到了11。Meta的Flamera取而代之的是用鏡頭校正視角。這大大降低了準(zhǔn)確直通AR所需的原始計(jì)算能力。但這并不是說Meta已經(jīng)完全打開了AR。Flamera的技術(shù)距離可供購買的頭顯還有很長的路要走,目前與傳統(tǒng)的直通AR相比存在一些缺點(diǎn)。Sag表示,該頭顯“視野相當(dāng)有限”,并注意到其景深“不連續(xù)”,這意味著遠(yuǎn)處的物體看起來比實(shí)際更近。Maucourant警告說“顏色不太好”,并認(rèn)為頭顯的分辨率很低。盡管如此,F(xiàn)lamera或展示了Meta、蘋果和其他希望進(jìn)入AR領(lǐng)域的公司之間即將發(fā)生的爭論方向。科技界的大腕們似乎確信,明天最好的AR/VR頭顯看起來更像最初的Oculus Rift,而不是微軟的HoloLens。然而,目前這些原型更多還是在研究階段,離成為消費(fèi)級產(chǎn)品還有一段距離。未來,頭顯技術(shù)的發(fā)展還需要在各個方面進(jìn)行突破和創(chuàng)新,以實(shí)現(xiàn)更高的分辨率、更低的延遲、更舒適的使用體驗(yàn)等。只有解決了這些問題,才能讓用戶真正感受到頭顯帶來的沉浸式體驗(yàn),進(jìn)一步推動VR、MR和AR技術(shù)的廣泛應(yīng)用。

3. 騰訊混元大模型正式亮相,我們搶先試了試它的生產(chǎn)力

原文:https://mp.weixin.qq.com/s/xuk77KHJHhoh6kWkf-4AKg
上個星期,國內(nèi)首批大模型備案獲批,開始面向全社會開放服務(wù),大模型正式進(jìn)入了規(guī)模應(yīng)用的新階段。在前期發(fā)布應(yīng)用的行列中,有些科技巨頭似乎還沒有出手。很快到了 9 月 7 日,在 2023 騰訊全球數(shù)字生態(tài)大會上,騰訊正式揭開了混元大模型的面紗,并通過騰訊云對外開放。作為一個超千億參數(shù)的大模型,混元使用的預(yù)訓(xùn)練語料超過兩萬億 token,憑借多項(xiàng)獨(dú)有的技術(shù)能力獲得了強(qiáng)大的中文創(chuàng)作能力、復(fù)雜語境下的邏輯推理能力,以及可靠的任務(wù)執(zhí)行能力。

wKgaomT7A2OATsXzAALWSxeeFT0090.png

騰訊集團(tuán)副總裁蔣杰表示:「騰訊混元大模型是從第一個 token 開始從零訓(xùn)練的,我們掌握了從模型算法到機(jī)器學(xué)習(xí)框架,再到 AI 基礎(chǔ)設(shè)施的全鏈路自研技術(shù)?!?/span>打開大模型,全部都是生產(chǎn)力騰訊一直表示在大模型的相關(guān)方向上早已有所布局,專項(xiàng)研究一直有序推進(jìn)。這個不是「新技術(shù)」的大模型是什么級別?在大會上蔣杰通過直接詢問混元大模型的方式透露了一些基本信息,它的參數(shù)量是千億級,訓(xùn)練用的數(shù)據(jù)截止到今年 7 月份,此外騰訊也表示大模型的知識將會每月更新。騰訊在現(xiàn)場展示了「騰訊混元大模型小程序」、騰訊文檔中的 AI 助手以及騰訊會議 AI 助手的能力。機(jī)器之心第一時間獲得測試資格嘗試了一番,首先是微信小程序。

wKgaomT7A2OAVKD1AAHrO7AqPGA691.png

從生產(chǎn)力、生活、娛樂到編程開發(fā),它開放的能力可謂非常全面了,符合一個千億級大模型的身份。那么混元真的能有效地完成這些任務(wù)嗎?我要寫一份 PPT,只想好了主題卻不知從何寫起,問一下混元大模型。只需幾秒,AI 就給了一份分出七個部分的大綱,每一部分里也包含細(xì)分的點(diǎn):輸入一篇 arXiv 上 9 月份谷歌提交的論文《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback》摘要和介紹部分,長長的好幾段,很多大模型根本不支持這么多輸入內(nèi)容,混元大模型直接進(jìn)行了總結(jié)順便翻譯成中文。它詳細(xì)解釋了平方根倒數(shù)算法里面數(shù)字的意義(不過對注釋理解得不太透徹)?;蛟S過不了多久,我們做開發(fā)的時候就離不開大模型了。然后是騰訊文檔。很多人已經(jīng)把 GPT-4 等大模型工具用在了自己的工作流程中,混元大模型在騰訊文檔推出的智能助手功能中已有應(yīng)用。在 PC 端新建智能文檔,輸入 “/”,就能根據(jù)需求實(shí)現(xiàn)內(nèi)容生成、翻譯、潤色等操作。已覆蓋騰訊超過 50 個業(yè)務(wù)蔣杰總結(jié)了混元大模型的三大特點(diǎn):具備強(qiáng)大的中文創(chuàng)作能力、復(fù)雜語境下的邏輯推理能力以及可靠的任務(wù)執(zhí)行能力。目前不少業(yè)內(nèi)大模型在場景中的應(yīng)用依然有限,主要問題集中在容錯率高,只適用于任務(wù)簡單的休閑場景。騰訊在算法層面進(jìn)行了一系列自研創(chuàng)新,提高了模型可靠性和成熟度。

wKgaomT7A2SADuwFAARdIK7C0r8244.png

針對大模型容易「胡言亂語」的問題,騰訊優(yōu)化了預(yù)訓(xùn)練算法及策略,通過自研的「探真」技術(shù),讓混元大模型的「幻覺」相比主流開源大模型降低了 30-50%。「業(yè)界的做法是提供搜索增強(qiáng),知識圖譜等『外掛』來提升大模型開卷考試的能力。這種方式增加了模型的知識,但在實(shí)際應(yīng)用中存在很多局限性,」蔣杰表示?!富煸竽P驮陂_發(fā)初期就考慮完全不依賴外界數(shù)據(jù)的方式,進(jìn)行了大量研究嘗試,我們找到的預(yù)訓(xùn)練方法,很大程度上解決了幻覺的問題。」騰訊還通過強(qiáng)化學(xué)習(xí)的方法,讓模型學(xué)會識別陷阱問題,通過位置編碼的優(yōu)化,提高了模型處理超長文的效果和性能。在邏輯方面,騰訊提出了思維鏈的新策略,讓大模型能夠像人一樣結(jié)合實(shí)際的應(yīng)用場景進(jìn)行推理和決策。騰訊混元大模型能夠理解上下文的含義,具有長文記憶能力,可以流暢地進(jìn)行專業(yè)領(lǐng)域的多輪對話。除此之外,它還能進(jìn)行文學(xué)創(chuàng)作、文本摘要、角色扮演等內(nèi)容創(chuàng)作,做到充分理解用戶意圖,并高效、準(zhǔn)確的給出有時效性的答復(fù)。這樣的技術(shù)落地之后,才能真正提升生產(chǎn)力。

wKgaomT7A2SARD4JAAKiZ37Y_vY185.png

在中國信通院《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用的評估方法》的標(biāo)準(zhǔn)符合性測試中,混元大模型共測評 66 個能力項(xiàng),在「模型開發(fā)」和「模型能力」兩個領(lǐng)域的綜合評價(jià)獲得了當(dāng)前最高分。在主流的評測集 MMLU、CEval 和 AGI-eval 上,混元大模型均有優(yōu)異的表現(xiàn),特別是在中文的理科、高考題和數(shù)學(xué)等子項(xiàng)上表現(xiàn)突出。構(gòu)建大模型的意義在于行業(yè)應(yīng)用。據(jù)了解,騰訊內(nèi)部已有超過 50 個業(yè)務(wù)和產(chǎn)品接入并測試了騰訊混元大模型,包括騰訊云、騰訊廣告、騰訊游戲、騰訊金融科技、騰訊會議、騰訊文檔、微信搜一搜、QQ 瀏覽器等,并取得了初步效果。騰訊的程序員們,已經(jīng)在用大模型工具提高開發(fā)效率了。此外,騰訊還通過自研機(jī)器學(xué)習(xí)框架 Angel,使模型的訓(xùn)練速度相比業(yè)界主流框架提升 1 倍,推理速度比業(yè)界主流框架提升 1.3 倍。用于構(gòu)建大模型的基礎(chǔ)設(shè)施也沒有拉下。此前騰訊曾表示已于今年年初構(gòu)建了大規(guī)模算力中心,近期 MiniMax 和百川智能旗下的大模型都使用了騰訊的算力。騰訊也在致力于把行業(yè)數(shù)據(jù)與自身能力相結(jié)合,基于外部客戶的行業(yè)化數(shù)據(jù)來解決行業(yè)特定問題,與實(shí)體行業(yè)結(jié)合,不斷推動大模型的社會、經(jīng)濟(jì)利益和商業(yè)價(jià)值。「根據(jù)公開數(shù)據(jù)顯示,國內(nèi)已有 130 個大模型發(fā)布。其中既有通用模型也有專業(yè)領(lǐng)域模型。混元作為通用模型能夠支持騰訊內(nèi)部的大部分業(yè)務(wù),今天我展示的幾個深度接入的業(yè)務(wù)都有很大的用戶量。大模型已在我們的核心領(lǐng)域獲得了深度應(yīng)用,」蔣杰說道?!肝掖竽P褪紫仁欠?wù)企業(yè)本身,其次是通過騰訊云對外開放?!?/span>在開放給客戶使用時,混元大模型將作為騰訊云模型即服務(wù) MaaS 的底座。客戶既可以直接調(diào)用混元 API,也能將混元作為基座模型,為不同的產(chǎn)業(yè)場景構(gòu)建專屬應(yīng)用。可見,騰訊在大模型領(lǐng)域的策略講究的是一個穩(wěn)字:專注打好基礎(chǔ),不急于拿出半成品展示。而這一出手,就展現(xiàn)出了過硬的實(shí)力。

wKgaomT7A2SAclC8AASoaG6kyqU007.png

不過大模型的發(fā)展還在繼續(xù),正如蔣杰所言:「毫不夸張地說,騰訊已經(jīng)全面擁抱大模型。我們的能力一直在演進(jìn),相信 AIGC 的潛力是無限的,我們已在路上?!?/span>

4. GitHub熱榜登頂:開源版GPT-4代碼解釋器,可安裝任意Python庫,本地終端運(yùn)行

原文:https://mp.weixin.qq.com/s/TiSVeZOeWourVJ60yyyygw
ChatGPT的代碼解釋器,用自己的電腦也能運(yùn)行了。剛剛有位大神在GitHub上發(fā)布了本地版的代碼解釋器,很快就憑借3k+星標(biāo)并登頂GitHub熱榜。不僅GPT-4本來有的功能它都有,關(guān)鍵是還可以聯(lián)網(wǎng)

wKgaomT7A2SAdxnVAACDeq-33yg148.png

ChatGPT“斷網(wǎng)”的消息傳出后引起了一片嘩然,而且一關(guān)就是幾個月。這幾個月間聯(lián)網(wǎng)功能一直杳無音訊,現(xiàn)在可算是有解決的辦法了。由于代碼是在本地運(yùn)行,所以除了聯(lián)網(wǎng)之外,它還解決了網(wǎng)頁版的很多其他問題:
  • 3小時只能發(fā)50條消息
  • 支持的Python模塊數(shù)量有限
  • 處理文件大小有限制,不能超過100MB
  • 關(guān)閉會話窗口之后,此前生成的文件會被刪除
如果沒有API,還可以把模型換成開源的Code LLaMa。這個代碼解釋器推出之后,很快有網(wǎng)友表示期待一波網(wǎng)頁版:

wKgaomT7A2SAYiiEAACJ866wDv4031.png

那么我們就來看看這個本地代碼解釋器到底怎么樣吧!讓GPT“重新聯(lián)網(wǎng)”既然調(diào)用了GPT-4的API,那GPT-4支持的功能自然都能用,當(dāng)然也支持中文。關(guān)于GPT本身的功能這里就不再一一詳細(xì)展示了。不過值得一提的是,有了代碼解釋器之后,GPT的數(shù)學(xué)水平提升了好幾個檔次。所以這里我們用一個高難度的求導(dǎo)問題來考驗(yàn)一下它,題目是f(x)=√(x+√(x+√x))。

wKgaomT7A2WANZhqAAKY31by0PE555.png

Emmm……這個結(jié)果有些抽象,不過應(yīng)該是提示詞的問題,我們修改一下:

wKgaomT7A2WAbh6tAAICWx25NlI982.png

然后我們就看到了這樣的結(jié)果:

wKgaomT7A2WAMC1NAAAJqxCZj-A901.png

這個式子和標(biāo)準(zhǔn)答案長得不太一樣,不過是不是格式的問題呢?我們驗(yàn)證了一下:

wKgaomT7A2WAIrzJAAFmzZwUXB0560.png

結(jié)果是正確的!接下來就要進(jìn)入重頭戲了,來看看這個代碼解釋器的聯(lián)網(wǎng)功能到底是不是噱頭:比如我們想看一下最近有什么新聞。更多的內(nèi)容請點(diǎn)擊原文,謝謝。

5. ReVersion|圖像生成中的Relation定制化

原文:https://mp.weixin.qq.com/s/7W80wWf2Bj68MnC8NEV9cQ
新任務(wù):Relation Inversion今年,diffusion model和相關(guān)的定制化(personalization)的工作越來越受人們歡迎,例如DreamBooth,Textual Inversion,Custom Diffusion等,該類方法可以將一個具體物體的概念從圖片中提取出來,并加入到預(yù)訓(xùn)練的text-to-image diffusion model中,這樣一來,人們就可以定制化地生成自己感興趣的物體,比如說具體的動漫人物,或者是家里的雕塑,水杯等等。現(xiàn)有的定制化方法主要集中在捕捉物體外觀(appearance)方面。然而,除了物體的外觀,視覺世界還有另一個重要的支柱,就是物體與物體之間千絲萬縷的關(guān)系(relation)。目前還沒有工作探索過如何從圖片中提取一個具體關(guān)系(relation),并將該relation作用在生成任務(wù)上。為此,我們提出了一個新任務(wù):Relation Inversion。

wKgaomT7A2WAFN3wAANrxUB9mq4580.png

如上圖,給定幾張參考圖片,這些參考圖片中有一個共存的relation,例如“物體A被裝在物體B中”,Relation Inversion的目標(biāo)是找到一個relation prompt來描述這種交互關(guān)系,并將其應(yīng)用于生成新的場景,讓其中的物體也按照這個relation互動,例如將蜘蛛俠裝進(jìn)籃子里。

wKgaomT7A2aAcikVAABogqRWJ7I859.png

論文:https://arxiv.org/abs/2303.13495代碼:https://github.com/ziqihuangg/ReVersion主頁:https://ziqihuangg.github.io/projects/reversion.html視頻:https://www.youtube.com/watch?v=pkal3yjyyKQDemo:https://huggingface.co/spaces/Ziqi/ReVersion
ReVersion框架作為針對Relation Inversion問題的首次嘗試,我們提出了ReVersion框架:

wKgaomT7A2aAR3SjAAWgM4iri0A844.png

相較于已有的Appearance Invesion任務(wù),Relation Inversion任務(wù)的難點(diǎn)在于怎樣告訴模型我們需要提取的是relation這個相對抽象的概念,而不是物體的外觀這類有顯著視覺特征的方面。我們提出了relation-focal importance sampling策略來鼓勵更多地關(guān)注high-level的relation;同時設(shè)計(jì)了relation-steering contrastive learning來引導(dǎo)更多地關(guān)注relation,而非物體的外觀。更多細(xì)節(jié)詳見論文。ReVersion Benchmark我們收集并提供了ReVersion Benchmark:https://github.com/ziqihuangg/ReVersion#the-reversion-benchmark它包含豐富多樣的relation,每個relation有多張exemplar images以及人工標(biāo)注的文字描述。我們同時對常見的relation提供了大量的inference templates,大家可以用這些inference templates來測試學(xué)到的relation prompt是否精準(zhǔn),也可以用來組合生成一些有意思的交互場景。結(jié)果展示豐富多樣的relation,我們可以invert豐富多樣的relation,并將它們作用在新的物體上

6. 神經(jīng)網(wǎng)絡(luò)大還是小?Transformer模型規(guī)模對訓(xùn)練目標(biāo)的影響

原文:https://mp.weixin.qq.com/s/el_vtxw-54LVnuWzS1JYDw
論文鏈接:https://arxiv.org/abs/2205.10505
01 TL;DR本文研究了 Transformer 類模型結(jié)構(gòu)(configration)設(shè)計(jì)(即模型深度和寬度)與訓(xùn)練目標(biāo)之間的關(guān)系。結(jié)論是:token 級的訓(xùn)練目標(biāo)(如 masked token prediction)相對更適合擴(kuò)展更深層的模型,而 sequence 級的訓(xùn)練目標(biāo)(如語句分類)則相對不適合訓(xùn)練深層神經(jīng)網(wǎng)絡(luò),在訓(xùn)練時會遇到 over-smoothing problem。在配置模型的結(jié)構(gòu)時,我們應(yīng)該注意模型的訓(xùn)練目標(biāo)。一般而言,在我們討論不同的模型時,為了比較的公平,我們會采用相同的配置。然而,如果某個模型只是因?yàn)樵诮Y(jié)構(gòu)上更適應(yīng)訓(xùn)練目標(biāo),它可能會在比較中勝出。對于不同的訓(xùn)練任務(wù),如果沒有進(jìn)行相應(yīng)的模型配置搜索,它的潛力可能會被低估。因此,為了充分理解每個新穎訓(xùn)練目標(biāo)的應(yīng)用潛力,我們建議研究者進(jìn)行合理的研究并自定義結(jié)構(gòu)配置。02 概念解釋下面將集中解釋一些概念,以便于快速理解:2.1 Training Objective(訓(xùn)練目標(biāo))

wKgaomT7A2aAAzpFAARDjOIUTCY804.png

wKgaomT7A2eAa9BQAAF4jfgwRUY591.png訓(xùn)練目標(biāo)是模型在訓(xùn)練過程中完成的任務(wù),也可以理解為其需要優(yōu)化的損失函數(shù)。在模型訓(xùn)練的過程中,有多種不同的訓(xùn)練目標(biāo)可以使用,在此我們列出了 3 種不同的訓(xùn)練目標(biāo)并將其歸類為 token level 和 sequence level:
  • sequence level:
    • classification 分類任務(wù),作為監(jiān)督訓(xùn)練任務(wù)。簡單分類(Vanilla Classification)要求模型對輸入直接進(jìn)行分類,如對句子進(jìn)行情感分類,對圖片進(jìn)行分類;而 CLIP 的分類任務(wù)要求模型將圖片與句子進(jìn)行匹配。
  • token level:(無監(jiān)督)
    • masked autoencoder:masked token 預(yù)測任務(wù),模型對部分遮蓋的輸入進(jìn)行重建
    • next token prediction:對序列的下一個 token 進(jìn)行預(yù)測
2.2 Transformer Configration(模型結(jié)構(gòu):配置)

wKgaomT7A2eAZL3OAAGdniDjxYk047.png

Transoformer 的配置指的是定義 Transformer 模型結(jié)構(gòu)和大小的超參數(shù),包括層數(shù)(深度),隱藏層大小(寬度),注意力頭的個數(shù)等。2.3 Over-smoothing (過度平滑)

wKgaomT7A2eAKrShAAKaPun_1CA575.png

過度平滑是一個在圖神經(jīng)網(wǎng)絡(luò)中的概念,具體表示模型輸出趨向平滑一致,各個點(diǎn)的輸出缺少細(xì)節(jié)和變化的現(xiàn)象。這一現(xiàn)象在圖神經(jīng)網(wǎng)絡(luò)中被廣泛研究,但它也在 Transformer 模型中存在。(已有研究)發(fā)現(xiàn) Transoformer 模型遇到的 over-smoothing 問題阻礙模型加深。具體而言,當(dāng)堆疊多層的 Transformer layers 時,transformer layer 輸出的 token 表征(向量)會趨于一致,丟失獨(dú)特性。這阻礙了 Transformer 模型的擴(kuò)展性,特別是在深度這一維度上。增加 Transformer 模型的深度只帶來微小的性能提升,有時甚至?xí)p害原有模型的性能。1. ViT 和 MAE 中的 over-smoothing直觀上,掩碼自編碼器框架(例如 BERT、BEiT、MAE)的訓(xùn)練目標(biāo)是基于未掩碼的 unmasked token 恢復(fù)被掩碼的 masked token。與使用簡單分類目標(biāo)訓(xùn)練 Transformer 相比,掩碼自編碼器框架采用了序列標(biāo)注目標(biāo)。我們先假設(shè)掩碼自編碼器訓(xùn)練能緩解 over-smoothing,這可能是掩碼自編碼器 MAE 有助于提升 Transformer 性能的原因之一。由于不同的 masked token 相鄰的 unmaksed token 也不同,unmasked token 必須具有充分的語義信息,以準(zhǔn)確預(yù)測其臨近的 masked token。也即,unmasked token 的表征的語義信息是重要的,這抑制了它們趨向一致??傊?,我們可以推斷掩碼自編碼器的訓(xùn)練目標(biāo)通過對 token 間的差異進(jìn)行正則化,有助于緩解過度平滑問題。我們通過可視化的實(shí)驗(yàn)來驗(yàn)證了這一觀點(diǎn)。我們發(fā)現(xiàn) ViT 的 token 表征在更深的層中更加接近,而 MAE 模型則避免了這個問題,這說明在掩碼自編碼器中,over-smoothing 問題得到了緩解。通過簡單的分類任務(wù)訓(xùn)練 Transformer 模型則不具備這一特點(diǎn)。

wKgaomT7A2eAcqaoAAMCl3rQk2I384.png

進(jìn)一步的,我們還通過傅里葉方法對這一問題進(jìn)行了研究,具體可以參考我們的論文。2. CLIP 和 LLM 中的 over-smoothing根據(jù)上述分析,我們可以得出結(jié)論:token 級的訓(xùn)練目標(biāo)(例如語言建模中的:next token prediction)表現(xiàn)出較輕的 over-smoothing。另一方面,基于 sequence 級別的目標(biāo)(如對比圖像預(yù)訓(xùn)練)更容易出現(xiàn) over-smoothing。為了驗(yàn)證這個結(jié)論,我們使用 CLIP 和 OPT 進(jìn)行了類似的 cosine 相似度實(shí)驗(yàn)。我們可以看到 CLIP 模型展現(xiàn)了與 Vanilla ViT 類似的 over-smoothing 現(xiàn)象。這一觀察結(jié)果符合我們的預(yù)期。此外,為了探究 next-token prediction 這一廣泛采用的語言建模預(yù)訓(xùn)練目標(biāo)是否可以緩解 over-smoothing,我們對 OPT 進(jìn)行了評估,并發(fā)現(xiàn)它能夠有效應(yīng)對 over-smoothing。這一發(fā)現(xiàn)具有重要意義,因?yàn)樗兄诮忉尀槭裁凑Z言建模模型在可擴(kuò)展性方面(如超大規(guī)模預(yù)訓(xùn)練語言模型)優(yōu)于許多視覺模型。

wKgaomT7A2eAY5ggAAEkzMUIwt4699.png

03 溯源:現(xiàn)有的Transformer架構(gòu)是怎么來的為了在研究時保證公平的比較,現(xiàn)有的 Transformer 類模型通常會遵循固定的結(jié)構(gòu)(small, base, large…),即相同的寬度和深度。比如前面提到的 transformer-base 就是寬度為 768(隱藏層),深度為 12(層數(shù))。然而,對于不同的研究領(lǐng)域,不同的模型功能,為什么仍要采用相同的超參數(shù)?為此,我們首先對 Transformer 架構(gòu)進(jìn)行了溯源,回顧了代表性的工作中 Transformer 結(jié)構(gòu)的來源:Vision Transformer 的作者根據(jù) BERT 中 Transformer-base 的結(jié)構(gòu)作為其 ViT 模型配置;而 BERT 在選擇配置時遵循了 OpenAI GPT 的方法;OpenAI 則參考了最初的 Transformer 論文。在最初的 Transformer 論文中,最佳配置來源于機(jī)器翻譯任務(wù)的笑容實(shí)驗(yàn)。也就是說,對于不同任務(wù),我們均采用了基于對機(jī)器翻譯任務(wù)的 Transformer 配置。(參考上文,這是一種序列級別的任務(wù))

wKgaomT7A2iAeo9lAACxJI2KM4A432.png

04 現(xiàn)狀:不同的模型采用不同的訓(xùn)練目標(biāo)現(xiàn)在,Transformer 模型通過各種訓(xùn)練目標(biāo)進(jìn)行訓(xùn)練。以 ViT 為例,我們可以在圖像分類的監(jiān)督學(xué)習(xí)環(huán)境下從頭開始訓(xùn)練 Transformer 模型。在這種直接的圖像分類任務(wù)中,每個圖像被建模為一個 token 序列,其中每個 token 對應(yīng)圖像中的一個圖塊。我們使用來自圖像的所有 token(即圖塊)的全局信息來預(yù)測單個標(biāo)簽,即圖像類別。在這里,由于訓(xùn)練目標(biāo)是捕捉圖像的全局信息,token 表示之間的差異不會直接被考慮。這一訓(xùn)練目標(biāo)與機(jī)器翻譯任務(wù)完全不同,機(jī)器翻譯要求模型理解 token 序列,并以此生成另一個序列。據(jù)此,我們可以合理假設(shè)對于這兩個不同任務(wù),應(yīng)該存在不同的最佳 Transformer 配置。

wKgaomT7A2iAXNI_AAD6TDwD1G4804.png

05 對于MAE訓(xùn)練目標(biāo)調(diào)整模型結(jié)構(gòu)基于上述的討論,我們得到了如下認(rèn)識:
  1. 現(xiàn)有的 Transformer 模型在加深模型深度時會發(fā)生 over-smoothing 問題,這阻礙了模型在深度上的拓展。
  2. 相較于簡單分類訓(xùn)練目標(biāo),MAE 的掩碼預(yù)測任務(wù)能夠緩解 over-smoothing。(進(jìn)一步地,token 級別的訓(xùn)練目標(biāo)都能夠一定程度地緩解 over-smoothing)
  3. MAE 的現(xiàn)有模型結(jié)構(gòu)繼承于機(jī)器翻譯任務(wù)上的最佳結(jié)構(gòu)設(shè)置,不一定合理。
綜合以上三點(diǎn),可以推知 MAE 應(yīng)該能夠在深度上更好的拓展,也即使用更深的模型架構(gòu)。本文探索了 MAE 在更深,更窄的模型設(shè)置下的表現(xiàn):采用本文提出的 Bamboo(更深,更窄)模型配置,我們可以在視覺和語言任務(wù)上得到明顯的性能提升。

wKgaomT7A2iAUxnWAAO41K7sJds650.png

另外,我們在深度拓展性上也做了實(shí)驗(yàn),可以看到,當(dāng)采用 Bamboo 的配置時,MAE 能夠獲得明顯的性能提升,而對于 ViT 而言,更深的模型則是有害的。MAE 在深度增加到 48 層時仍能獲得性能提升,而 ViT 則總是處于性能下降的趨勢。

wKgaomT7A2iAezjKAAKHCPq2F98797.png

以上的結(jié)果佐證了本文提出的觀點(diǎn):訓(xùn)練目標(biāo)能夠影響模型拓展的行為。Training objectives can greatly change the scaling behavior.06 結(jié)論本文發(fā)現(xiàn),Transformer 的配置與其訓(xùn)練目標(biāo)之間存在著密切關(guān)系。sequence 級別的訓(xùn)練目標(biāo),如直接分類和 CLIP,通常遇到 over-smoothing。而 token 級的訓(xùn)練目標(biāo),如 MAE 和 LLMs 的 next token prediction,可以較好地緩解 over-smoothing。這一結(jié)論解釋了許多模型擴(kuò)展性研究結(jié)果,例如 GPT-based LLMs 的可擴(kuò)展性以及 MAE 比 ViT 更具擴(kuò)展性的現(xiàn)象。我們認(rèn)為這一觀點(diǎn)對我們的學(xué)術(shù)界有助于理解許多 Transformer 模型的擴(kuò)展行為。

———————End——————

點(diǎn)擊閱讀原文進(jìn)入官網(wǎng)


原文標(biāo)題:【AI簡報(bào)20230908期】正式亮相!打開騰訊混元大模型,全部都是生產(chǎn)力

文章出處:【微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • RT-Thread
    +關(guān)注

    關(guān)注

    32

    文章

    1402

    瀏覽量

    41877

原文標(biāo)題:【AI簡報(bào)20230908期】正式亮相!打開騰訊混元大模型,全部都是生產(chǎn)力

文章出處:【微信號:RTThread,微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    摩爾線程率先支持騰訊-A13B模型

    近日,騰訊正式開源基于專家混合(MoE)架構(gòu)的大語言模型-A13B。同日,摩爾線程團(tuán)隊(duì)?wèi){借技術(shù)前瞻性,率先完成該模型在全功能GPU的深度
    的頭像 發(fā)表于 07-04 14:10 ?225次閱讀

    騰訊元寶升級:深度思考模型騰訊T1”全量上線

    近日,騰訊元寶迎來了又一次重要更新,深度思考模型騰訊T1”已全面上線。此次更新不僅進(jìn)一步豐富了騰訊
    的頭像 發(fā)表于 02-20 09:12 ?729次閱讀

    DLP6500FLQ WIN11不顯示投影內(nèi)容,F(xiàn)irmware里面內(nèi)容全部都是×,為什么?

    換了主機(jī)后,WIN11系統(tǒng)連接可以連接HDMI線,會被認(rèn)定為外接顯示器。 但是另外一個USB口識別不出,打開GUI軟件后,在視頻模式和圖案模式都不能打開,F(xiàn)irmware里面內(nèi)容全部都是
    發(fā)表于 02-20 08:15

    騰訊AI助手“騰訊元寶”重大更新:支持深度思考功能

    近日,騰訊AI助手“騰訊元寶”再次迎來了重大更新,為用戶帶來了更加智能、高效的使用體驗(yàn)。此次更新中,騰訊元寶新增了深度思考功能,這一功能由
    的頭像 發(fā)表于 02-18 09:21 ?1152次閱讀

    騰訊元寶AI產(chǎn)品更新,正式接入DeepSeek R1模型

    近日,騰訊元寶AI產(chǎn)品在應(yīng)用商店迎來了重要更新,正式接入了DeepSeek R1模型,并宣布該模型已聯(lián)網(wǎng)且以滿血狀態(tài)上線。這一更新標(biāo)志著騰訊
    的頭像 發(fā)表于 02-14 09:29 ?983次閱讀

    騰訊3D AI創(chuàng)作引擎正式發(fā)布

    近日,騰訊公司宣布其自主研發(fā)的3D AI創(chuàng)作引擎已正式上線。這一創(chuàng)新性的創(chuàng)作工具將為用戶帶來前所未有的3D內(nèi)容創(chuàng)作體驗(yàn),標(biāo)志著騰訊
    的頭像 發(fā)表于 01-23 10:33 ?579次閱讀

    騰訊3D AI創(chuàng)作引擎正式上線

    近日,騰訊公司宣布其自主研發(fā)的3D AI創(chuàng)作引擎已正式上線。這一創(chuàng)新性的創(chuàng)作工具,標(biāo)志著騰訊在3D內(nèi)容生成領(lǐng)域邁出了重要一步。
    的頭像 發(fā)表于 01-22 10:26 ?574次閱讀

    胡瀚接棒騰訊多模態(tài)大模型研發(fā)

    騰訊的杰出科學(xué)家和模型技術(shù)團(tuán)隊(duì)的核心成員,曾在推動騰訊在人工智能領(lǐng)域的發(fā)展中發(fā)揮了重要作用。然而,去年11月,有消息稱劉威已從
    的頭像 發(fā)表于 01-09 15:49 ?725次閱讀

    騰訊模型開源成績斐然,GitHub Star數(shù)近1.4萬

    近日,在2024年12月24日舉辦的開放原子開發(fā)者大會暨首屆開源技術(shù)學(xué)術(shù)大會上,騰訊云副總裁、騰訊模型負(fù)責(zé)人劉煜宏發(fā)表了重要演講。他強(qiáng)
    的頭像 發(fā)表于 12-26 10:30 ?728次閱讀

    騰訊文生圖登頂智源FlagEval評測榜首

    近日,北京智源人工智能研究院(BAAI)發(fā)布了最新的FlagEval大模型評測排行榜,其中多模態(tài)模型評測榜單的文生圖模型引起了廣泛關(guān)注。結(jié)果顯示,騰訊
    的頭像 發(fā)表于 12-25 10:06 ?840次閱讀

    騰訊模型上線并開源文生視頻能力

    近日,騰訊宣布其模型正式上線,并開源了一項(xiàng)令人矚目的能力——文生視頻。該大模型參數(shù)量高達(dá)130億,支持中英文雙語輸入,為用戶提供了更為
    的頭像 發(fā)表于 12-04 14:06 ?530次閱讀

    騰訊Large模型及云TI平臺全新上線

    近日,騰訊團(tuán)隊(duì)最新推出的MoE模型Large”已正式開源上線。這一里程碑式的進(jìn)展標(biāo)志著
    的頭像 發(fā)表于 11-08 11:03 ?862次閱讀

    高通與騰訊達(dá)成戰(zhàn)略合作

    驍龍峰會期間,高通技術(shù)公司宣布與騰訊合作,基于驍龍8至尊版移動平臺,共同推動了騰訊
    的頭像 發(fā)表于 11-08 09:52 ?879次閱讀

    華為云徐峰:AI 賦能應(yīng)用現(xiàn)代化,加速軟件生產(chǎn)力躍升

    ,分享了智能化應(yīng)用的行業(yè)實(shí)踐,并發(fā)布了華為云在應(yīng)用開發(fā)、運(yùn)行、運(yùn)維、集成領(lǐng)域的智能化新產(chǎn)品能力。 在主題為“ AI 賦能應(yīng)用現(xiàn)代化,加速軟件生產(chǎn)力躍升論壇 ”的論壇上,徐峰首先介紹了 AI 軟件+應(yīng)用領(lǐng)域?qū)蔀?
    的頭像 發(fā)表于 10-14 09:45 ?940次閱讀
    華為云徐峰:<b class='flag-5'>AI</b> 賦能應(yīng)用現(xiàn)代化,加速軟件<b class='flag-5'>生產(chǎn)力</b>躍升

    商湯科技發(fā)布《采用AI編程助手,發(fā)展新質(zhì)生產(chǎn)力》白皮書

    模型應(yīng)用百花齊放,AI編程助手作為新質(zhì)生產(chǎn)力工具為企業(yè)和開發(fā)者帶來哪些價(jià)值?
    的頭像 發(fā)表于 09-02 09:25 ?1276次閱讀