1. 1800億參數(shù),世界頂級開源大模型Falcon官宣!碾壓LLaMA 2,性能直逼GPT-4
原文:https://mp.weixin.qq.com/s/B3KycAYJ2bLWctvoWOAxHQ
一夜之間,世界最強(qiáng)開源大模型Falcon 180B引爆全網(wǎng)!
1800億參數(shù),F(xiàn)alcon在3.5萬億token完成訓(xùn)練,直接登頂Hugging Face排行榜。
基準(zhǔn)測試中,F(xiàn)alcon 180B在推理、編碼、熟練度和知識測試各種任務(wù)中,一舉擊敗Llama 2。
2. Meta的Flamera頭顯對增強(qiáng)現(xiàn)實(shí)有了新的愿景
原文:https://mp.weixin.qq.com/s/UepWwW7D03_jISTsSmjwnAMeta的最新原型頭顯Flamera像是直接從科幻動作片中來的一樣,它在Siggraph 2023上引起了人們的注意 —— Flamera在那里獲得了令人垂涎的Best in Show獎。據(jù)悉,F(xiàn)lamera原型頭顯展示了接近人眼分辨率和全新的"透視"真實(shí)世界的技術(shù)。該原型或許為VR、MR和AR的未來鋪平了道路。頭顯原型展示的技術(shù)突破引發(fā)了人們的興趣和關(guān)注。Moor Insights&Strategy副總裁兼首席分析師Ansel Sag表示:“這絕對是我見過的質(zhì)量最好的(增強(qiáng)現(xiàn)實(shí))實(shí)現(xiàn)透視真實(shí)世界的全新方法。”
3. 騰訊混元大模型正式亮相,我們搶先試了試它的生產(chǎn)力
原文:https://mp.weixin.qq.com/s/xuk77KHJHhoh6kWkf-4AKg上個星期,國內(nèi)首批大模型備案獲批,開始面向全社會開放服務(wù),大模型正式進(jìn)入了規(guī)模應(yīng)用的新階段。在前期發(fā)布應(yīng)用的行列中,有些科技巨頭似乎還沒有出手。很快到了 9 月 7 日,在 2023 騰訊全球數(shù)字生態(tài)大會上,騰訊正式揭開了混元大模型的面紗,并通過騰訊云對外開放。作為一個超千億參數(shù)的大模型,混元使用的預(yù)訓(xùn)練語料超過兩萬億 token,憑借多項(xiàng)獨(dú)有的技術(shù)能力獲得了強(qiáng)大的中文創(chuàng)作能力、復(fù)雜語境下的邏輯推理能力,以及可靠的任務(wù)執(zhí)行能力。
4. GitHub熱榜登頂:開源版GPT-4代碼解釋器,可安裝任意Python庫,本地終端運(yùn)行
原文:https://mp.weixin.qq.com/s/TiSVeZOeWourVJ60yyyygwChatGPT的代碼解釋器,用自己的電腦也能運(yùn)行了。剛剛有位大神在GitHub上發(fā)布了本地版的代碼解釋器,很快就憑借3k+星標(biāo)并登頂GitHub熱榜。不僅GPT-4本來有的功能它都有,關(guān)鍵是還可以聯(lián)網(wǎng)。
- 3小時只能發(fā)50條消息
- 支持的Python模塊數(shù)量有限
- 處理文件大小有限制,不能超過100MB
- 關(guān)閉會話窗口之后,此前生成的文件會被刪除
結(jié)果是正確的!接下來就要進(jìn)入重頭戲了,來看看這個代碼解釋器的聯(lián)網(wǎng)功能到底是不是噱頭:比如我們想看一下最近有什么新聞。更多的內(nèi)容請點(diǎn)擊原文,謝謝。
5. ReVersion|圖像生成中的Relation定制化
原文:https://mp.weixin.qq.com/s/7W80wWf2Bj68MnC8NEV9cQ新任務(wù):Relation Inversion今年,diffusion model和相關(guān)的定制化(personalization)的工作越來越受人們歡迎,例如DreamBooth,Textual Inversion,Custom Diffusion等,該類方法可以將一個具體物體的概念從圖片中提取出來,并加入到預(yù)訓(xùn)練的text-to-image diffusion model中,這樣一來,人們就可以定制化地生成自己感興趣的物體,比如說具體的動漫人物,或者是家里的雕塑,水杯等等。現(xiàn)有的定制化方法主要集中在捕捉物體外觀(appearance)方面。然而,除了物體的外觀,視覺世界還有另一個重要的支柱,就是物體與物體之間千絲萬縷的關(guān)系(relation)。目前還沒有工作探索過如何從圖片中提取一個具體關(guān)系(relation),并將該relation作用在生成任務(wù)上。為此,我們提出了一個新任務(wù):Relation Inversion。
論文:https://arxiv.org/abs/2303.13495代碼:https://github.com/ziqihuangg/ReVersion主頁:https://ziqihuangg.github.io/projects/reversion.html視頻:https://www.youtube.com/watch?v=pkal3yjyyKQDemo:https://huggingface.co/spaces/Ziqi/ReVersionReVersion框架作為針對Relation Inversion問題的首次嘗試,我們提出了ReVersion框架:
6. 神經(jīng)網(wǎng)絡(luò)大還是小?Transformer模型規(guī)模對訓(xùn)練目標(biāo)的影響
原文:https://mp.weixin.qq.com/s/el_vtxw-54LVnuWzS1JYDw
論文鏈接:https://arxiv.org/abs/2205.1050501 TL;DR本文研究了 Transformer 類模型結(jié)構(gòu)(configration)設(shè)計(jì)(即模型深度和寬度)與訓(xùn)練目標(biāo)之間的關(guān)系。結(jié)論是:token 級的訓(xùn)練目標(biāo)(如 masked token prediction)相對更適合擴(kuò)展更深層的模型,而 sequence 級的訓(xùn)練目標(biāo)(如語句分類)則相對不適合訓(xùn)練深層神經(jīng)網(wǎng)絡(luò),在訓(xùn)練時會遇到 over-smoothing problem。在配置模型的結(jié)構(gòu)時,我們應(yīng)該注意模型的訓(xùn)練目標(biāo)。一般而言,在我們討論不同的模型時,為了比較的公平,我們會采用相同的配置。然而,如果某個模型只是因?yàn)樵诮Y(jié)構(gòu)上更適應(yīng)訓(xùn)練目標(biāo),它可能會在比較中勝出。對于不同的訓(xùn)練任務(wù),如果沒有進(jìn)行相應(yīng)的模型配置搜索,它的潛力可能會被低估。因此,為了充分理解每個新穎訓(xùn)練目標(biāo)的應(yīng)用潛力,我們建議研究者進(jìn)行合理的研究并自定義結(jié)構(gòu)配置。02 概念解釋下面將集中解釋一些概念,以便于快速理解:2.1 Training Objective(訓(xùn)練目標(biāo))

- sequence level:
-
- classification 分類任務(wù),作為監(jiān)督訓(xùn)練任務(wù)。簡單分類(Vanilla Classification)要求模型對輸入直接進(jìn)行分類,如對句子進(jìn)行情感分類,對圖片進(jìn)行分類;而 CLIP 的分類任務(wù)要求模型將圖片與句子進(jìn)行匹配。
- token level:(無監(jiān)督)
-
- masked autoencoder:masked token 預(yù)測任務(wù),模型對部分遮蓋的輸入進(jìn)行重建
- next token prediction:對序列的下一個 token 進(jìn)行預(yù)測
- 現(xiàn)有的 Transformer 模型在加深模型深度時會發(fā)生 over-smoothing 問題,這阻礙了模型在深度上的拓展。
- 相較于簡單分類訓(xùn)練目標(biāo),MAE 的掩碼預(yù)測任務(wù)能夠緩解 over-smoothing。(進(jìn)一步地,token 級別的訓(xùn)練目標(biāo)都能夠一定程度地緩解 over-smoothing)
- MAE 的現(xiàn)有模型結(jié)構(gòu)繼承于機(jī)器翻譯任務(wù)上的最佳結(jié)構(gòu)設(shè)置,不一定合理。
———————End———————
點(diǎn)擊閱讀原文進(jìn)入官網(wǎng)
原文標(biāo)題:【AI簡報(bào)20230908期】正式亮相!打開騰訊混元大模型,全部都是生產(chǎn)力
文章出處:【微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
RT-Thread
+關(guān)注
關(guān)注
32文章
1402瀏覽量
41877
原文標(biāo)題:【AI簡報(bào)20230908期】正式亮相!打開騰訊混元大模型,全部都是生產(chǎn)力
文章出處:【微信號:RTThread,微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
摩爾線程率先支持騰訊混元-A13B模型
騰訊元寶升級:深度思考模型“騰訊混元T1”全量上線
DLP6500FLQ WIN11不顯示投影內(nèi)容,F(xiàn)irmware里面內(nèi)容全部都是×,為什么?
騰訊AI助手“騰訊元寶”重大更新:支持深度思考功能
騰訊元寶AI產(chǎn)品更新,正式接入DeepSeek R1模型
騰訊混元3D AI創(chuàng)作引擎正式發(fā)布
騰訊混元3D AI創(chuàng)作引擎正式上線
胡瀚接棒騰訊多模態(tài)大模型研發(fā)
騰訊混元大模型開源成績斐然,GitHub Star數(shù)近1.4萬
騰訊混元文生圖登頂智源FlagEval評測榜首
騰訊混元大模型上線并開源文生視頻能力
騰訊混元Large模型及云TI平臺全新上線
高通與騰訊混元達(dá)成戰(zhàn)略合作
華為云徐峰:AI 賦能應(yīng)用現(xiàn)代化,加速軟件生產(chǎn)力躍升

評論