一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大腦視覺信號被Stable Diffusion復(fù)現(xiàn)成圖像!

CVer ? 來源:量子位 ? 2023-03-06 10:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“現(xiàn)在Stable Diffusion已經(jīng)能重建大腦視覺信號了!”

就在昨晚,一個聽起來細思極恐的“AI讀腦術(shù)”研究,在網(wǎng)上掀起軒然大波:

5669e49c-bb5f-11ed-bfe3-dac502259ad0.png

這項研究聲稱,只需用fMRI(功能磁共振成像技術(shù),相比sMRI更關(guān)注功能性信息,如腦皮層激活情況等)掃描大腦特定部位獲取信號,AI就能重建出我們看到的圖像!

58061578-bb5f-11ed-bfe3-dac502259ad0.png

例如這是一系列人眼看到的圖像,包括戴著蝴蝶結(jié)的小熊、飛機和白色鐘樓:

58365594-bb5f-11ed-bfe3-dac502259ad0.png

AI看了眼人腦信號后,立馬就給出這樣的結(jié)果,屬實把該抓的重點全都抓住了:

58ef8e38-bb5f-11ed-bfe3-dac502259ad0.gif

再發(fā)展一步,這不就約等于哈利波特里的讀心術(shù)了嗎??

5b13639c-bb5f-11ed-bfe3-dac502259ad0.png

更有網(wǎng)友感到驚嘆:如果說ChatGPT開放API是件大事,那這簡直稱得上瘋狂。

5b5c7f82-bb5f-11ed-bfe3-dac502259ad0.png

所以,這究竟是怎么一回事?

用Stable Diffusion可視化人腦信號

這項研究來自日本大阪大學,目前已經(jīng)被CVPR 2023收錄:

5b73ba26-bb5f-11ed-bfe3-dac502259ad0.png

High-resolution image reconstruction with latent diffusion models from human brain activity

研究希望能從人類大腦活動中,重建高保真的真實感圖像,來理解大腦、并解讀計算機視覺模型和人類視覺系統(tǒng)之間的聯(lián)系。

要知道,此前雖然有不少腦機接口研究,致力于從人類大腦活動中讀取并重建信號,如意念打字等。

然而,從人類大腦活動中重建視覺信號——具有真實感的圖像,仍然挑戰(zhàn)極大。

例如這是此前UC伯克利做過的一項類似研究,復(fù)現(xiàn)一張人眼看到的飛機片段,但計算機重建出來的圖像卻幾乎看不出飛機的特征:

5bde0c96-bb5f-11ed-bfe3-dac502259ad0.png

△圖源UC伯克利研究Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies

這次,研究人員重建信號選用的AI模型,是這一年多在圖像生成領(lǐng)域地位飛升的擴散模型。

當然,更準確地說是基于潛在擴散模型(LDM)——Stable Diffusion。

整體研究的思路,則是基于Stable Diffusion,打造一種以人腦活動信號為條件的去噪過程的可視化技術(shù)。

它不需要在復(fù)雜的深度學習模型上進行訓(xùn)練或做精細的微調(diào),只需要做好fMRI(功能磁共振成像技術(shù))成像到Stable Diffusion中潛在表征的簡單線性映射關(guān)系就行。

它的概覽框架是這樣的,看起來也非常簡單:

僅由1個圖像編碼器、1個圖像解碼器,外加1個語義解碼器組成。

5c6acb86-bb5f-11ed-bfe3-dac502259ad0.png

具體怎么work?

如下圖所示,第一部分為本研究用到的LDM示意圖。

其中ε代表圖像編碼器,D代表圖像解碼器,而τ是一個文本編碼器(CLIP)。

5d81b124-bb5f-11ed-bfe3-dac502259ad0.png

重點是解碼分析,如下圖所示,模型依次從大腦早期(藍色)和較高(黃色)視覺皮層內(nèi)的fMRI信號中,解碼出重建圖像(z)和相關(guān)文本c的潛在表征。

然后將這些潛在表征當作輸入,就可以得到模型最終復(fù)現(xiàn)出來的圖像Xzc。

5da3fd88-bb5f-11ed-bfe3-dac502259ad0.png

最后還沒有完,如編碼分析示意圖,作者還構(gòu)建了一個編碼模型,用來預(yù)測LDM不同組件(包括圖像z、文本c和zc)所對應(yīng)的fMRI信號,它可以用來理解Stable Diffusion的內(nèi)部過程。

5dff944a-bb5f-11ed-bfe3-dac502259ad0.png

可以看到,采用了zc的編碼模型在大腦后部視覺皮層產(chǎn)生的預(yù)測精確度是最高的。(zc是與c進行交叉注意的反向擴散后,z再添加噪聲的潛在表征)

5e8b3586-bb5f-11ed-bfe3-dac502259ad0.png

相比其它兩者,它生成的圖像既具有高語義保真度,分辨率也很高。

5f3857d4-bb5f-11ed-bfe3-dac502259ad0.png

還有用GAN重建人臉圖像的

看完這項研究,已經(jīng)有網(wǎng)友想到了細思極恐的東西:

這個AI雖然只是復(fù)制了“眼睛”所看到的東西。

但是否會有一天,AI能直接從人腦的思維、甚至是記憶中重建出圖像或文字?

5f824506-bb5f-11ed-bfe3-dac502259ad0.png

“語言的用處不再存在了”

5fe2c048-bb5f-11ed-bfe3-dac502259ad0.png

于是有網(wǎng)友進一步想到,如果能讀取記憶的話,那么目擊證人的證詞似乎也會變得更可靠了:

6010ead6-bb5f-11ed-bfe3-dac502259ad0.png

還別說,就在去年真有一項研究基于GAN,通過fMRI收集到的大腦信號重建看到的人臉圖像:

60299bb2-bb5f-11ed-bfe3-dac502259ad0.png

不過,重建出來的效果似乎不怎么樣……

604c0dfa-bb5f-11ed-bfe3-dac502259ad0.png

顯然,在人臉這種比較精細的圖像生成上,AI“讀腦術(shù)”還有很長一段路要走。

對于這種大腦信號重建的研究,也有網(wǎng)友提出了質(zhì)疑。

例如,是否只是AI從訓(xùn)練數(shù)據(jù)集中提取出了相似的數(shù)據(jù)?

6065a292-bb5f-11ed-bfe3-dac502259ad0.png

對此有網(wǎng)友回復(fù)表示,論文中的訓(xùn)練數(shù)據(jù)集和測試集是分開的:

61890740-bb5f-11ed-bfe3-dac502259ad0.png

作者們也在項目主頁中表示,代碼很快會開源??梢韵绕诖幌聗

6228f7b4-bb5f-11ed-bfe3-dac502259ad0.png

作者介紹

本研究僅兩位作者。

一位是2021年才剛剛成為大阪大學助理教授的Yu Takagi,他主要從事計算神經(jīng)科學和人工智能的交叉研究。

最近,他同時在牛津大學人腦活動中心和東京大學心理學系利用機器學習技術(shù),來研究復(fù)雜決策任務(wù)中的動態(tài)計算。

另一位是大阪大學教授Shinji Nishimoto,他也是日本腦信息通信融合研究中心的首席研究員。

研究方向為定量理解大腦中的視覺和認知處理,谷歌學術(shù)引用3000+次。

那么,你覺得這波AI重建圖像的效果如何?

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 成像技術(shù)
    +關(guān)注

    關(guān)注

    4

    文章

    305

    瀏覽量

    31840
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49011

    瀏覽量

    249347

原文標題:CVPR 2023 | 大腦視覺信號被Stable Diffusion復(fù)現(xiàn)成圖像!"AI讀腦術(shù)"來了!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    圖像信號分析處理卡設(shè)計原理圖:536-基于FMC接口的XCZU7EV 通用PCIe卡 視覺處理卡 工業(yè)控制卡

    XCZU7EV 通用PCIe卡 , 圖像信號分析處理卡 , 視覺處理卡 , 工業(yè)控制卡 , 存儲擴展卡
    的頭像 發(fā)表于 07-08 10:47 ?708次閱讀
    <b class='flag-5'>圖像</b><b class='flag-5'>信號</b>分析處理卡設(shè)計原理圖:536-基于FMC接口的XCZU7EV 通用PCIe卡 <b class='flag-5'>視覺</b>處理卡 工業(yè)控制卡

    是德N5173B信號發(fā)生器在EMC測試中的干擾信號精準復(fù)現(xiàn)技巧

    具備寬頻段覆蓋、高精度調(diào)制和靈活的信號生成能力,成為EMC實驗室中復(fù)現(xiàn)干擾信號的重要工具。掌握其使用技巧,可有效提升測試的精準性和效率。 ? 二、干擾信號精準
    的頭像 發(fā)表于 06-03 16:09 ?167次閱讀
    是德N5173B<b class='flag-5'>信號</b>發(fā)生器在EMC測試中的干擾<b class='flag-5'>信號</b>精準<b class='flag-5'>復(fù)現(xiàn)</b>技巧

    工業(yè)相機圖像采集卡:機器視覺的核心樞紐

    工業(yè)相機圖像采集卡是用于連接工業(yè)相機與計算機的關(guān)鍵硬件設(shè)備,主要負責將相機輸出的圖像信號轉(zhuǎn)換為計算機可處理的數(shù)字信號,并實現(xiàn)高速、穩(wěn)定的數(shù)據(jù)傳輸。它在工業(yè)自動化、機器
    的頭像 發(fā)表于 05-21 12:13 ?193次閱讀
    工業(yè)相機<b class='flag-5'>圖像</b>采集卡:機器<b class='flag-5'>視覺</b>的核心樞紐

    基于LockAI視覺識別模塊:C++圖像的基本運算

    圖像處理中,理解圖像的基本操作是掌握計算機視覺技術(shù)的關(guān)鍵。本文章將介紹基于LockAI視覺識別模塊下OpenCV中圖像的基本運算方法,包括
    的頭像 發(fā)表于 05-06 16:20 ?224次閱讀
    基于LockAI<b class='flag-5'>視覺</b>識別模塊:C++<b class='flag-5'>圖像</b>的基本運算

    ?Diffusion生成式動作引擎技術(shù)解析

    Diffusion生成式動作引擎 Diffusion生成式動作引擎是一種基于擴散模型(Diffusion Models)的生成式人工智能技術(shù),專注于生成連續(xù)、逼真的人類動作或動畫序列。這類引擎在游戲
    的頭像 發(fā)表于 03-17 15:14 ?1814次閱讀

    使用OpenVINO GenAI和LoRA適配器進行圖像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用戶可以將平平無奇的文本提示詞轉(zhuǎn)換為令人驚艷的視覺效果。
    的頭像 發(fā)表于 03-12 13:49 ?837次閱讀
    使用OpenVINO GenAI和LoRA適配器進行<b class='flag-5'>圖像</b>生成

    安裝OpenVINO?工具包穩(wěn)定擴散后報錯,怎么解決?

    :\\stable-openvino2\\stable-diffusion-webui-master\\venv\\lib\\site-packages\\diffusers\\models
    發(fā)表于 03-05 06:56

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發(fā)表于 12-11 20:13 ?557次閱讀
    如何開啟<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> WebUI模型推理部署

    圖像信號處理板設(shè)計原理圖:531-基于3U PXIe 的ZU7EV的通用主控板

    ZU7EV板卡 , 雷達信號處理 , 視覺處理卡 , 3U PXIe , 圖像信號分析
    的頭像 發(fā)表于 09-30 11:27 ?728次閱讀
    <b class='flag-5'>圖像</b><b class='flag-5'>信號</b>處理板設(shè)計原理圖:531-基于3U PXIe 的ZU7EV的通用主控板

    圖像采集卡不斷發(fā)展和改進,為視覺系統(tǒng)提供更大的價值

    圖像采集卡最初是為了從模擬機器視覺相機中獲取原始圖像而開發(fā)的,人們曾一度預(yù)計該技術(shù)將被直接連接到電腦的技術(shù)所取代。然而,經(jīng)驗卻并非如此。圖像采集卡不斷發(fā)展和改進,為
    的頭像 發(fā)表于 09-30 11:10 ?494次閱讀
    <b class='flag-5'>圖像</b>采集卡不斷發(fā)展和改進,為<b class='flag-5'>視覺</b>系統(tǒng)提供更大的價值

    圖像采集卡:增強視覺數(shù)據(jù)采集

    圖像采集卡介紹:在視覺數(shù)據(jù)采集領(lǐng)域,圖像采集卡在捕獲和處理來自各種來源的圖像或視頻方面發(fā)揮著關(guān)鍵作用。在本文中,我們將深入探討圖像采集卡的世
    的頭像 發(fā)表于 09-24 11:06 ?689次閱讀
    <b class='flag-5'>圖像</b>采集卡:增強<b class='flag-5'>視覺</b>數(shù)據(jù)采集

    示波器的波形存儲與復(fù)現(xiàn),再也不怕瞬時信號抓不住了

    示波器和虛擬USB示波器來進行。Chrent臺式示波器的波形存儲與復(fù)現(xiàn)使用信號源模擬一個信號。通過BNC線將這個信號連接到示波器上。在示
    的頭像 發(fā)表于 09-05 08:06 ?3408次閱讀
    示波器的波形存儲與<b class='flag-5'>復(fù)現(xiàn)</b>,再也不怕瞬時<b class='flag-5'>信號</b>抓不住了

    i.MX 8M Plus中的ISP圖像信號處理模塊特性概述

    應(yīng)用處理器,是一款專注于機器學習和視覺、高級多媒體以及具有高可靠性的工業(yè)自動化解決方案,旨在滿足智慧家庭、樓宇、城市和工業(yè)4.0等應(yīng)用的需求。 為了滿足日益增長的圖像視覺處理的需求,i.MX 8M Plus搭載了內(nèi)置
    的頭像 發(fā)表于 08-02 11:39 ?1829次閱讀

    計算機視覺中的圖像融合

    在許多計算機視覺應(yīng)用中(例如機器人運動和醫(yī)學成像),需要將多個圖像的相關(guān)信息整合到單一圖像中。這種圖像融合可以提供更高的可靠性、準確性和數(shù)據(jù)質(zhì)量。多視圖融合可以提高
    的頭像 發(fā)表于 08-01 08:28 ?1140次閱讀
    計算機<b class='flag-5'>視覺</b>中的<b class='flag-5'>圖像</b>融合

    實操: 如何在AirBox上跑Stable Diffusion 3

    StableDiffusion3Medium是一種多模態(tài)擴散變換器(MMDiT)文本到圖像模型,在圖像質(zhì)量、排版、復(fù)雜提示理解和資源效率方面具有顯著提升的性能。目前瑞莎團隊
    的頭像 發(fā)表于 07-23 08:34 ?587次閱讀
    實操: 如何在AirBox上跑<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> 3