免费在线观看国产日批,人人操人人在线免费,高清无码性生活网站

aAI 簡(jiǎn)報(bào) 20230522期

1. ChatGPT App 來了！

原文：https://mp.weixin.qq.com/s/aWBhq8Ff3XoOK4Yre8Qhxg

兩個(gè)月前，在 ChatGPT 相繼公開 API、帶來「插件功能」之際，我們明顯感知到了 GPT 正在以前所未有的速度成為人工智能時(shí)代的 Windows，AI 發(fā)展也正處于 iPhone 4 時(shí)刻。

當(dāng)下，ChatGPT 的進(jìn)度再下一城，其自身真正迎來了 iPhone 時(shí)刻。

今天凌晨，OpenAI 在美國(guó)發(fā)布了一款適用于 iOS 客戶端的免費(fèi) ChatGPT App，這意味著很多用戶隨時(shí)隨地都能訪問這款 AI 聊天機(jī)器人。

該 App 不僅基于 Whisper AI 語音識(shí)別模型提供語音輸入支持，還可以與網(wǎng)頁版 AI 助手 ChatGPT 同步聊天記錄。這也是 OpenAI 首次將 ChatGPT 引入官方移動(dòng)客戶端。

不過，有些遺憾的是，該 App 目前僅限于美國(guó)地區(qū)用戶使用。OpenAI 稱未來幾周內(nèi)會(huì)逐步擴(kuò)展到其他國(guó)家/地區(qū)，也會(huì)“很快”推出適用于 Android 設(shè)備的 ChatGPT 應(yīng)用程序。

從功能上來看，ChatGPT App 和網(wǎng)頁版應(yīng)用程序一樣，作為一款 AI 聊天機(jī)器人，可以直接對(duì)它提問，由此，不同行業(yè)的不同用戶能夠通過它得到自己想要代碼、郵件模版、文本建議等答案，

從使用流程上來看，用戶首先也要有 OpenAI 賬號(hào)登錄 ChatGPT App 后，才能正常使用。與此同時(shí)，由于 ChatGPT 的互動(dòng)回應(yīng)等 AI 處理操作是在 OpenAI 服務(wù)器上進(jìn)行，因此需要聯(lián)網(wǎng)才能用。

OpenAI 在官方公告中還指出，ChatGPT Plus 訂閱者可以擁有和網(wǎng)頁版類似的功能，如獨(dú)家訪問 GPT-4 的功能、“提前訪問”新功能以及有更快的響應(yīng)時(shí)間。

值得一提的是，ChatGPT Plus 服務(wù)最早是在今年 2 月推出，每月費(fèi)用是 20 美元，包括即使在高峰期也能訪問 ChatGPT。

在 iOS 端 ChatGPT App 上線的第一時(shí)間，在不少人持以好奇的時(shí)候，國(guó)外工具分析平臺(tái) Emerge Tools 率先對(duì)這款 App 進(jìn)行了拆解分析，在 Twitter 上為我們揭曉了 ChatGPT iOS 應(yīng)用程序是如何制作的。

Emerge Tools 表示，ChatGPT iOS App 的整體安裝大小為 41.9 MB，結(jié)構(gòu)相當(dāng)簡(jiǎn)單。以下是 X-Ray 樹狀圖，看不太清楚的小伙伴，也可以通過 Emerge Tools 官網(wǎng)（https://www.emergetools.com/app/example/ios/chatgpt）查看 ChatGPT App 的模塊組成。

Emerge Tools 稱：ChatGPT 沒有鏈接任何動(dòng)態(tài)框架，這樣有助于保持 App 的體積小。通過解析，我們可以看到一些靜態(tài)鏈接的模塊，譬如：

@mixpanel——用于分析

@datadoghq——用于記錄

@getsentry——用于性能監(jiān)控

@RevenueCat——用于付款

@auth0——用于身份驗(yàn)證

+ 其他

另外，Emerge Tools 還使用了其自己的開源分析工具 ETTrace（https://github.com/emergeTools/ettrace）分析了該 App 的啟動(dòng)過程。其認(rèn)為，「該 App 整體啟動(dòng)時(shí)間非?？欤瑢?shí)際上只初始化了幾個(gè)包含的框架，沒有明顯的瓶頸」。同時(shí)，Emerge Tools 稱，看起來該應(yīng)用程序只是轉(zhuǎn)發(fā)了與 OpenAI 的服務(wù)器之間的查詢/響應(yīng)。

2. 幾行代碼安裝，免費(fèi)做圖無上限：Stability AI公布DreamStudio開源版本

原文：https://mp.weixin.qq.com/s/WiuD9XcN4TCDhpBh7fXLjw

自從文本到圖像開源模型 Stable Diffusion 最初版本發(fā)布以來，DreamStudio 一直是 Stability AI 新模型和功能的主要界面。迄今，用戶已經(jīng)借助 DreamStudio 創(chuàng)建了數(shù)百萬張圖像。

最近，DreamStudio 還升級(jí)到了 SDXL，實(shí)現(xiàn)了比其前身 Stable Diffusion 2.1 更詳細(xì)的圖像和構(gòu)圖，并能用較短的 prompt 來創(chuàng)建描述性圖像。

就目前來說，DreamStudio 已經(jīng)可以生成這樣的圖像，效果不輸 Midjourney 5.1：

盡管 DreamStudio 提供了幾乎沒有門檻的圖像生成方法，但它也有一個(gè)條件：付費(fèi)。SDXL 版本的定價(jià)甚至還要更高一些。

而且，對(duì)一部分技術(shù)過關(guān)的開發(fā)者來說，他們也希望能夠在 DreamStudio 的基礎(chǔ)上進(jìn)行一些應(yīng)用擴(kuò)展?；蛟S是聽到了網(wǎng)友們的心聲？剛剛，Stability AI 發(fā)布了 DreamStudio 的開源版本 ——StableStudio。

開源地址：https://github.com/Stability-AI/StableStudio

「我們相信，擴(kuò)大技術(shù)落地的最佳方式是通過開放、社區(qū)驅(qū)動(dòng)的開發(fā)，而不是閉源產(chǎn)品的私有化迭代?！筍tability AI 表示。

在該公司的規(guī)劃中，StableStudio 的目標(biāo)是進(jìn)行更廣泛的社區(qū)合作，為生成式 AI 打造一個(gè)世界級(jí)的用戶界面，讓用戶能夠充分控制。盡管 DreamStudio 仍將是 Stability 公司托管的 StableStudio 的實(shí)現(xiàn)，但最終目標(biāo)是培養(yǎng)一個(gè)能夠超越任何由單一公司開發(fā)的項(xiàng)目。

具體來說，StableStudio 和 DreamStudio 有什么區(qū)別？

Stability AI 做了一些調(diào)整，使得該項(xiàng)目對(duì)社區(qū)更加友好。包括：

刪除了 DreamStudio 專屬品牌；
所有在線 API 調(diào)用都已被插件系統(tǒng)取代，用戶可以輕松更換后端；
刪除了專屬于 Stability 的帳戶功能，例如計(jì)費(fèi)、API 密鑰管理等。

擴(kuò)展功能

DreamStudio 最初被設(shè)想為 Disco Diffusion 的動(dòng)畫 studio，2022 年 Stable Diffusion 發(fā)布之后，DreamStudio 的重點(diǎn)就轉(zhuǎn)向了圖像生成。

受今年爆火的對(duì)話模型啟發(fā)，4 月 Stability AI 發(fā)布了開源 LLM StableVicuna。DreamStudio 的開源版本 StableStudio 將和 StableVicuna 結(jié)合，推出聊天界面。

Stability AI 表示，StableStudio 未來可能會(huì)更新以下功能：

通過 WebGPU 進(jìn)行局部推理
通過 stable-diffusion-webui 進(jìn)行局部推理
桌面安裝
ControlNet 工具

3. 3.6萬億token、3400億參數(shù)，谷歌大模型PaLM 2細(xì)節(jié)遭曝光

原文：https://mp.weixin.qq.com/s/KisM8tU8sHZLhUjxcCG-NA

上周四，在 2023 谷歌 I/O 大會(huì)上，谷歌 CEO 皮查伊宣布推出對(duì)標(biāo) GPT-4 的大模型 PaLM 2，并正式發(fā)布預(yù)覽版本，改進(jìn)了數(shù)學(xué)、代碼、推理、多語言翻譯和自然語言生成能力。

PaLM 2 模型提供了不同尺寸規(guī)模的四個(gè)版本，從小到大依次為 Gecko、Otter、Bison 和 Unicorn，更易于針對(duì)各種用例進(jìn)行部署。其中輕量級(jí)的 Gecko 模型可以在移動(dòng)設(shè)備上運(yùn)行，速度非?？欤宦?lián)網(wǎng)也能在設(shè)備上運(yùn)行出色的交互式應(yīng)用程序。不過會(huì)上，谷歌并沒有給出有關(guān) PaLM 2 的具體技術(shù)細(xì)節(jié)，只說明了它是構(gòu)建在谷歌最新 JAX 和 TPU v4 之上。

昨日，據(jù)外媒 CNBC 看到的內(nèi)部文件稱，PaLM 2 是在 3.6 萬億個(gè) token 上訓(xùn)練。作為對(duì)比，上代 PaLM 接受了 7800 億 token 的訓(xùn)練。

此外，谷歌之前表示 PaLM 2 比以前的 LLM 規(guī)模更小，這意味著在完成更復(fù)雜任務(wù)的同時(shí)變得更加高效。這一點(diǎn)也在內(nèi)部文件中得到了驗(yàn)證，PaLM 2 的訓(xùn)練參數(shù)量為 3400 億，遠(yuǎn)小于 PaLM 的 5400 億。

PaLM 2 的訓(xùn)練 token 和參數(shù)量與其他家的 LLM 相比如何呢？作為對(duì)比，Meta 在 2 月發(fā)布的 LLaMA 接受了 1.4 萬億 token 的訓(xùn)練。OpenAI 1750 億參數(shù)的 GPT-3 是在 3000 億 token 上訓(xùn)練的。

雖然谷歌一直渴望展示其 AI 技術(shù)的強(qiáng)大能力以及如何嵌入到搜索、電子郵件、文件處理和電子表格中，但也不愿公布其訓(xùn)練數(shù)據(jù)的大小或其他細(xì)節(jié)。其實(shí)這樣做的不只谷歌一家，OpenAI 也緘口不言其最新多模態(tài)大模型 GPT-4 的細(xì)節(jié)。他們都表示不披露細(xì)節(jié)是源于業(yè)務(wù)的競(jìng)爭(zhēng)屬性。

不過，隨著 AI 軍備競(jìng)賽的持續(xù)升溫，研究界越來越要求提高透明度。并且在前段時(shí)間泄露的一份谷歌內(nèi)部文件中，谷歌內(nèi)部研究人員表達(dá)了這樣一種觀點(diǎn)：雖然表面看起來 OpenAI 和谷歌在 AI 大模型上你追我趕，但真正的贏家未必會(huì)從這兩家中產(chǎn)生，因?yàn)榈谌搅α俊搁_源」正在悄然崛起。

目前，這份內(nèi)部文件的真實(shí)性尚未得到驗(yàn)證，谷歌也并未對(duì)相關(guān)內(nèi)容置評(píng)。

4. 前哈工大教授開發(fā)的ChatALL火了！可同時(shí)提問17個(gè)聊天模型，ChatGPT/Bing/Bard/文心/訊飛都OK

原文：https://www.thepaper.cn/newsDetail_forward_23143443?commTag=true

今天的你，是否還在幾個(gè)聊天大模型之間“反復(fù)橫跳”？

畢竟各家訓(xùn)練數(shù)據(jù)和方法不盡相同，擅長(zhǎng)和不擅長(zhǎng)的東西也都不一樣。

現(xiàn)在，不用這么麻煩了。

有人開發(fā)了一個(gè)名叫“ChatALL”的應(yīng)用，可以將你的提問同時(shí)發(fā)送給10多個(gè)市面上常見的聊天機(jī)器人，比如ChatGPT、GPT4、Bing、Bard、Claude、文心一言、訊飛星火等等，并一一展現(xiàn)出來。

由此一來，你就可以輕松比對(duì)出答得最好的那一個(gè)，然后采用。

簡(jiǎn)直太方便了有沒有？

這不，項(xiàng)目非常受歡迎，已登上GitHub今日熱榜第一名，攬獲1.6k+標(biāo)星。

它是一個(gè)應(yīng)用程序，支持中英德三種語言。

只需下載安裝包即可使用，Mac、Windows和Linux都支持。

其功能包括：

快問模式：不需要等待前面的請(qǐng)求完成，就可以發(fā)下一條指令
對(duì)話歷史保存在本地，保護(hù)你的隱私
高亮喜歡的答案，刪除不需要的答案
自動(dòng)保持ChatGPT不掉線
隨時(shí)啟用/禁用任何機(jī)器人
在一列、兩列或三列視圖之間切換
……

未來還能夠推薦最佳答案。

目前支持的AI聊天機(jī)器人列表如下：

其中，特別包括一個(gè)本地Gradio，它可以對(duì)接你自己部署的模型。

而在應(yīng)用程序界面中，一共顯示了17個(gè)圖標(biāo)，證明目前最多已可支持17種聊天機(jī)器人。

需要注意的是，這只是一個(gè)集中了所有聊天AI的程序，不是代理，所以每個(gè)都需要你登錄自己的賬號(hào)，當(dāng)然，API token也可以。

登錄之后，想一次詢問哪些機(jī)器人就點(diǎn)亮對(duì)應(yīng)的圖標(biāo)，就可以開始玩耍了。大家快去試試吧。

5. AI孫燕姿成今年爆火歌手，這一時(shí)代眼見不實(shí)，耳聽為虛

原文：https://mp.weixin.qq.com/s/1XP5VAJe7Extk6TEkU9rzQ

就在近期，華語樂壇的不少歌迷喜氣洋洋，認(rèn)為目前的歌壇回到了20年前，歌迷們又享受到了許多動(dòng)聽的歌聲。不過與以往不同的是，這些演唱者并非真人，而是一個(gè)個(gè)訓(xùn)練出來的AI。

這些AI足以以假亂真，通過技術(shù)將一首音樂以更換演唱者的方式來進(jìn)行不同的演繹，不僅為歌壇帶來了不一樣的視聽體驗(yàn)，同時(shí)也引發(fā)了行業(yè)對(duì)AI技術(shù)應(yīng)用的思考。在AI時(shí)代，我們的所見所聞，或許都是由AI創(chuàng)造的。

光怪陸離的AI時(shí)代

如今的網(wǎng)絡(luò)上有一個(gè)梗，要問今年哪個(gè)歌手最火，答案可能會(huì)出乎許多人意料，并不是某位歌手，而是一些由AI所制作出來的語音，如AI孫燕姿、AI周杰倫等。通過將原來歌手的聲音進(jìn)行采集訓(xùn)練，從而替換另一首歌的原唱。

通過這種方式，實(shí)現(xiàn)了讓自己喜歡的歌手唱另一首自己喜歡但非歌手的歌，比如用孫燕姿的聲音演唱周杰倫的《晴天》。關(guān)鍵在于，不論是演唱語調(diào)、技巧乃至音色，幾乎都與孫燕姿相差無幾。

實(shí)現(xiàn)這一技術(shù)目前已經(jīng)有一套標(biāo)準(zhǔn)流程，先通過收集大量的音樂和歌詞，并對(duì)這些數(shù)據(jù)進(jìn)行清洗和標(biāo)注，以便訓(xùn)練算法和模型。再選擇合適的算法和模型，并進(jìn)行優(yōu)化和調(diào)整，以提高虛擬人物的歌唱和表演能力。

通過語音合成技術(shù)將文字轉(zhuǎn)換為聲音，并對(duì)聲音進(jìn)行處理和優(yōu)化，以達(dá)到更加自然和流暢的效果。最后將原來歌曲的聲音替換成語音合成的聲音，再進(jìn)行調(diào)試，就能得到一首全新演唱的歌曲。

既然都已經(jīng)可以替換聲音演唱歌曲了，那么更進(jìn)一步替換視頻畫面進(jìn)行演繹也就不太難了。近期谷歌的I/O大會(huì)上，便公布了一項(xiàng)Universal Translator技術(shù)，該工具旨在將視頻從一種語言翻譯成另一種語言，同時(shí)保留整體基調(diào)和氛圍。

這意味著該技術(shù)不僅可以將音頻從一種語言翻譯成另一種語言，還可以模仿說話者的聲音、語氣和面部表情，人物說話視頻會(huì)根據(jù)目標(biāo)語言的發(fā)音同步改變口型。

當(dāng)然，為了避免這項(xiàng)技術(shù)被用來制作虛假視頻，谷歌將這項(xiàng)技術(shù)只授權(quán)給少部分的合作廠商使用，普通人是無法接觸到的。但市場(chǎng)上如今已經(jīng)有許多類似的AI出現(xiàn)，谷歌的此舉不過是略作限制，但無法阻止這股趨勢(shì)。

更有甚者，如一位美國(guó)網(wǎng)紅發(fā)布了AI版本的自己“Caryn AI”，這個(gè)應(yīng)用是一款聊天機(jī)器人，可以作為用戶的虛擬伴侶，目前正在內(nèi)部測(cè)試階段，每分鐘收費(fèi)一美元。

據(jù)美國(guó)雜志《財(cái)富》披露，就在過去一周的時(shí)間內(nèi)，這款軟件已經(jīng)為其創(chuàng)造了7.16萬美元（約合人民幣50萬元）的收入，已經(jīng)吸引了超過1000名付費(fèi)粉絲。

這種模式或許也將沖擊未來的娛樂行業(yè)，想象每一位追星的粉絲，只要付費(fèi)，都將擁有與自己偶像一對(duì)一聊天的機(jī)會(huì)，其所創(chuàng)造的價(jià)值潛力將是巨大的。

但這種由AI所創(chuàng)造出來的音樂、視頻、伴侶或者偶像，真的可以提供人們所需要的情緒價(jià)值嗎？這是個(gè)值得思考的問題。

AI之后的隱憂

盡管這些AI應(yīng)用的落地前景非常誘人，比如采用AI替換歌曲中的聲音，就能夠?qū)崿F(xiàn)歌手只需要提供聲音的模板，便可以進(jìn)行批量的音樂制作。甚至不用自己演唱，也能夠推行相關(guān)專輯。

技術(shù)上主要通過機(jī)器學(xué)習(xí)技術(shù)，訓(xùn)練機(jī)器模仿一個(gè)特定的歌手的音樂風(fēng)格、聲音和唱腔，然后將這些技能應(yīng)用于其他歌曲的錄制中。這種技術(shù)在一定程度上提高了錄制歌曲的效率和質(zhì)量，并且可以節(jié)省制作成本。

但如果使用他人的聲音進(jìn)行創(chuàng)作，就可能有侵權(quán)的風(fēng)險(xiǎn)。尤其在數(shù)據(jù)采集階段，以語音替換為例，首先需要收集大量的語音數(shù)據(jù)，并對(duì)這些數(shù)據(jù)進(jìn)行標(biāo)注和處理。標(biāo)注可以包括音素、語調(diào)、語速等信息，以便訓(xùn)練模型能夠準(zhǔn)確地識(shí)別和替換語音。

這一過程便可能涉及到對(duì)用戶隱私數(shù)據(jù)的采用，甚至對(duì)用戶的隱私和數(shù)據(jù)安全造成威脅，還有可能進(jìn)一步造成財(cái)產(chǎn)安全。因?yàn)檎Z音合成就可能被犯罪分子用于詐騙，通過合成親屬或者熟人的聲音來謀取資金。

如果用AI更改視頻畫面甚至進(jìn)一步篡改其中的對(duì)話，則可能造成更多的風(fēng)險(xiǎn)。比如將會(huì)遇到即便是用視頻聊天，也無法確定對(duì)面的是不是真的想要聯(lián)系的那個(gè)人。這項(xiàng)技術(shù)目前甚至已經(jīng)應(yīng)用在許多的直播平臺(tái)中，比如一些虛擬主播、虛擬偶像等，如果一旦濫用，可能會(huì)造成更多的危害。

為了避免這一情況的發(fā)生，除了加強(qiáng)對(duì)AI技術(shù)的監(jiān)管，建立相應(yīng)的法律制度和規(guī)范，還可以通過一些技術(shù)手段來避免自身的數(shù)據(jù)被采集，從而造成侵權(quán)以及侵犯隱私的風(fēng)險(xiǎn)。比如采用區(qū)塊鏈技術(shù)來保護(hù)數(shù)據(jù)的安全性和隱私性，采用人工智能算法來檢測(cè)和識(shí)別惡意行為等手段。

以區(qū)塊鏈技術(shù)為例，其去中心化和不可變性特點(diǎn)能夠確保數(shù)據(jù)的安全和完整性，因此可以用于AI技術(shù)的安全驗(yàn)證和認(rèn)證?；趨^(qū)塊鏈技術(shù)，數(shù)據(jù)交互和交流的過程被保護(hù)，因此可以授權(quán)AI對(duì)數(shù)據(jù)的操作并確保AI數(shù)據(jù)訪問權(quán)限受到限制。

同時(shí)，區(qū)塊鏈技術(shù)還可以幫助人們更好地控制AI技術(shù)的使用，并提高AI的公正和透明性。例如，以基于區(qū)塊鏈技術(shù)的智能合約的方式來控制AI的使用，可以加強(qiáng)對(duì)AI系統(tǒng)的監(jiān)督，并確保其行為符合人類的期望和價(jià)值。

當(dāng)然，區(qū)塊鏈技術(shù)還面臨著可擴(kuò)展性、隱私保護(hù)等問題，同時(shí)在操作成本和技術(shù)難度方面也存在一定的限制，還無法完全避免AI濫用的問題。

我們還可以運(yùn)用數(shù)字簽名技術(shù)檢測(cè)音頻和視頻是否被AI修改，數(shù)字簽名是指在文件中包含數(shù)字代碼的技術(shù)，在將文件傳輸或轉(zhuǎn)發(fā)給其他人時(shí)，可以驗(yàn)證文件的完整性和真實(shí)性。或者使用機(jī)器學(xué)習(xí)算法來檢測(cè)這些變化，例如，可以使用深度神經(jīng)網(wǎng)絡(luò)來對(duì)音頻或視頻進(jìn)行分析，以檢測(cè)其中的模式和結(jié)構(gòu)是否與人類創(chuàng)作者的作品相似。如果發(fā)現(xiàn)有明顯的差異，則可能表明該作品是由AI生成的。

但隨著未來AI技術(shù)的發(fā)展，這些差異化和容易被檢測(cè)出來的問題都有可能被AI克服，使得我們最終很難分辨哪些產(chǎn)品是由AI制作，哪些才是由人所原創(chuàng)的。

寫在最后

隨著生成式AI技術(shù)的大爆發(fā)，如ChatGPT、文心一言、訊飛星火等聊天機(jī)器人的出現(xiàn)，讓人們工作效率得以極大地提高，Stable Diffusion、Midjourney等AI的出現(xiàn)，讓圖片制作成本大幅降低，Universal Translator、Video Dubbing AI等，讓視頻也開始變得容易制作。

這些AI技術(shù)的出現(xiàn)顯然極大的解放了人們的生產(chǎn)力，讓人類發(fā)展走上快車道。當(dāng)然有人會(huì)說以上這些AI都是通過收集大量數(shù)據(jù)之后，輸出縫合之后的產(chǎn)品，根本不能稱得上是原創(chuàng)。

但就像我們的學(xué)習(xí)過程一樣，最開始都是模仿，后來才開始擁有自己的獨(dú)立風(fēng)格，但這些風(fēng)格或多或少都會(huì)有之前學(xué)習(xí)過的影子，而這就是創(chuàng)造的過程，AI也是如此。

更值得關(guān)注的是，隨著AI技術(shù)的快速發(fā)展，其所帶來的風(fēng)險(xiǎn)也在與日俱增。如何更好的處理AI所引發(fā)的風(fēng)險(xiǎn)，將是我們未來所面對(duì)的主要問題。

6. 星一文看盡深度學(xué)習(xí)各種注意力機(jī)制，學(xué)習(xí)推薦！

https://mp.weixin.qq.com/s/PkzzElN1uk2Yzu1DsYnOdQ

注意力機(jī)制在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用主要使用于捕捉圖像上的respective field，而在自然語言處理領(lǐng)域中的應(yīng)用主要使用于定位關(guān)鍵的token。下面簡(jiǎn)單介紹下注意力機(jī)制在早期的幾個(gè)經(jīng)典應(yīng)用。

《A Model of Saliency-Based Visual Attention for Rapid Scene Analysis》[2]

這是早期將注意力機(jī)制應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域的一篇代表作，文章于1998年發(fā)表于TAPMI。作者受早期靈長(zhǎng)目視覺系統(tǒng)的神經(jīng)元結(jié)構(gòu)啟發(fā)，提出了一種視覺注意力系統(tǒng)，可以將多尺度的圖像特征組合成單一的顯著性圖。最后，利用一個(gè)動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)，并按照顯著性的順序來高效的選擇重點(diǎn)區(qū)域。

《Recurrent Models of Visual Attention》[3]

使注意力機(jī)制真正火起來的當(dāng)屬于谷歌DeepMind于2014年所提出的這篇文章，該論文首次在RNN模型上應(yīng)用了注意力機(jī)制的方法進(jìn)行圖像分類。

《Neural Machine Translation by Jointly Learning to Align and Translate》[4]

這是由深度學(xué)習(xí)三巨頭之一Yoshua Bengio等人于2015年發(fā)表于ICLR上的一篇論文，該論文的最大貢獻(xiàn)是將注意力機(jī)制首次應(yīng)用到NLP領(lǐng)域，實(shí)現(xiàn)了同步的對(duì)齊和翻譯，解決以往神經(jīng)機(jī)器翻譯(NMT)領(lǐng)域使用Encoder-Decoder架構(gòu)的一個(gè)潛在問題，即將信息都?jí)嚎s在固定長(zhǎng)度的向量，無法對(duì)應(yīng)長(zhǎng)句子。

《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》[5]

這篇文章由Yoshua Bengio等人于2015年在ICML上所發(fā)表的，該論文將注意力機(jī)制引入到圖像領(lǐng)域，作者提出了兩種基于注意力機(jī)制的圖像描述生成模型: 使用基本反向傳播訓(xùn)練的Soft Attetnion方法和使用強(qiáng)化學(xué)習(xí)訓(xùn)練的Hard Attention方法。

《Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition》[6]

這是發(fā)表于CVPR 2017年的一篇文章，作者提出了一種基于CNN的注意力機(jī)制，叫做循環(huán)注意力卷積神經(jīng)網(wǎng)絡(luò)（Recurrent Attention Convolutional Neural Network, RA-CANN），該網(wǎng)絡(luò)可以遞歸地分析局部信息，并從所獲取的局部區(qū)域中提取細(xì)粒度信息。此外，作者還引入了一個(gè)注意力生成子網(wǎng)絡(luò)（Attenion Proposal Sub-Network, APN），迭代的對(duì)整圖操作以生成對(duì)應(yīng)的子區(qū)域，最后再將各個(gè)子區(qū)域的預(yù)測(cè)記過整合起來，從而后的整張圖片最終的分類預(yù)測(cè)結(jié)果。

《Attention is All Your Need》[7]

這是由谷歌機(jī)器翻譯團(tuán)隊(duì)于2017年發(fā)表于NIPS上的一篇文章，該論文最大的貢獻(xiàn)便是拋棄了以往機(jī)器翻譯基本都會(huì)應(yīng)用的RNN或CNN等傳統(tǒng)架構(gòu)，以編碼器-解碼器為基礎(chǔ)，創(chuàng)新性的提出了一種Transformer架構(gòu)。該架構(gòu)可以有效的解決RNN無法并行處理以及CNN無法高效的捕捉長(zhǎng)距離依賴的問題，近期更是被進(jìn)一步地應(yīng)用到了計(jì)算機(jī)視覺領(lǐng)域，同時(shí)在多個(gè)CV任務(wù)上取得了SOTA性能，挑戰(zhàn)CNN在CV領(lǐng)域多年的霸主地位。

本文將重點(diǎn)圍繞通道、空間、自注意力、類別等多個(gè)維度[8]介紹計(jì)算機(jī)視覺領(lǐng)域中較為出名的注意力機(jī)制方法,力爭(zhēng)用最簡(jiǎn)短的語言解釋得更加通俗易懂。

通道&空間注意力

通道注意力旨在顯示的建模出不同通道之間的相關(guān)性，通過網(wǎng)絡(luò)學(xué)習(xí)的方式來自動(dòng)獲取到每個(gè)特征通道的重要程度，最后再為每個(gè)通道賦予不同的權(quán)重系數(shù)，從而來強(qiáng)化重要的特征抑制非重要的特征。
空間注意力旨在提升關(guān)鍵區(qū)域的特征表達(dá)，本質(zhì)上是將原始圖片中的空間信息通過空間轉(zhuǎn)換模塊，變換到另一個(gè)空間中并保留關(guān)鍵信息，為每個(gè)位置生成權(quán)重掩膜（mask）并加權(quán)輸出，從而增強(qiáng)感興趣的特定目標(biāo)區(qū)域同時(shí)弱化不相關(guān)的背景區(qū)域。

SE-Net[9]

《Squeeze-and-Excitation Networks》發(fā)表于CVPR 2018，是CV領(lǐng)域?qū)⒆⒁饬C(jī)制應(yīng)用到通道維度的代表作，后續(xù)大量基于通道域的工作均是基于此進(jìn)行潤(rùn)(魔)色(改)。SE-Net是ImageNet 2017大規(guī)模圖像分類任務(wù)的冠軍，結(jié)構(gòu)簡(jiǎn)單且效果顯著，可以通過特征重標(biāo)定的方式來自適應(yīng)地調(diào)整通道之間的特征響應(yīng)。

Squeeze利用全局平均池化(Global Average Pooling, GAP) 操作來提取全局感受野，將所有特征通道都抽象為一個(gè)點(diǎn)；
Excitation利用兩層的多層感知機(jī)(Multi-Layer Perceptron, MLP) 網(wǎng)絡(luò)來進(jìn)行非線性的特征變換，顯示地構(gòu)建特征圖之間的相關(guān)性；
Transform利用Sigmoid激活函數(shù)實(shí)現(xiàn)特征重標(biāo)定，強(qiáng)化重要特征圖，弱化非重要特征圖。

 1classSELayer(nn.Module):
 2def__init__(self,channel,reduction=16):
 3super(SELayer,self).__init__()
 4self.avg_pool=nn.AdaptiveAvgPool2d(1)
 5self.fc=nn.Sequential(
 6nn.Linear(channel,channel//reduction,bias=False),
 7nn.ReLU(inplace=True),
 8nn.Linear(channel//reduction,channel,bias=False),
 9nn.Sigmoid()
10)
11
12defforward(self,x):
13b,c,_,_=x.size()
14y=self.avg_pool(x).view(b,c)
15y=self.fc(y).view(b,c,1,1)
16returnx*y.expand_as(x)

此外，本文還總結(jié)了一下網(wǎng)絡(luò)，感興趣的同學(xué)可以查看原文。

GE-Net[10]

RA-Net[12]

SK-Net[13]

SPA-Net[14]

ECA-Net[15]

CBAM[16]

BAM[17]

scSE[18]

A2-Nets[19]

Non-Local[20]

DA-Net[22]

ANLNet[24]

CC-Net[26]

GC-Net[28]

…

———————End———————

RT-Thread線下入門培訓(xùn)

6月 - 鄭州、杭州、深圳

1.免費(fèi)2.動(dòng)手實(shí)驗(yàn)+理論3.主辦方免費(fèi)提供開發(fā)板4.自行攜帶電腦，及插線板用于筆記本電腦充電5.參與者需要有C語言、單片機(jī)（ARM Cortex-M核）基礎(chǔ)，請(qǐng)?zhí)崆鞍惭b好RT-Thread Studio 開發(fā)環(huán)境

立即掃碼報(bào)名

報(bào)名鏈接

https://jinshuju.net/f/UYxS2k

巡回城市：青島、北京、西安、成都、武漢、鄭州、杭州、深圳、上海、南京

你可以添加微信：rtthread2020 為好友，注明：公司+姓名，拉進(jìn)RT-Thread官方微信交流群！

點(diǎn)擊閱讀原文，進(jìn)入RT-Thread 官網(wǎng)

原文標(biāo)題：【AI簡(jiǎn)報(bào)20230522期】ChatGPT App 來了！谷歌大模型PaLM 2細(xì)節(jié)遭曝光

文章出處：【微信公眾號(hào)：RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

RT-Thread

RT-Thread

+關(guān)注

關(guān)注
32

文章
1402

瀏覽量
41858

原文標(biāo)題：【AI簡(jiǎn)報(bào)20230522期】ChatGPT App 來了！谷歌大模型PaLM 2細(xì)節(jié)遭曝光

文章出處：【微信號(hào)：RTThread，微信公眾號(hào)：RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

【AI簡(jiǎn)報(bào)20230522期】ChatGPT App 來了！谷歌大模型PaLM 2細(xì)節(jié)遭曝光

1. ChatGPT App 來了！

2. 幾行代碼安裝，免費(fèi)做圖無上限：Stability AI公布DreamStudio開源版本

3. 3.6萬億token、3400億參數(shù)，谷歌大模型PaLM 2細(xì)節(jié)遭曝光

4. 前哈工大教授開發(fā)的ChatALL火了！可同時(shí)提問17個(gè)聊天模型，ChatGPT/Bing/Bard/文心/訊飛都OK

5. AI孫燕姿成今年爆火歌手，這一時(shí)代眼見不實(shí)，耳聽為虛

6. 星一文看盡深度學(xué)習(xí)各種注意力機(jī)制，學(xué)習(xí)推薦！

評(píng)論

搜索歷史

【AI簡(jiǎn)報(bào)20230522期】ChatGPT App 來了！谷歌大模型PaLM 2細(xì)節(jié)遭曝光

1. ChatGPT App 來了！

2. 幾行代碼安裝，免費(fèi)做圖無上限：Stability AI公布DreamStudio開源版本

3. 3.6萬億token、3400億參數(shù)，谷歌大模型PaLM 2細(xì)節(jié)遭曝光

4. 前哈工大教授開發(fā)的ChatALL火了！可同時(shí)提問17個(gè)聊天模型，ChatGPT/Bing/Bard/文心/訊飛都OK

5. AI孫燕姿成今年爆火歌手，這一時(shí)代眼見不實(shí)，耳聽為虛

6. 星一文看盡深度學(xué)習(xí)各種注意力機(jī)制，學(xué)習(xí)推薦！

評(píng)論

【AI簡(jiǎn)報(bào)20230522期】ChatGPT App 來了！谷歌大模型PaLM 2細(xì)節(jié)遭曝光

2. 幾行代碼安裝，免費(fèi)做圖無上限：Stability AI公布DreamStudio開源版本

3. 3.6萬億token、3400億參數(shù)，谷歌大模型PaLM 2細(xì)節(jié)遭曝光

4. 前哈工大教授開發(fā)的ChatALL火了！可同時(shí)提問17個(gè)聊天模型，ChatGPT/Bing/Bard/文心/訊飛都OK

5. AI孫燕姿成今年爆火歌手，這一時(shí)代眼見不實(shí)，耳聽為虛

6. 星一文看盡深度學(xué)習(xí)各種注意力機(jī)制，學(xué)習(xí)推薦！