一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

【AI簡(jiǎn)報(bào)20230522期】ChatGPT App 來了!谷歌大模型PaLM 2細(xì)節(jié)遭曝光

RTThread物聯(lián)網(wǎng)操作系統(tǒng) ? 來源:未知 ? 2023-05-22 22:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

aAI 簡(jiǎn)報(bào) 20230522期

1. ChatGPT App 來了!

原文:https://mp.weixin.qq.com/s/aWBhq8Ff3XoOK4Yre8Qhxg

兩個(gè)月前,在 ChatGPT 相繼公開 API、帶來「插件功能」之際,我們明顯感知到了 GPT 正在以前所未有的速度成為人工智能時(shí)代的 Windows,AI 發(fā)展也正處于 iPhone 4 時(shí)刻。

當(dāng)下,ChatGPT 的進(jìn)度再下一城,其自身真正迎來了 iPhone 時(shí)刻。

今天凌晨,OpenAI 在美國(guó)發(fā)布了一款適用于 iOS 客戶端的免費(fèi) ChatGPT App,這意味著很多用戶隨時(shí)隨地都能訪問這款 AI 聊天機(jī)器人。

該 App 不僅基于 Whisper AI 語音識(shí)別模型提供語音輸入支持,還可以與網(wǎng)頁版 AI 助手 ChatGPT 同步聊天記錄。這也是 OpenAI 首次將 ChatGPT 引入官方移動(dòng)客戶端。

不過,有些遺憾的是,該 App 目前僅限于美國(guó)地區(qū)用戶使用。OpenAI 稱未來幾周內(nèi)會(huì)逐步擴(kuò)展到其他國(guó)家/地區(qū),也會(huì)“很快”推出適用于 Android 設(shè)備的 ChatGPT 應(yīng)用程序。

從功能上來看,ChatGPT App 和網(wǎng)頁版應(yīng)用程序一樣,作為一款 AI 聊天機(jī)器人,可以直接對(duì)它提問,由此,不同行業(yè)的不同用戶能夠通過它得到自己想要代碼、郵件模版、文本建議等答案,

從使用流程上來看,用戶首先也要有 OpenAI 賬號(hào)登錄 ChatGPT App 后,才能正常使用。與此同時(shí),由于 ChatGPT 的互動(dòng)回應(yīng)等 AI 處理操作是在 OpenAI 服務(wù)器上進(jìn)行,因此需要聯(lián)網(wǎng)才能用。

108790d0-f8ab-11ed-90ce-dac502259ad0.png

OpenAI 在官方公告中還指出,ChatGPT Plus 訂閱者可以擁有和網(wǎng)頁版類似的功能,如獨(dú)家訪問 GPT-4 的功能、“提前訪問”新功能以及有更快的響應(yīng)時(shí)間。

值得一提的是,ChatGPT Plus 服務(wù)最早是在今年 2 月推出,每月費(fèi)用是 20 美元,包括即使在高峰期也能訪問 ChatGPT。

在 iOS 端 ChatGPT App 上線的第一時(shí)間,在不少人持以好奇的時(shí)候,國(guó)外工具分析平臺(tái) Emerge Tools 率先對(duì)這款 App 進(jìn)行了拆解分析,在 Twitter 上為我們揭曉了 ChatGPT iOS 應(yīng)用程序是如何制作的。

Emerge Tools 表示,ChatGPT iOS App 的整體安裝大小為 41.9 MB,結(jié)構(gòu)相當(dāng)簡(jiǎn)單。以下是 X-Ray 樹狀圖,看不太清楚的小伙伴,也可以通過 Emerge Tools 官網(wǎng)(https://www.emergetools.com/app/example/ios/chatgpt)查看 ChatGPT App 的模塊組成。10dd7900-f8ab-11ed-90ce-dac502259ad0.png

Emerge Tools 稱:ChatGPT 沒有鏈接任何動(dòng)態(tài)框架,這樣有助于保持 App 的體積小。通過解析,我們可以看到一些靜態(tài)鏈接的模塊,譬如:

@mixpanel——用于分析

@datadoghq——用于記錄

@getsentry——用于性能監(jiān)控

@RevenueCat——用于付款

@auth0——用于身份驗(yàn)證

+ 其他

另外,Emerge Tools 還使用了其自己的開源分析工具 ETTrace(https://github.com/emergeTools/ettrace)分析了該 App 的啟動(dòng)過程。其認(rèn)為,「該 App 整體啟動(dòng)時(shí)間非??欤瑢?shí)際上只初始化了幾個(gè)包含的框架,沒有明顯的瓶頸」。同時(shí),Emerge Tools 稱,看起來該應(yīng)用程序只是轉(zhuǎn)發(fā)了與 OpenAI 的服務(wù)器之間的查詢/響應(yīng)。

2. 幾行代碼安裝,免費(fèi)做圖無上限:Stability AI公布DreamStudio開源版本

原文:https://mp.weixin.qq.com/s/WiuD9XcN4TCDhpBh7fXLjw

自從文本到圖像開源模型 Stable Diffusion 最初版本發(fā)布以來,DreamStudio 一直是 Stability AI 新模型和功能的主要界面。迄今,用戶已經(jīng)借助 DreamStudio 創(chuàng)建了數(shù)百萬張圖像。

最近,DreamStudio 還升級(jí)到了 SDXL,實(shí)現(xiàn)了比其前身 Stable Diffusion 2.1 更詳細(xì)的圖像和構(gòu)圖,并能用較短的 prompt 來創(chuàng)建描述性圖像。

就目前來說,DreamStudio 已經(jīng)可以生成這樣的圖像,效果不輸 Midjourney 5.1:

盡管 DreamStudio 提供了幾乎沒有門檻的圖像生成方法,但它也有一個(gè)條件:付費(fèi)。SDXL 版本的定價(jià)甚至還要更高一些。11a4c6c2-f8ab-11ed-90ce-dac502259ad0.png

而且,對(duì)一部分技術(shù)過關(guān)的開發(fā)者來說,他們也希望能夠在 DreamStudio 的基礎(chǔ)上進(jìn)行一些應(yīng)用擴(kuò)展?;蛟S是聽到了網(wǎng)友們的心聲?剛剛,Stability AI 發(fā)布了 DreamStudio 的開源版本 ——StableStudio。

開源地址:https://github.com/Stability-AI/StableStudio

「我們相信,擴(kuò)大技術(shù)落地的最佳方式是通過開放、社區(qū)驅(qū)動(dòng)的開發(fā),而不是閉源產(chǎn)品的私有化迭代?!筍tability AI 表示。

在該公司的規(guī)劃中,StableStudio 的目標(biāo)是進(jìn)行更廣泛的社區(qū)合作,為生成式 AI 打造一個(gè)世界級(jí)的用戶界面,讓用戶能夠充分控制。盡管 DreamStudio 仍將是 Stability 公司托管的 StableStudio 的實(shí)現(xiàn),但最終目標(biāo)是培養(yǎng)一個(gè)能夠超越任何由單一公司開發(fā)的項(xiàng)目。

具體來說,StableStudio 和 DreamStudio 有什么區(qū)別?

Stability AI 做了一些調(diào)整,使得該項(xiàng)目對(duì)社區(qū)更加友好。包括:

  • 刪除了 DreamStudio 專屬品牌;

  • 所有在線 API 調(diào)用都已被插件系統(tǒng)取代,用戶可以輕松更換后端;

  • 刪除了專屬于 Stability 的帳戶功能,例如計(jì)費(fèi)、API 密鑰管理等。

擴(kuò)展功能

DreamStudio 最初被設(shè)想為 Disco Diffusion 的動(dòng)畫 studio,2022 年 Stable Diffusion 發(fā)布之后,DreamStudio 的重點(diǎn)就轉(zhuǎn)向了圖像生成。

受今年爆火的對(duì)話模型啟發(fā),4 月 Stability AI 發(fā)布了開源 LLM StableVicuna。DreamStudio 的開源版本 StableStudio 將和 StableVicuna 結(jié)合,推出聊天界面。1314e5e6-f8ab-11ed-90ce-dac502259ad0.png

Stability AI 表示,StableStudio 未來可能會(huì)更新以下功能:

  • 通過 WebGPU 進(jìn)行局部推理

  • 通過 stable-diffusion-webui 進(jìn)行局部推理

  • 桌面安裝

  • ControlNet 工具

3. 3.6萬億token、3400億參數(shù),谷歌大模型PaLM 2細(xì)節(jié)遭曝光

原文:https://mp.weixin.qq.com/s/KisM8tU8sHZLhUjxcCG-NA

上周四,在 2023 谷歌 I/O 大會(huì)上,谷歌 CEO 皮查伊宣布推出對(duì)標(biāo) GPT-4 的大模型 PaLM 2,并正式發(fā)布預(yù)覽版本,改進(jìn)了數(shù)學(xué)、代碼、推理、多語言翻譯和自然語言生成能力。

1375755a-f8ab-11ed-90ce-dac502259ad0.png

PaLM 2 模型提供了不同尺寸規(guī)模的四個(gè)版本,從小到大依次為 Gecko、Otter、Bison 和 Unicorn,更易于針對(duì)各種用例進(jìn)行部署。其中輕量級(jí)的 Gecko 模型可以在移動(dòng)設(shè)備上運(yùn)行,速度非??欤宦?lián)網(wǎng)也能在設(shè)備上運(yùn)行出色的交互式應(yīng)用程序。不過會(huì)上,谷歌并沒有給出有關(guān) PaLM 2 的具體技術(shù)細(xì)節(jié),只說明了它是構(gòu)建在谷歌最新 JAX 和 TPU v4 之上。

13e9a682-f8ab-11ed-90ce-dac502259ad0.png

昨日,據(jù)外媒 CNBC 看到的內(nèi)部文件稱,PaLM 2 是在 3.6 萬億個(gè) token 上訓(xùn)練。作為對(duì)比,上代 PaLM 接受了 7800 億 token 的訓(xùn)練。

此外,谷歌之前表示 PaLM 2 比以前的 LLM 規(guī)模更小,這意味著在完成更復(fù)雜任務(wù)的同時(shí)變得更加高效。這一點(diǎn)也在內(nèi)部文件中得到了驗(yàn)證,PaLM 2 的訓(xùn)練參數(shù)量為 3400 億,遠(yuǎn)小于 PaLM 的 5400 億。

PaLM 2 的訓(xùn)練 token 和參數(shù)量與其他家的 LLM 相比如何呢?作為對(duì)比,Meta 在 2 月發(fā)布的 LLaMA 接受了 1.4 萬億 token 的訓(xùn)練。OpenAI 1750 億參數(shù)的 GPT-3 是在 3000 億 token 上訓(xùn)練的。

雖然谷歌一直渴望展示其 AI 技術(shù)的強(qiáng)大能力以及如何嵌入到搜索、電子郵件、文件處理和電子表格中,但也不愿公布其訓(xùn)練數(shù)據(jù)的大小或其他細(xì)節(jié)。其實(shí)這樣做的不只谷歌一家,OpenAI 也緘口不言其最新多模態(tài)大模型 GPT-4 的細(xì)節(jié)。他們都表示不披露細(xì)節(jié)是源于業(yè)務(wù)的競(jìng)爭(zhēng)屬性。

不過,隨著 AI 軍備競(jìng)賽的持續(xù)升溫,研究界越來越要求提高透明度。并且在前段時(shí)間泄露的一份谷歌內(nèi)部文件中,谷歌內(nèi)部研究人員表達(dá)了這樣一種觀點(diǎn):雖然表面看起來 OpenAI 和谷歌在 AI 大模型上你追我趕,但真正的贏家未必會(huì)從這兩家中產(chǎn)生,因?yàn)榈谌搅α俊搁_源」正在悄然崛起。

目前,這份內(nèi)部文件的真實(shí)性尚未得到驗(yàn)證,谷歌也并未對(duì)相關(guān)內(nèi)容置評(píng)。

4. 前哈工大教授開發(fā)的ChatALL火了!可同時(shí)提問17個(gè)聊天模型,ChatGPT/Bing/Bard/文心/訊飛都OK

原文:https://www.thepaper.cn/newsDetail_forward_23143443?commTag=true

今天的你,是否還在幾個(gè)聊天大模型之間“反復(fù)橫跳”?

畢竟各家訓(xùn)練數(shù)據(jù)和方法不盡相同,擅長(zhǎng)和不擅長(zhǎng)的東西也都不一樣。

現(xiàn)在,不用這么麻煩了。

有人開發(fā)了一個(gè)名叫“ChatALL”的應(yīng)用,可以將你的提問同時(shí)發(fā)送給10多個(gè)市面上常見的聊天機(jī)器人,比如ChatGPT、GPT4、Bing、Bard、Claude、文心一言、訊飛星火等等,并一一展現(xiàn)出來。

144bff76-f8ab-11ed-90ce-dac502259ad0.png

由此一來,你就可以輕松比對(duì)出答得最好的那一個(gè),然后采用。

簡(jiǎn)直太方便了有沒有?

這不,項(xiàng)目非常受歡迎,已登上GitHub今日熱榜第一名,攬獲1.6k+標(biāo)星。

14c42fbe-f8ab-11ed-90ce-dac502259ad0.png

它是一個(gè)應(yīng)用程序,支持中英德三種語言。

只需下載安裝包即可使用,Mac、Windows和Linux都支持。

其功能包括:

  • 快問模式:不需要等待前面的請(qǐng)求完成,就可以發(fā)下一條指令

  • 對(duì)話歷史保存在本地,保護(hù)你的隱私

  • 高亮喜歡的答案,刪除不需要的答案

  • 自動(dòng)保持ChatGPT不掉線

  • 隨時(shí)啟用/禁用任何機(jī)器人

  • 在一列、兩列或三列視圖之間切換

  • ……

未來還能夠推薦最佳答案。

目前支持的AI聊天機(jī)器人列表如下:14ebbcdc-f8ab-11ed-90ce-dac502259ad0.png

其中,特別包括一個(gè)本地Gradio,它可以對(duì)接你自己部署的模型。

而在應(yīng)用程序界面中,一共顯示了17個(gè)圖標(biāo),證明目前最多已可支持17種聊天機(jī)器人。

需要注意的是,這只是一個(gè)集中了所有聊天AI的程序,不是代理,所以每個(gè)都需要你登錄自己的賬號(hào),當(dāng)然,API token也可以。

登錄之后,想一次詢問哪些機(jī)器人就點(diǎn)亮對(duì)應(yīng)的圖標(biāo),就可以開始玩耍了。大家快去試試吧。

5. AI孫燕姿成今年爆火歌手,這一時(shí)代眼見不實(shí),耳聽為虛

原文:https://mp.weixin.qq.com/s/1XP5VAJe7Extk6TEkU9rzQ

就在近期,華語樂壇的不少歌迷喜氣洋洋,認(rèn)為目前的歌壇回到了20年前,歌迷們又享受到了許多動(dòng)聽的歌聲。不過與以往不同的是,這些演唱者并非真人,而是一個(gè)個(gè)訓(xùn)練出來的AI。

這些AI足以以假亂真,通過技術(shù)將一首音樂以更換演唱者的方式來進(jìn)行不同的演繹,不僅為歌壇帶來了不一樣的視聽體驗(yàn),同時(shí)也引發(fā)了行業(yè)對(duì)AI技術(shù)應(yīng)用的思考。在AI時(shí)代,我們的所見所聞,或許都是由AI創(chuàng)造的。

光怪陸離的AI時(shí)代

如今的網(wǎng)絡(luò)上有一個(gè)梗,要問今年哪個(gè)歌手最火,答案可能會(huì)出乎許多人意料,并不是某位歌手,而是一些由AI所制作出來的語音,如AI孫燕姿、AI周杰倫等。通過將原來歌手的聲音進(jìn)行采集訓(xùn)練,從而替換另一首歌的原唱。

通過這種方式,實(shí)現(xiàn)了讓自己喜歡的歌手唱另一首自己喜歡但非歌手的歌,比如用孫燕姿的聲音演唱周杰倫的《晴天》。關(guān)鍵在于,不論是演唱語調(diào)、技巧乃至音色,幾乎都與孫燕姿相差無幾。

實(shí)現(xiàn)這一技術(shù)目前已經(jīng)有一套標(biāo)準(zhǔn)流程,先通過收集大量的音樂和歌詞,并對(duì)這些數(shù)據(jù)進(jìn)行清洗和標(biāo)注,以便訓(xùn)練算法和模型。再選擇合適的算法和模型,并進(jìn)行優(yōu)化和調(diào)整,以提高虛擬人物的歌唱和表演能力。

通過語音合成技術(shù)將文字轉(zhuǎn)換為聲音,并對(duì)聲音進(jìn)行處理和優(yōu)化,以達(dá)到更加自然和流暢的效果。最后將原來歌曲的聲音替換成語音合成的聲音,再進(jìn)行調(diào)試,就能得到一首全新演唱的歌曲。

既然都已經(jīng)可以替換聲音演唱歌曲了,那么更進(jìn)一步替換視頻畫面進(jìn)行演繹也就不太難了。近期谷歌的I/O大會(huì)上,便公布了一項(xiàng)Universal Translator技術(shù),該工具旨在將視頻從一種語言翻譯成另一種語言,同時(shí)保留整體基調(diào)和氛圍。

這意味著該技術(shù)不僅可以將音頻從一種語言翻譯成另一種語言,還可以模仿說話者的聲音、語氣和面部表情,人物說話視頻會(huì)根據(jù)目標(biāo)語言的發(fā)音同步改變口型。

當(dāng)然,為了避免這項(xiàng)技術(shù)被用來制作虛假視頻,谷歌將這項(xiàng)技術(shù)只授權(quán)給少部分的合作廠商使用,普通人是無法接觸到的。但市場(chǎng)上如今已經(jīng)有許多類似的AI出現(xiàn),谷歌的此舉不過是略作限制,但無法阻止這股趨勢(shì)。

更有甚者,如一位美國(guó)網(wǎng)紅發(fā)布了AI版本的自己“Caryn AI”,這個(gè)應(yīng)用是一款聊天機(jī)器人,可以作為用戶的虛擬伴侶,目前正在內(nèi)部測(cè)試階段,每分鐘收費(fèi)一美元。

據(jù)美國(guó)雜志《財(cái)富》披露,就在過去一周的時(shí)間內(nèi),這款軟件已經(jīng)為其創(chuàng)造了7.16萬美元(約合人民幣50萬元)的收入,已經(jīng)吸引了超過1000名付費(fèi)粉絲。

這種模式或許也將沖擊未來的娛樂行業(yè),想象每一位追星的粉絲,只要付費(fèi),都將擁有與自己偶像一對(duì)一聊天的機(jī)會(huì),其所創(chuàng)造的價(jià)值潛力將是巨大的。

但這種由AI所創(chuàng)造出來的音樂、視頻、伴侶或者偶像,真的可以提供人們所需要的情緒價(jià)值嗎?這是個(gè)值得思考的問題。

AI之后的隱憂

盡管這些AI應(yīng)用的落地前景非常誘人,比如采用AI替換歌曲中的聲音,就能夠?qū)崿F(xiàn)歌手只需要提供聲音的模板,便可以進(jìn)行批量的音樂制作。甚至不用自己演唱,也能夠推行相關(guān)專輯。

技術(shù)上主要通過機(jī)器學(xué)習(xí)技術(shù),訓(xùn)練機(jī)器模仿一個(gè)特定的歌手的音樂風(fēng)格、聲音和唱腔,然后將這些技能應(yīng)用于其他歌曲的錄制中。這種技術(shù)在一定程度上提高了錄制歌曲的效率和質(zhì)量,并且可以節(jié)省制作成本。

但如果使用他人的聲音進(jìn)行創(chuàng)作,就可能有侵權(quán)的風(fēng)險(xiǎn)。尤其在數(shù)據(jù)采集階段,以語音替換為例,首先需要收集大量的語音數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行標(biāo)注和處理。標(biāo)注可以包括音素、語調(diào)、語速等信息,以便訓(xùn)練模型能夠準(zhǔn)確地識(shí)別和替換語音。

這一過程便可能涉及到對(duì)用戶隱私數(shù)據(jù)的采用,甚至對(duì)用戶的隱私和數(shù)據(jù)安全造成威脅,還有可能進(jìn)一步造成財(cái)產(chǎn)安全。因?yàn)檎Z音合成就可能被犯罪分子用于詐騙,通過合成親屬或者熟人的聲音來謀取資金。

如果用AI更改視頻畫面甚至進(jìn)一步篡改其中的對(duì)話,則可能造成更多的風(fēng)險(xiǎn)。比如將會(huì)遇到即便是用視頻聊天,也無法確定對(duì)面的是不是真的想要聯(lián)系的那個(gè)人。這項(xiàng)技術(shù)目前甚至已經(jīng)應(yīng)用在許多的直播平臺(tái)中,比如一些虛擬主播、虛擬偶像等,如果一旦濫用,可能會(huì)造成更多的危害。

為了避免這一情況的發(fā)生,除了加強(qiáng)對(duì)AI技術(shù)的監(jiān)管,建立相應(yīng)的法律制度和規(guī)范,還可以通過一些技術(shù)手段來避免自身的數(shù)據(jù)被采集,從而造成侵權(quán)以及侵犯隱私的風(fēng)險(xiǎn)。比如采用區(qū)塊鏈技術(shù)來保護(hù)數(shù)據(jù)的安全性和隱私性,采用人工智能算法來檢測(cè)和識(shí)別惡意行為等手段。

以區(qū)塊鏈技術(shù)為例,其去中心化和不可變性特點(diǎn)能夠確保數(shù)據(jù)的安全和完整性,因此可以用于AI技術(shù)的安全驗(yàn)證和認(rèn)證?;趨^(qū)塊鏈技術(shù),數(shù)據(jù)交互和交流的過程被保護(hù),因此可以授權(quán)AI對(duì)數(shù)據(jù)的操作并確保AI數(shù)據(jù)訪問權(quán)限受到限制。

同時(shí),區(qū)塊鏈技術(shù)還可以幫助人們更好地控制AI技術(shù)的使用,并提高AI的公正和透明性。例如,以基于區(qū)塊鏈技術(shù)的智能合約的方式來控制AI的使用,可以加強(qiáng)對(duì)AI系統(tǒng)的監(jiān)督,并確保其行為符合人類的期望和價(jià)值。

當(dāng)然,區(qū)塊鏈技術(shù)還面臨著可擴(kuò)展性、隱私保護(hù)等問題,同時(shí)在操作成本和技術(shù)難度方面也存在一定的限制,還無法完全避免AI濫用的問題。

我們還可以運(yùn)用數(shù)字簽名技術(shù)檢測(cè)音頻和視頻是否被AI修改,數(shù)字簽名是指在文件中包含數(shù)字代碼的技術(shù),在將文件傳輸或轉(zhuǎn)發(fā)給其他人時(shí),可以驗(yàn)證文件的完整性和真實(shí)性。或者使用機(jī)器學(xué)習(xí)算法來檢測(cè)這些變化,例如,可以使用深度神經(jīng)網(wǎng)絡(luò)來對(duì)音頻或視頻進(jìn)行分析,以檢測(cè)其中的模式和結(jié)構(gòu)是否與人類創(chuàng)作者的作品相似。如果發(fā)現(xiàn)有明顯的差異,則可能表明該作品是由AI生成的。

但隨著未來AI技術(shù)的發(fā)展,這些差異化和容易被檢測(cè)出來的問題都有可能被AI克服,使得我們最終很難分辨哪些產(chǎn)品是由AI制作,哪些才是由人所原創(chuàng)的。

寫在最后

隨著生成式AI技術(shù)的大爆發(fā),如ChatGPT、文心一言、訊飛星火等聊天機(jī)器人的出現(xiàn),讓人們工作效率得以極大地提高,Stable Diffusion、Midjourney等AI的出現(xiàn),讓圖片制作成本大幅降低,Universal Translator、Video Dubbing AI等,讓視頻也開始變得容易制作。

這些AI技術(shù)的出現(xiàn)顯然極大的解放了人們的生產(chǎn)力,讓人類發(fā)展走上快車道。當(dāng)然有人會(huì)說以上這些AI都是通過收集大量數(shù)據(jù)之后,輸出縫合之后的產(chǎn)品,根本不能稱得上是原創(chuàng)。

但就像我們的學(xué)習(xí)過程一樣,最開始都是模仿,后來才開始擁有自己的獨(dú)立風(fēng)格,但這些風(fēng)格或多或少都會(huì)有之前學(xué)習(xí)過的影子,而這就是創(chuàng)造的過程,AI也是如此。

更值得關(guān)注的是,隨著AI技術(shù)的快速發(fā)展,其所帶來的風(fēng)險(xiǎn)也在與日俱增。如何更好的處理AI所引發(fā)的風(fēng)險(xiǎn),將是我們未來所面對(duì)的主要問題。

6. 星一文看盡深度學(xué)習(xí)各種注意力機(jī)制,學(xué)習(xí)推薦!

https://mp.weixin.qq.com/s/PkzzElN1uk2Yzu1DsYnOdQ

注意力機(jī)制在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用主要使用于捕捉圖像上的respective field,而在自然語言處理領(lǐng)域中的應(yīng)用主要使用于定位關(guān)鍵的token。下面簡(jiǎn)單介紹下注意力機(jī)制在早期的幾個(gè)經(jīng)典應(yīng)用。1562a3ba-f8ab-11ed-90ce-dac502259ad0.jpg

《A Model of Saliency-Based Visual Attention for Rapid Scene Analysis》[2]

159b9918-f8ab-11ed-90ce-dac502259ad0.png

這是早期將注意力機(jī)制應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域的一篇代表作,文章于1998年發(fā)表于TAPMI。作者受早期靈長(zhǎng)目視覺系統(tǒng)的神經(jīng)元結(jié)構(gòu)啟發(fā),提出了一種視覺注意力系統(tǒng),可以將多尺度的圖像特征組合成單一的顯著性圖。最后,利用一個(gè)動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò),并按照顯著性的順序來高效的選擇重點(diǎn)區(qū)域。

《Recurrent Models of Visual Attention》[3]

15d01652-f8ab-11ed-90ce-dac502259ad0.png

使注意力機(jī)制真正火起來的當(dāng)屬于谷歌DeepMind于2014年所提出的這篇文章,該論文首次在RNN模型上應(yīng)用了注意力機(jī)制的方法進(jìn)行圖像分類。

《Neural Machine Translation by Jointly Learning to Align and Translate》[4]

15f40c06-f8ab-11ed-90ce-dac502259ad0.png

這是由深度學(xué)習(xí)三巨頭之一Yoshua Bengio等人于2015年發(fā)表于ICLR上的一篇論文,該論文的最大貢獻(xiàn)是將注意力機(jī)制首次應(yīng)用到NLP領(lǐng)域,實(shí)現(xiàn)了同步的對(duì)齊和翻譯,解決以往神經(jīng)機(jī)器翻譯(NMT)領(lǐng)域使用Encoder-Decoder架構(gòu)的一個(gè)潛在問題,即將信息都?jí)嚎s在固定長(zhǎng)度的向量,無法對(duì)應(yīng)長(zhǎng)句子。

《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》[5]

這篇文章由Yoshua Bengio等人于2015年在ICML上所發(fā)表的,該論文將注意力機(jī)制引入到圖像領(lǐng)域,作者提出了兩種基于注意力機(jī)制的圖像描述生成模型: 使用基本反向傳播訓(xùn)練的Soft Attetnion方法和使用強(qiáng)化學(xué)習(xí)訓(xùn)練的Hard Attention方法。

《Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition》[6]

這是發(fā)表于CVPR 2017年的一篇文章,作者提出了一種基于CNN的注意力機(jī)制,叫做循環(huán)注意力卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Attention Convolutional Neural Network, RA-CANN),該網(wǎng)絡(luò)可以遞歸地分析局部信息,并從所獲取的局部區(qū)域中提取細(xì)粒度信息。此外,作者還引入了一個(gè)注意力生成子網(wǎng)絡(luò)(Attenion Proposal Sub-Network, APN),迭代的對(duì)整圖操作以生成對(duì)應(yīng)的子區(qū)域,最后再將各個(gè)子區(qū)域的預(yù)測(cè)記過整合起來,從而后的整張圖片最終的分類預(yù)測(cè)結(jié)果。

《Attention is All Your Need》[7]

16c17fec-f8ab-11ed-90ce-dac502259ad0.png

這是由谷歌機(jī)器翻譯團(tuán)隊(duì)于2017年發(fā)表于NIPS上的一篇文章,該論文最大的貢獻(xiàn)便是拋棄了以往機(jī)器翻譯基本都會(huì)應(yīng)用的RNN或CNN等傳統(tǒng)架構(gòu),以編碼器-解碼器為基礎(chǔ),創(chuàng)新性的提出了一種Transformer架構(gòu)。該架構(gòu)可以有效的解決RNN無法并行處理以及CNN無法高效的捕捉長(zhǎng)距離依賴的問題,近期更是被進(jìn)一步地應(yīng)用到了計(jì)算機(jī)視覺領(lǐng)域,同時(shí)在多個(gè)CV任務(wù)上取得了SOTA性能,挑戰(zhàn)CNN在CV領(lǐng)域多年的霸主地位。

本文將重點(diǎn)圍繞通道、空間、自注意力、類別等多個(gè)維度[8]介紹計(jì)算機(jī)視覺領(lǐng)域中較為出名的注意力機(jī)制方法,力爭(zhēng)用最簡(jiǎn)短的語言解釋得更加通俗易懂。

通道&空間注意力

通道注意力旨在顯示的建模出不同通道之間的相關(guān)性,通過網(wǎng)絡(luò)學(xué)習(xí)的方式來自動(dòng)獲取到每個(gè)特征通道的重要程度,最后再為每個(gè)通道賦予不同的權(quán)重系數(shù),從而來強(qiáng)化重要的特征抑制非重要的特征。
空間注意力旨在提升關(guān)鍵區(qū)域的特征表達(dá),本質(zhì)上是將原始圖片中的空間信息通過空間轉(zhuǎn)換模塊,變換到另一個(gè)空間中并保留關(guān)鍵信息,為每個(gè)位置生成權(quán)重掩膜(mask)并加權(quán)輸出,從而增強(qiáng)感興趣的特定目標(biāo)區(qū)域同時(shí)弱化不相關(guān)的背景區(qū)域。

SE-Net[9]

《Squeeze-and-Excitation Networks》發(fā)表于CVPR 2018,是CV領(lǐng)域?qū)⒆⒁饬C(jī)制應(yīng)用到通道維度的代表作,后續(xù)大量基于通道域的工作均是基于此進(jìn)行潤(rùn)(魔)色(改)。SE-Net是ImageNet 2017大規(guī)模圖像分類任務(wù)的冠軍,結(jié)構(gòu)簡(jiǎn)單且效果顯著,可以通過特征重標(biāo)定的方式來自適應(yīng)地調(diào)整通道之間的特征響應(yīng)。

1707ec66-f8ab-11ed-90ce-dac502259ad0.png

  • Squeeze利用全局平均池化(Global Average Pooling, GAP) 操作來提取全局感受野,將所有特征通道都抽象為一個(gè)點(diǎn);

  • Excitation利用兩層的多層感知機(jī)(Multi-Layer Perceptron, MLP) 網(wǎng)絡(luò)來進(jìn)行非線性的特征變換,顯示地構(gòu)建特征圖之間的相關(guān)性;

  • Transform利用Sigmoid激活函數(shù)實(shí)現(xiàn)特征重標(biāo)定,強(qiáng)化重要特征圖,弱化非重要特征圖。

 1classSELayer(nn.Module):
 2def__init__(self,channel,reduction=16):
 3super(SELayer,self).__init__()
 4self.avg_pool=nn.AdaptiveAvgPool2d(1)
 5self.fc=nn.Sequential(
 6nn.Linear(channel,channel//reduction,bias=False),
 7nn.ReLU(inplace=True),
 8nn.Linear(channel//reduction,channel,bias=False),
 9nn.Sigmoid()
10)
11
12defforward(self,x):
13b,c,_,_=x.size()
14y=self.avg_pool(x).view(b,c)
15y=self.fc(y).view(b,c,1,1)
16returnx*y.expand_as(x)

此外,本文還總結(jié)了一下網(wǎng)絡(luò),感興趣的同學(xué)可以查看原文。

GE-Net[10]

RA-Net[12]

SK-Net[13]

SPA-Net[14]

ECA-Net[15]

CBAM[16]

BAM[17]

scSE[18]

A2-Nets[19]

Non-Local[20]

DA-Net[22]

ANLNet[24]

CC-Net[26]

GC-Net[28]

———————End———————

RT-Thread線下入門培訓(xùn)

6月 - 鄭州、杭州、深圳

1.免費(fèi)2.動(dòng)手實(shí)驗(yàn)+理論3.主辦方免費(fèi)提供開發(fā)板4.自行攜帶電腦,及插線板用于筆記本電腦充電5.參與者需要有C語言、單片機(jī)ARM Cortex-M核)基礎(chǔ),請(qǐng)?zhí)崆鞍惭b好RT-Thread Studio 開發(fā)環(huán)境

172cb762-f8ab-11ed-90ce-dac502259ad0.png

立即掃碼報(bào)名

報(bào)名鏈接

https://jinshuju.net/f/UYxS2k

巡回城市:青島、北京、西安、成都、武漢、鄭州、杭州、深圳、上海、南京

你可以添加微信:rtthread2020 為好友,注明:公司+姓名,拉進(jìn)RT-Thread官方微信交流群!

點(diǎn)擊閱讀原文,進(jìn)入RT-Thread 官網(wǎng)


原文標(biāo)題:【AI簡(jiǎn)報(bào)20230522期】ChatGPT App 來了!谷歌大模型PaLM 2細(xì)節(jié)遭曝光

文章出處:【微信公眾號(hào):RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • RT-Thread
    +關(guān)注

    關(guān)注

    32

    文章

    1402

    瀏覽量

    41858

原文標(biāo)題:【AI簡(jiǎn)報(bào)20230522期】ChatGPT App 來了!谷歌大模型PaLM 2細(xì)節(jié)遭曝光

文章出處:【微信號(hào):RTThread,微信公眾號(hào):RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    大家都在用什么AI軟件?有沒有好用的免費(fèi)的AI軟件推薦一下?

    大家都在用什么AI軟件?有沒有好用的免費(fèi)的AI軟件推薦一下?直接發(fā)個(gè)安裝包,謝謝。比如deepseek、Chatgpt、豆包、阿里AI、百度AI
    發(fā)表于 07-09 18:30

    AI真會(huì)人格分裂!OpenAI最新發(fā)現(xiàn),ChatGPT善惡開關(guān)已開啟

    AI現(xiàn)在就像一個(gè)小朋友,很容易就學(xué)壞了!OpenAI剛剛發(fā)現(xiàn),如果用錯(cuò)誤的數(shù)據(jù)微調(diào)自家的模型的一個(gè)領(lǐng)域,ChatGPT就會(huì)把在這個(gè)領(lǐng)域?qū)W到的「惡」和「壞」泛化到其他領(lǐng)域。比如「刻意」用錯(cuò)誤數(shù)據(jù)在汽車
    的頭像 發(fā)表于 06-20 12:41 ?1143次閱讀
    <b class='flag-5'>AI</b>真會(huì)人格分裂!OpenAI最新發(fā)現(xiàn),<b class='flag-5'>ChatGPT</b>善惡開關(guān)已開啟

    谷歌新一代生成式AI媒體模型登陸Vertex AI平臺(tái)

    我們?cè)?Vertex AI 上推出新一代生成式 AI 媒體模型: Imagen 4、Veo 3 和 Lyria 2。
    的頭像 發(fā)表于 06-18 09:56 ?328次閱讀

    如何賦能醫(yī)療AI模型應(yīng)用?

    引言自ChatGPT掀起熱潮以來,眾多AI模型如雨后春筍般涌現(xiàn),其中包括百度科技的文心一言、科大訊飛的訊飛星火、華為的盤古AI模型、騰訊
    的頭像 發(fā)表于 05-07 09:36 ?251次閱讀
    如何賦能醫(yī)療<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>應(yīng)用?

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    ,聯(lián)發(fā)科帶來了全面升級(jí)的天璣AI開發(fā)套件2.0,在模型庫規(guī)模、架構(gòu)開放程度、前沿端側(cè)AI技術(shù)支持和端側(cè)LoRA訓(xùn)練落地等方面均迎來全面躍遷,為開發(fā)者提供了更全面、更開放、更強(qiáng)大的端側(cè)
    發(fā)表于 04-13 19:52

    谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?

    與推理 AI 模型。谷歌方面表示,它代表著 AI 發(fā)展從 “響應(yīng)式” 向 “主動(dòng)式” 的范式轉(zhuǎn)變,未來 AI 代理將能夠主動(dòng)檢索并
    的頭像 發(fā)表于 04-12 00:57 ?2396次閱讀

    涂鴉智能集成Mistral AI模型,加速歐洲AI硬件革新

    2025年2月,法國(guó)AI初創(chuàng)公司MistralAI憑借首次發(fā)布的AI模型——LeChat,登頂法國(guó)免費(fèi)App榜首,這一成績(jī)不僅引發(fā)行業(yè)震動(dòng)
    的頭像 發(fā)表于 02-13 20:58 ?337次閱讀
    涂鴉智能集成Mistral <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>,加速歐洲<b class='flag-5'>AI</b>硬件革新

    谷歌 Gemini 2.0 Flash 系列 AI 模型上新

    谷歌旗下 AI模型 Gemini 系列全面上新,正式版 Gemini 2.0 Flash、Gemini 2.0 Flash-Lite 以及新一代旗艦大模型 Gemini 2.0 P
    的頭像 發(fā)表于 02-07 15:07 ?705次閱讀

    AI眼鏡形態(tài)席卷可穿戴市場(chǎng)!谷歌眼鏡幾次“流產(chǎn)”,將靠AI翻盤

    ? 電子發(fā)燒友網(wǎng)報(bào)道(文/莫婷婷)在ChatGPT進(jìn)化史上,繞不開的一家廠商是谷歌。2024年12月,谷歌發(fā)布 Gemini 2.0,該產(chǎn)品被稱為登頂AI巔峰、秒殺
    的頭像 發(fā)表于 12-26 00:12 ?3594次閱讀

    谷歌發(fā)布Gemini 2.0 AI模型

    谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名為“深度研究”的新特性,旨在為用戶提供更加全面和深入的復(fù)雜主題探索與報(bào)告撰寫輔助。 Gemini 2.0通過高級(jí)推理和長(zhǎng)上
    的頭像 發(fā)表于 12-12 10:13 ?638次閱讀

    大聯(lián)大推出基于MediaTek Genio 130與ChatGPTAI語音助理方案

    ,為市場(chǎng)帶來了全新的智能交互體驗(yàn)。 該AI語音助理方案充分利用了MediaTek Genio 130芯片的強(qiáng)大性能與ChatGPT的先進(jìn)人工智能技術(shù)。MediaTek Genio 130芯片作為聯(lián)發(fā)
    的頭像 發(fā)表于 12-11 11:07 ?830次閱讀

    Llama 3 模型與其他AI工具對(duì)比

    本處理的效率。 其他AI工具 如ChatGPT、GPT-4等也基于Transformer架構(gòu),但可能在細(xì)節(jié)上有所不同,如注意
    的頭像 發(fā)表于 10-27 14:37 ?1050次閱讀

    華納云:ChatGPT 登陸 Windows

    ChatGPT 桌面應(yīng)用,您可以聊聊文件和照片。這款應(yīng)用為您帶來了 OpenAI 最新的模型改進(jìn),包括訪問我們最新、最智能的模型OpenAI o1-preview ?!?Window
    的頭像 發(fā)表于 10-18 15:50 ?522次閱讀

    谷歌獲Character.AI模型技術(shù)授權(quán),創(chuàng)始人重歸谷歌懷抱

    8月5日最新資訊,創(chuàng)新企業(yè)Character.AI在上周五正式宣布,他們已經(jīng)與科技巨頭谷歌的母公司Alphabet達(dá)成了一項(xiàng)重要合作,非獨(dú)家授權(quán)谷歌使用其先進(jìn)的大型語言模型技術(shù)。此次合
    的頭像 發(fā)表于 08-05 14:35 ?750次閱讀