丁香五月欧美熟女,女同专区中文字幕

電子發(fā)燒友網(wǎng)報道（文/吳子鵬）前有AI落地難，如今AI大模型的落地也遇到了一些挑戰(zhàn)。雖然各大企業(yè)推出了非常多的行業(yè)垂直大模型，不過這些模型基本上還是基于云端去實現(xiàn)。在終端，目前AI智能手機(jī)和AI PC是最熱門的兩大應(yīng)用。

我們簡單看一下AI智能手機(jī)行業(yè)，已經(jīng)有數(shù)家廠商推出了配置在手機(jī)端的大模型。以vivo的藍(lán)心大模型為例，可以通過抓取屏幕中的內(nèi)容，智能且直接地完成日程添加的操作，使用戶體驗更為便捷。還有榮耀MagicOS 8，大模型讓榮耀手機(jī)能夠捕獲用戶的意圖。在AI PC方面，道理大抵是相通的。

那么，除了原本就比較智能且出貨量較大的智能手機(jī)和PC之外，AI大模型還有什么終端方向值得去探索呢？OpenAI 給出的答案是機(jī)器人。

把ChatGPT裝進(jìn)機(jī)器人的大腦

近日，機(jī)器人初創(chuàng)公司Figure發(fā)布了自己第一個OpenAI大模型加持的機(jī)器人demo。視頻內(nèi)容顯示，當(dāng)一個1.7米左右的機(jī)器人被植入GPT大模型之后，智能化水平顯著提升，不僅能夠和人類無違和對話，而且也具有非常強(qiáng)的動手能力。

根據(jù)demo內(nèi)容，這個搭載GPT的機(jī)器人能夠非常準(zhǔn)確地描述自己所見的內(nèi)容，比如面前的蘋果和杯子，以及演示人員手部的動作。并且，當(dāng)演示人員讓這個機(jī)器人遞些吃的東西過去時，它能夠在幾乎不需要反應(yīng)時間的情況下將蘋果遞給演示人員。這個demo顯示出，搭載GPT的機(jī)器人已經(jīng)具有非常高的“意識自主性”，雖然有些對話需要時間反應(yīng)，不過他最終都能夠做出正確的舉措。

據(jù)悉，機(jī)器人初創(chuàng)公司Figure擁有一個豪華的技術(shù)團(tuán)隊，創(chuàng)始人Adcock重金從波士頓動力、特斯拉、谷歌等公司挖了大量的人才。再加上有了GPT的加持，F(xiàn)igure 01機(jī)器人可以自主做計劃、執(zhí)行任務(wù)、有記憶、聽懂人話，離具身智能的程度更近一步。

上一個引起行業(yè)廣泛關(guān)注的機(jī)器人是VIMA（Vision-and-Language Navigation with Multi-Modal Transformers）。VIMA由李飛飛教授及來自斯坦福大學(xué)、加州理工、清華大學(xué)和英偉達(dá)的幾位學(xué)者組成的團(tuán)隊聯(lián)合打造，是一個使用多模態(tài)提示執(zhí)行各類任務(wù)的機(jī)械體操作系統(tǒng)。根據(jù)介紹，VIMA是一個帶有機(jī)械臂的LLM，可以接受多模態(tài)提示詞，單個的文本、圖像、視頻或這些信息的結(jié)合。

太平洋證券曾在研報中指出，雖然當(dāng)前人形機(jī)器人的智能AI系統(tǒng)還不夠成熟，但當(dāng)前ChatGPT的出現(xiàn)已展現(xiàn)了生成式AI具備較強(qiáng)理解和生成對話能力，結(jié)合OpenAI投資人形機(jī)器人賽道，以及特斯拉等巨頭的入局，看好未來人形機(jī)器人更快商業(yè)化落地。

無疑，F(xiàn)igure 01機(jī)器人展示出當(dāng)下具身智能機(jī)器人的最新進(jìn)展。具身智能機(jī)器人要求機(jī)器人能夠像人類一樣與環(huán)境交互、感知、規(guī)劃、決策、行動、執(zhí)行任務(wù)。英偉達(dá)創(chuàng)始人黃仁勛在 ITF World 2023 半導(dǎo)體大會上就大談特談具身智能。他認(rèn)為，具身智能是能理解、推理、并與物理世界互動的智能系統(tǒng)，是人工智能的下一個浪潮。

相信隨著AI大模型技術(shù)越來越成熟，這種大模型和機(jī)器人的融合會更加成熟，到時候機(jī)器人可能會無縫融入人類社會。

大模型融入機(jī)器人的挑戰(zhàn)

不過，憧憬是美好的，過程總是很艱辛。針對AI大模型和機(jī)器人的融合，當(dāng)前還有很多困難需要克服，就像Figure 01機(jī)器人一樣，它還有很多細(xì)節(jié)問題無法很平滑地處理。

在2023年底舉辦的中國信通院人工智能論壇上，很多專家就談到了AI大模型的終端落地難題，其中一些問題實際上也是適用于機(jī)器人行業(yè)的。

比如，第一個是算力和存儲問題，當(dāng)AI大模型在云端訓(xùn)練時，相對算力還是比較充沛的，不過當(dāng)部署到終端的時候，模型受限于算力和存儲能力的顯著下降就需要做瘦身。這就牽連出第二個問題，由于實際應(yīng)用經(jīng)驗嚴(yán)重匱乏，目前大部分AI大模型的瘦身都是“拍腦袋式”的，這也是為什么Figure 01機(jī)器人在一些問題上應(yīng)對非常好，在一些問題上卻需要很久的推理思考。因此，在硬件問題上，成本就會是個大麻煩，成本太低的話，AI大模型受影響就會非常嚴(yán)重，成本太高的話就無法廣泛普及。

第二個是數(shù)據(jù)的問題，以機(jī)器人來說，最終落地到終端會有比較明確的場景。然而，就需要利用這類場景數(shù)據(jù)對AI大模型進(jìn)行二次訓(xùn)練，如何對這些數(shù)據(jù)進(jìn)行高質(zhì)量清洗，另外如何微調(diào)數(shù)據(jù)以達(dá)到更好的部署效果，這些都是巨大的挑戰(zhàn)，因為有太多經(jīng)驗空白區(qū)。有人會問，竟然要求具身智能，要像人類一樣，那么不是應(yīng)該具有廣泛的知識嗎？理想形態(tài)當(dāng)然是這樣，甚至是機(jī)器人在一些能力上超過人類，但是受限于硬件，短期看這是不現(xiàn)實的。

第三個是仿真和部署的問題。我們都知道，具身智能的機(jī)器人需要和物理世界接觸并融入物理世界。這就遇到了一個問題，智能體是基于虛擬仿真環(huán)境進(jìn)行設(shè)計的，不過智能體部署之后，現(xiàn)實世界要復(fù)雜很多，如何將虛擬世界和物理世界耦合是一個更大的挑戰(zhàn)。這不僅要求智能體模型具有非常好的可擴(kuò)展性和成長性，還需要一個強(qiáng)大的通用智能本體平臺?？赡苡腥艘呀?jīng)想到了硬件性能冗余，不過考慮到可靠性和成本問題，單純性能冗余明顯是不夠的，特定場景通用走向社會性通用的過程中，硬件平臺架構(gòu)創(chuàng)新是非常關(guān)鍵的。

目前，頭部企業(yè)實現(xiàn)AI大模型和機(jī)器人融合的方式有一些差異性。微軟公司使用ChatGPT大型語言模型 (LLM) 將人的語言快速轉(zhuǎn)換為機(jī)器人的高層控制代碼，然后轉(zhuǎn)化為機(jī)器人的控制；谷歌PaLM-E模型則是一種視覺路線，能夠觀察物理實體世界的信息，由大模型進(jìn)行分析理解，再將決策結(jié)果反饋至物理世界；特斯拉則是打通FSD和機(jī)器人的底層模塊，實現(xiàn)一定的算法復(fù)用，特斯拉利用大規(guī)模的數(shù)據(jù)集訓(xùn)練模型，可以提高算法在復(fù)雜環(huán)境下的性能，并認(rèn)為自動駕駛的本質(zhì)就是機(jī)器人。

從結(jié)果來看，目前AI大模型+機(jī)器人已經(jīng)實現(xiàn)了一些功能，但是離通用智能和規(guī)模部署還有一段路要走。

結(jié)語

AI大模型如何在終端落地？這是一個困擾行業(yè)的問題，將本身就智能的智能手機(jī)和PC升級，這當(dāng)然是一個路徑。不過，具身智能的機(jī)器人會有更大的想象空間，當(dāng)然這條路道阻且長。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴