作者 / Gemini API 小組產(chǎn)品經(jīng)理 Shrestha Basu Mallick 和 Google Labs 產(chǎn)品總監(jiān) Kathy Korevec
我們正賦予開(kāi)發(fā)者構(gòu)建 AI 未來(lái)的能力,包括尖端模型、智能代碼編寫工具以及跨平臺(tái)和設(shè)備的無(wú)縫集成。自 2023 年 12 月我們推出 Gemini 1.0 以來(lái),數(shù)百萬(wàn)的開(kāi)發(fā)者已經(jīng)使用 Google AI Studio 和 Vertex AI 在 109 種語(yǔ)言中使用 Gemini 進(jìn)行構(gòu)建。
我們推出了 Gemini 2.0 Flash 體驗(yàn)版,旨在支持更具沉浸感和交互性的應(yīng)用。同時(shí),我們還推出了能夠代開(kāi)發(fā)者執(zhí)行任務(wù)、優(yōu)化開(kāi)發(fā)流程的全新編碼智能體。
使用 Gemini 2.0 Flash 進(jìn)行構(gòu)建
在 Gemini 1.5 Flash 成功的基礎(chǔ)上,F(xiàn)lash 2.0 的速度是 1.5 Pro 的兩倍,具有更優(yōu)越的性能,包括新的多模態(tài)輸出,并支持原生工具使用。我們還推出了 Multimodal Live API,用于構(gòu)建具有實(shí)時(shí)音頻和視頻流的動(dòng)態(tài)應(yīng)用。
即日起,開(kāi)發(fā)者可以通過(guò) Google AI Studio 和 Vertex AI中的 Gemini API,測(cè)試和探索實(shí)驗(yàn)階段的 Gemini 2.0 Flash,正式版預(yù)計(jì)將于 2025 年初全面推出。
借助 Gemini 2.0 Flash,開(kāi)發(fā)者可以獲得:
1. 更佳性能
Gemini 2.0 Flash 比 1.5 Pro 更強(qiáng)大,同時(shí)在速度和效率上依然符合開(kāi)發(fā)者對(duì) Flash 的期望。它還在關(guān)鍵基準(zhǔn)測(cè)試中展示了更優(yōu)越的多模態(tài)、文本、代碼、視頻、空間理解和推理性能。改進(jìn)后的空間理解能力能夠在復(fù)雜圖像中為小對(duì)象生成更精確的邊界框,并實(shí)現(xiàn)更好的對(duì)象識(shí)別和圖像描述。如需了解詳情,您可以觀看空間理解視頻或閱讀 Gemini API 文檔。
2. 新的輸出模式
開(kāi)發(fā)者將能夠使用 Gemini 2.0 Flash 通過(guò)單次 API 調(diào)用,生成包含文本、音頻和圖像的綜合響應(yīng)。這些新的輸出模態(tài)已提供給早期測(cè)試人員使用,預(yù)計(jì) 2025 年將在更大范圍推廣。所有圖像和音頻輸出都將啟用 SynthID 隱形水印,這有助于減少錯(cuò)誤信息和錯(cuò)誤歸因問(wèn)題。
多語(yǔ)言原生音頻輸出: Gemini 2.0 Flash 具有原生文本轉(zhuǎn)語(yǔ)音的音頻輸出功能,開(kāi)發(fā)者不僅可以控制模型輸出的內(nèi)容,還可以精細(xì)控制說(shuō)話方式,并提供 8 種高品質(zhì)的聲音以及各種語(yǔ)言和口音選擇。您可以聆聽(tīng)原生音頻輸出的實(shí)際效果,或在開(kāi)發(fā)者文檔中了解更多信息。
原生圖像輸出: Gemini 2.0 Flash 現(xiàn)在可以生成原生圖像,并支持對(duì)話式多輪編輯,因此您可以在此前的輸出基礎(chǔ)上進(jìn)行構(gòu)建和完善。它可以輸出交錯(cuò)的文本和圖像,使其在食譜等多模態(tài)內(nèi)容中非常實(shí)用。您可以觀看原生圖像輸出視頻以了解更多信息。
3. 原生工具使用
Gemini 2.0 已經(jīng)過(guò)訓(xùn)練,能夠使用工具,這是構(gòu)建智能體體驗(yàn)的基礎(chǔ)能力。除了通過(guò)函數(shù)調(diào)用自定義第三方函數(shù)之外,它還可以原生調(diào)用 Google Search 和代碼執(zhí)行等工具。使用原生 Google Search 作為工具,不僅能提供更真實(shí)、更全面的答案,還能為發(fā)行商帶來(lái)更多流量。它可以同時(shí)運(yùn)行多項(xiàng)搜索,從多個(gè)來(lái)源找到更多相關(guān)事實(shí)并將其組合以提升準(zhǔn)確率,從而改進(jìn)信息檢索效率。您可以在原生工具使用視頻中了解詳情,或從 Notebook 上開(kāi)始構(gòu)建。
4. Multimodal Live API
開(kāi)發(fā)者現(xiàn)在可以使用來(lái)自攝像頭或屏幕的音頻和視頻流輸入,構(gòu)建實(shí)時(shí)多模態(tài)應(yīng)用。同時(shí),應(yīng)用可以支持諸如中斷和語(yǔ)音活動(dòng)檢測(cè)等自然對(duì)話模式。該 API 支持將多個(gè)工具集成在一起,通過(guò)單個(gè) API 調(diào)用即可完成復(fù)雜的用例。您可以在多模態(tài)直播視頻中查看更多內(nèi)容,嘗試使用 Web console或入門代碼 (Python)。
我們很高興看到初創(chuàng)公司在使用 Gemini 2.0 Flash 方面取得了令人矚目的進(jìn)展,他們正在研發(fā)各種新體驗(yàn)的原型,例如 tldraw 的視覺(jué)游樂(lè)場(chǎng)、Viggle 的虛擬角色創(chuàng)建和音頻旁白、Toonsutra 的情景多語(yǔ)言翻譯以及 Rooms 正在實(shí)現(xiàn)的實(shí)時(shí)音頻功能等。
為了加速開(kāi)發(fā),我們?cè)?Google AI Studio 中發(fā)布了三個(gè)入門級(jí)應(yīng)用體驗(yàn),并提供了空間理解、視頻分析和 Google 地圖探索的開(kāi)源代碼,以便您可以開(kāi)始使用 Gemini 2.0 Flash 進(jìn)行構(gòu)建。
賦能 AI 代碼輔助的演進(jìn)
隨著 AI 代碼輔助功能從簡(jiǎn)單的代碼搜索迅速發(fā)展到嵌入開(kāi)發(fā)者工作流程中的 AI 助手,我們希望分享使用 Gemini 2.0 的最新進(jìn)展: 可以代表您執(zhí)行任務(wù)的編碼智能體。 在我們最新的研究中,我們已能夠使用配備代碼執(zhí)行工具的 2.0 Flash,在 SWE-bench Verified 基準(zhǔn)測(cè)試中達(dá)到 51.8% 的成績(jī),該基準(zhǔn)測(cè)試用于評(píng)估智能體在實(shí)際軟件工程任務(wù)中的表現(xiàn)。Gemini 2.0 Flash 的尖端推理速度使智能體能夠采樣數(shù)百種潛在的解決方案,再根據(jù)現(xiàn)有的單元測(cè)試和 Gemini 自身的判斷來(lái)選擇最佳解決方案。我們正在將這項(xiàng)研究成果轉(zhuǎn)化為新的開(kāi)發(fā)者產(chǎn)品。
認(rèn)識(shí)您的 AI 編碼智能體 Jules
想象一下,您的團(tuán)隊(duì)剛剛完成了一次 Bug Bash,現(xiàn)在有一長(zhǎng)串的 Bug 等著您解決?,F(xiàn)在,您可以將 Python 和 Javascript 編碼任務(wù)分配給 Jules,這是一個(gè)使用 Gemini 2.0 的實(shí)驗(yàn)性 AI 編碼智能體。Jules 可以異步工作,并與您的 GitHub 工作流程集成,處理 Bug 修復(fù)和其他耗時(shí)任務(wù),讓您可以專注于真正想要構(gòu)建的內(nèi)容。Jules 會(huì)創(chuàng)建全面的多步驟計(jì)劃來(lái)解決問(wèn)題,高效地修改多個(gè)文件,甚至還會(huì)準(zhǔn)備拉取請(qǐng)求,以便將修復(fù)直接提交回 GitHub。
Jules 還處于早期階段,但根據(jù)我們內(nèi)部使用 Jules 的經(jīng)驗(yàn),它可為開(kāi)發(fā)者提供:
更高的生產(chǎn)力:將問(wèn)題和編碼任務(wù)分配給 Jules,以提高異步編碼效率。
進(jìn)度跟蹤:通過(guò)實(shí)時(shí)更新,隨時(shí)了解情況并優(yōu)先處理需要您關(guān)注的任務(wù)。
開(kāi)發(fā)者全面掌控:隨時(shí)查看 Jules 制定的方案,并根據(jù)需要提出反饋或進(jìn)行調(diào)整。輕松審查 Jules 編寫的代碼,并在適當(dāng)?shù)臅r(shí)候?qū)⑵浜喜⒌侥捻?xiàng)目中。
我們目前將 Jules 提供給部分受信任的測(cè)試人員,并計(jì)劃將于 2025 年初為其他感興趣的開(kāi)發(fā)者提供該功能。歡迎您在 labs.google.com/jules 上注冊(cè),獲取有關(guān) Jules 的最新進(jìn)展。
Colab 的數(shù)據(jù)科學(xué)智能體
將為您創(chuàng)建 Notebook
在 2024 年的 I/O 大會(huì)上,我們?cè)?labs.google/code 上推出了實(shí)驗(yàn)性的數(shù)據(jù)科學(xué)智能體,任何用戶都可以上傳數(shù)據(jù)集,并在幾分鐘內(nèi)獲得洞察,所有這些都基于可運(yùn)行的 Colab Notebook。我們收到了開(kāi)發(fā)者社區(qū)的積極反饋,并見(jiàn)證了該功能的影響力,這令我們倍感欣喜。例如,在數(shù)據(jù)科學(xué)智能體的幫助下,Lawrence Berkeley 國(guó)家實(shí)驗(yàn)室研究全球熱帶濕地甲烷排放項(xiàng)目的科學(xué)家估計(jì),原本要花一周時(shí)間分析和處理的內(nèi)容,現(xiàn)在只需五分鐘。 Colab 已經(jīng)開(kāi)始使用 Gemini 2.0 整合這些相同的智能體功能。只需用簡(jiǎn)單的語(yǔ)言描述您的分析目標(biāo),就可以自動(dòng)生成 Notebook,幫助您提升研究和數(shù)據(jù)分析的能力。開(kāi)發(fā)者可以通過(guò)加入受信任的測(cè)試人員計(jì)劃來(lái)?yè)屜润w驗(yàn)這項(xiàng)新功能,該功能將于 2025 年上半年更廣泛地面向 Colab 用戶推出。
開(kāi)發(fā)者正在構(gòu)建未來(lái)
我們的 Gemini 2.0 模型可以讓您更快、更輕松地構(gòu)建更強(qiáng)大的 AI 應(yīng)用,讓您可以專注于為用戶打造卓越的體驗(yàn)。我們將在未來(lái)幾個(gè)月內(nèi)把 Gemini 2.0 引入 Android Studio、Chrome DevTools 和 Firebase 等平臺(tái)。開(kāi)發(fā)者可以在 Gemini Code Assist中注冊(cè)以使用 Gemini 2.0 Flash,從而在 Visual Studio Code、IntelliJ、PyCharm 等流行 IDE 中體驗(yàn)增強(qiáng)的代碼輔助功能。您可以訪問(wèn) ai.google.dev 開(kāi)始使用,并關(guān)注 Google AI for Developers,獲取后續(xù)更新。
-
Gemini
+關(guān)注
關(guān)注
0文章
68瀏覽量
7923 -
API
+關(guān)注
關(guān)注
2文章
1620瀏覽量
64049 -
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
279981 -
開(kāi)發(fā)者
+關(guān)注
關(guān)注
1文章
647瀏覽量
17542
原文標(biāo)題:為開(kāi)發(fā)者開(kāi)啟 Gemini 時(shí)代新篇章
文章出處:【微信號(hào):Google_Developers,微信公眾號(hào):谷歌開(kāi)發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論