作者 / 開發(fā)者關(guān)系工程師 Terence Zhang 和產(chǎn)品經(jīng)理 Kristi Bradford
Google Pixel 的 Recorder 應(yīng)用允許用戶錄制、轉(zhuǎn)錄、保存和共享音頻。為了讓用戶更輕松地管理和回顧自己的錄音,Recorder 的開發(fā)者將目光鎖定在功能強(qiáng)大的設(shè)備端大語言模型 (LLM) Gemini Nano 上。這一集成引入了 AI 驅(qū)動(dòng)的音頻摘要功能,幫助用戶更輕松地找到所需的錄音并快速掌握內(nèi)容要點(diǎn)。
近期,隨著引入新的多模態(tài)模型,Gemini Nano 實(shí)力大增。Recorder 應(yīng)用已經(jīng)在利用此升級(jí)來提煉更長的錄音,并提升了對語法和細(xì)節(jié)的處理能力。
使用設(shè)備端 AI 滿足用戶需求
Recorder 的開發(fā)者最初嘗試了基于云端的解決方案,在性能和質(zhì)量方面取得了卓越的成果。然而,為了優(yōu)先考慮用戶的無障礙和隱私需求,他們轉(zhuǎn)而尋求一種設(shè)備端解決方案。Gemini Nano 提供了一個(gè)絕佳機(jī)會(huì),可以提供用戶所需的簡潔音頻摘要,與此同時(shí)還能保持在設(shè)備端進(jìn)行數(shù)據(jù)處理。
Gemini Nano 是 Google 為設(shè)備端任務(wù)打造的最高效的模型。Pixel essential 應(yīng)用產(chǎn)品經(jīng)理 Kristi Bradford 表示: "在設(shè)備端集成 LLM 對用戶有很多好處,能為用戶提供更高隱私性、更低延遲,而且由于不需要網(wǎng)絡(luò),用戶在任何地方都能使用。"
為了取得更好的效果,Recorder 還使用與其用例相匹配的數(shù)據(jù)對模型進(jìn)行了微調(diào)。開發(fā)者采用低秩適應(yīng) (LoRA) 技術(shù)進(jìn)行微調(diào),從而讓 Gemini Nano 能夠穩(wěn)定地輸出包含相關(guān)發(fā)言人姓名、內(nèi)容要點(diǎn)和主題在內(nèi)的三點(diǎn)描述。
AICore 是一種 Android 系統(tǒng)服務(wù),可集中管理 LLM 的運(yùn)行時(shí)、交付和關(guān)鍵安全組件,大幅簡化了 Recorder 對 Gemini Nano 的使用。借助用于運(yùn)行 GenAI 工作負(fù)載的開發(fā)者 SDK,開發(fā)團(tuán)隊(duì)僅依靠四名開發(fā)者,在短短四個(gè)月內(nèi)便開發(fā)了轉(zhuǎn)錄摘要功能。而這樣的效率,正是由于無需維護(hù)內(nèi)部模型所實(shí)現(xiàn)的。
自 Recorder 發(fā)布以來,用戶平均每天使用 2 到 5 次新的 AI 摘要功能,保存的錄音總數(shù)增加了 24%。這一功能顯著提高了應(yīng)用的總體參與度和用戶留存率。Recorder 團(tuán)隊(duì)還指出,用戶對新功能給予了正面反饋,許多用戶表示新的 AI 摘要功能為他們節(jié)省了大量時(shí)間。
下一項(xiàng)重大進(jìn)展:
多模態(tài) Gemini Nano
Recorder 的開發(fā)者還采用了最新的 Gemini Nano 模型,即多模態(tài) Gemini Nano,以進(jìn)一步改進(jìn)該應(yīng)用在 Pixel 9 設(shè)備上的摘要功能。新模型比 Pixel 8 設(shè)備上的舊模型大很多,而且功能更強(qiáng)大、結(jié)果更準(zhǔn)確、擴(kuò)展能力更出色。新模型還擴(kuò)展了令牌 (token) 支持,讓 Recorder 可以提煉比以前更長的轉(zhuǎn)錄文本。
將 Gemini Nano 與多模態(tài)集成需要再進(jìn)行一輪微調(diào)。不過,Recorder 的開發(fā)者得以利用原始 Gemini Nano 模型的微調(diào)數(shù)據(jù)集作為基礎(chǔ),從而簡化了開發(fā)過程。
為了充分發(fā)揮新模型的功能,Recorder 開發(fā)者擴(kuò)大了數(shù)據(jù)集,支持更長的錄音,實(shí)施了完善的評估方法,并建立了側(cè)重于語法和細(xì)節(jié)的發(fā)布標(biāo)準(zhǔn)指標(biāo)。將語法作為評估推理質(zhì)量的新指標(biāo),完全得益于多模態(tài) Gemini Nano 的增強(qiáng)功能。
使用設(shè)備上的 AI 實(shí)現(xiàn)更多功能
Kristi 表示:"生成式 AI 是一項(xiàng)新的功能,整個(gè)團(tuán)隊(duì)都在學(xué)習(xí)使用它的過程中收獲了樂趣?,F(xiàn)在,我們有能力在滿足用戶新需求和把握新機(jī)遇的同時(shí),突破極限。生成式 AI 確實(shí)為解決問題和開展實(shí)驗(yàn)帶來了全新的創(chuàng)造力。我們已經(jīng)演示了至少兩項(xiàng)生成式 AI 功能,它們可以幫助人們在公司內(nèi)部節(jié)省時(shí)間,以獲得早期反饋。我們很期待看到未來的更多可能性。"
-
Google
+關(guān)注
關(guān)注
5文章
1789瀏覽量
59031 -
Gemini
+關(guān)注
關(guān)注
0文章
68瀏覽量
7923 -
模型
+關(guān)注
關(guān)注
1文章
3521瀏覽量
50421 -
Pixel
+關(guān)注
關(guān)注
1文章
238瀏覽量
10533
原文標(biāo)題:Pixel 的 Recorder 應(yīng)用通過 Gemini Nano 將用戶參與度顯著提升了 24%
文章出處:【微信號(hào):Google_Developers,微信公眾號(hào):谷歌開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
小程序開發(fā)必須知道的5個(gè)技巧:提升效率與用戶體驗(yàn)的權(quán)威指南
Android16 Beta 1來襲,谷歌Pixel 6用戶搶先體驗(yàn)
蘋果為谷歌支付數(shù)十億美元辯護(hù),參與搜索案反壟斷審判
TMS320C3x通用應(yīng)用用戶指南

評論