導(dǎo)盲犬可以很好地幫助盲人或視障人士出行,但是如果想辨別出前面路口的標(biāo)識(shí),或者想知道錢包里還有多少錢,導(dǎo)盲犬可就辦不到了。
由微軟AI研究小組開發(fā)的應(yīng)用程序Seeing AI為這個(gè)問題給出了解決方案。該應(yīng)用程序可為盲人和弱視用戶描述這個(gè)世界,使他們可以使用自己的智能手機(jī)來識(shí)別一切:包括單個(gè)物體、顏色、鈔票、文檔等。
自去年問世以來,這一應(yīng)用程序的下載量已突破15萬次,執(zhí)行任務(wù)500萬次,其中一些任務(wù)的服務(wù)對(duì)象還是全球知名的盲人。
“Stevie Wonder(美國(guó)知名藝人)每天都會(huì)用,這確實(shí)很令人振奮。”微軟高級(jí)數(shù)據(jù)科學(xué)家Anirudh Koul在3月于圣何塞舉行的GPU技術(shù)大會(huì)上發(fā)表演講時(shí)說道。
該應(yīng)用程序的現(xiàn)場(chǎng)演示就已展現(xiàn)出了其強(qiáng)大的功能。和Koul一同上臺(tái)的還有他的一位同事,當(dāng)他在自己的智能手機(jī)上運(yùn)行應(yīng)用程序,并將手機(jī)朝向他的同事時(shí),應(yīng)用程序描述他看到的是“一位31歲、有著黑頭發(fā)、戴著眼鏡且看起來很開心的男士”。
如果這位同事在他的聯(lián)系人列表中,則有更佳的使用效果,因?yàn)镾eeing AI可以與用戶的聯(lián)系人進(jìn)行整合,并能識(shí)別出朋友的名字。
Koul還分享了幾個(gè)令人嘆服的使用案例:一位盲人教師將運(yùn)行該應(yīng)用的手機(jī)面朝教室門口,這樣孩子們就不會(huì)因她是盲人而趁機(jī)偷偷進(jìn)出教室;另一位用戶在颶風(fēng)肆虐的地區(qū)穿行時(shí),利用這款應(yīng)用程序避開了倒落的電線和其他障礙物。
Seeing AI的開發(fā)始于2014年2月,開發(fā)人員曾試圖創(chuàng)建一個(gè)能發(fā)現(xiàn)并識(shí)別周圍物體的卷積神經(jīng)網(wǎng)絡(luò)。但是其延遲時(shí)間達(dá)10秒,這樣的速度不能及時(shí)幫助人們快速作出決策。
第二年,微軟贊助了一場(chǎng)為期一周的黑客馬拉松,活動(dòng)共吸引了13000人參與,并由此引發(fā)了第二次嘗試:在用戶的頭上配備手機(jī)。
在使用智能眼鏡進(jìn)行試驗(yàn)后,Koul的團(tuán)隊(duì)開始著手于應(yīng)用程序本身的開發(fā)工作。網(wǎng)絡(luò)本地訓(xùn)練過程在NVIDIA GPU上進(jìn)行,而較為繁重的工作則交給了基于NVIDIA Tesla P100 GPU運(yùn)行的Azure云實(shí)例。通過逐幀分析確定每一部分訓(xùn)練的發(fā)生位置。
AI調(diào)優(yōu)
應(yīng)用程序需要辨別不同圖像,而圖像屬性具有不確定性,所以開發(fā)人員針對(duì)此特性對(duì)模型進(jìn)行了訓(xùn)練。例如,如果訓(xùn)練應(yīng)用程序識(shí)別貨幣,則需要向訓(xùn)練網(wǎng)絡(luò)內(nèi)輸入不清晰和無背景的貨幣圖片,以及貨幣某一極小部分放大后的圖片,再讓其識(shí)別出圖片的真實(shí)內(nèi)容。
該團(tuán)隊(duì)向志愿者征集,最終得到了各種類型的圖片,其中包括一張貓咪玩紙幣的圖片,以及紙幣被封在冰塊中的照片。通過這些變量對(duì)模型進(jìn)行訓(xùn)練,最終就能夠計(jì)算出識(shí)別圖片所需的最小參數(shù)。
Koul的團(tuán)隊(duì)對(duì)網(wǎng)絡(luò)進(jìn)行了調(diào)整,使其傾向于得出否定性分類或不分類的結(jié)果,而不是猜測(cè)結(jié)果(這樣可能將5元鈔票識(shí)別成10元),因?yàn)椴聹y(cè)很顯然會(huì)給盲人用戶造成麻煩。
隨著用戶人數(shù)的增多,這款應(yīng)用程序也將變得越好、越準(zhǔn)確。AI將會(huì)成為盲人和視障用戶的福音。
-
智能手機(jī)
+關(guān)注
關(guān)注
66文章
18621瀏覽量
183742 -
AI
+關(guān)注
關(guān)注
88文章
35041瀏覽量
279135
原文標(biāo)題:重見光明:深度學(xué)習(xí)幫助盲人“看”到世界
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
AI智能體對(duì)電子企業(yè)的幫助是什么

機(jī)器人和自動(dòng)化的未來(2)

NVIDIA Cosmos加速機(jī)器人和自動(dòng)駕駛汽車物理AI發(fā)展

英偉達(dá)GTC2025亮點(diǎn) NVIDIA推出Cosmos世界基礎(chǔ)模型和物理AI數(shù)據(jù)工具的重大更新
Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計(jì)算與嵌入式開發(fā)
《零基礎(chǔ)開發(fā)AI Agent——手把手教你用扣子做智能體》
中興通訊亮相2025年世界移動(dòng)通信大會(huì)
《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開發(fā)視頻應(yīng)用
FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預(yù)測(cè)......
傳音深耕小語種AI語音技術(shù) 賦能新興市場(chǎng)用戶智慧生活

AI賦能邊緣網(wǎng)關(guān):開啟智能時(shí)代的新藍(lán)海
全球手機(jī)用戶2024年為AI應(yīng)用消費(fèi)超12億美元
AI基礎(chǔ)數(shù)據(jù)服務(wù)是AI產(chǎn)業(yè)的關(guān)鍵支撐

評(píng)論