資訊
頻道
當(dāng)前位置:首頁 > 醫(yī)療器械資訊 > 技術(shù)前沿 > 復(fù)旦大學(xué)團(tuán)隊研發(fā)AI大模型 助視障者“看見”世界

復(fù)旦大學(xué)團(tuán)隊研發(fā)AI大模型 助視障者“看見”世界

文章來源:全球醫(yī)療器械網(wǎng)發(fā)布日期:2024-03-04瀏覽次數(shù):24
核心提示:在復(fù)旦大學(xué)自然語言處理實驗室(FudanNLP)師生的努力下,基于多模態(tài)大模型“復(fù)旦·眸思”(MouSi)為視障者量身打造的“聽見世界”APP上線,將成為視障人士的生活助手與智能管家。

只需一枚攝像頭和一對耳機(jī),畫面能夠被轉(zhuǎn)化成語言,描繪場景、提示風(fēng)險,讓視障者出行、生活更便捷……記者2日獲悉,在復(fù)旦大學(xué)自然語言處理實驗室(FudanNLP)師生的努力下,基于多模態(tài)大模型“復(fù)旦·眸思”(MouSi)為視障者量身打造的“聽見世界”APP上線,將成為視障人士的生活助手與智能管家。


2023年上半年,復(fù)旦大學(xué)自然語言處理實驗室發(fā)布了開發(fā)MOSS對話式大型語言模型,被稱為中國版的GPT,僅用半年時間多模態(tài)模型“眸思”問世。據(jù)介紹,“眸思”和基于文本的MOSS不同,它能夠理解并識別圖片內(nèi)容,致力于成為視障者的一雙“眸”。


基于“眸思”,“聽見世界”APP為視障者日常生活需求量身打造街道行走模式、自由問答模式和尋物模式。在街道行走模式中,“眸思”如一位忠實的向?qū)А<t綠燈、十字路口、障礙物……它能細(xì)致掃描道路情況,提示潛在風(fēng)險,陪伴視障者安全通行“看不見”的漫漫長路。


在自由問答模式中,“眸思”則像一位貼心的朋友,走進(jìn)博物館、藝術(shù)館、公園……捕捉四周景象的每個細(xì)節(jié),用聲音構(gòu)建豐富的生活場景,傳遞每一處日常之美。在尋物模式中,“眸思”將成為一名可靠的管家,被移動過的手杖、愛口味的牛奶……它可以讓視障人士找尋日常物件變得輕松。


復(fù)旦大學(xué)自然語言處理實驗室張奇教授說:“人工智能發(fā)展日新月異,科技應(yīng)該要改變更多人的生活,希望‘眸思’能夠幫助視障人士走出家門,讓他們可以嘗試更多工作,為人生書寫更多可能。”據(jù)介紹,該項目的主導(dǎo)者都是“初出茅廬”的學(xué)生們,在組內(nèi)頭腦風(fēng)暴會上,年輕學(xué)子總能提出開創(chuàng)性想法,能夠找到另辟蹊徑的解決辦法。


自去年9月以來,復(fù)旦大學(xué)自然語言處理實驗室圍繞GPT4-v復(fù)現(xiàn)多模態(tài)大模型,對核心關(guān)鍵點開展研究,希望提升單項任務(wù)的準(zhǔn)確率和強(qiáng)化大模型的學(xué)習(xí)。為了更好地感受視障者的難處,團(tuán)隊成員模擬真實情境,蒙眼探索視障者“黑暗”世界。他們邀請視障人士加入,進(jìn)一步摸清真實而具體的需求。


在基于幾億張圖片訓(xùn)練出“眸思”大模型基礎(chǔ)上,針對視障者提出的各類需求,團(tuán)隊又用上萬張圖片進(jìn)行特殊樣本訓(xùn)練,使“眸思”具備能夠適配更多場景的能力。據(jù)透露,今年上半年,團(tuán)隊將結(jié)合AR升級APP內(nèi)的定位精度細(xì)化至亞米級別。下半年,團(tuán)隊希望將“眸思”升級為基于視頻的判斷。目前,更多模式正在開發(fā)中,比如,閱讀模式、解說模式等。


據(jù)了解,團(tuán)隊計劃與NGO組織、智算中心和硬件廠商等開展合作,致力于讓視障者免費使用產(chǎn)品和相關(guān)服務(wù)。預(yù)計今年3月“聽見世界”APP將完成第一輪測試,在中國一、二線城市和地區(qū)同步開啟試點,根據(jù)算力部署情況進(jìn)行推廣。