国产精品嫩草影院色欲,五月丁香网亚洲色

2025年度國際聲學(xué)語音與信號處理會議——ICASSP在印度海得拉巴舉辦，作為語音領(lǐng)域的國際會議，其憑借權(quán)威、廣泛的學(xué)界以及工業(yè)界影響力，備受各方關(guān)注。今年許多學(xué)者因故無法前往印度參加會議?？紤]到廣大學(xué)者的現(xiàn)場交流需求，IEEE信號處理學(xué)會特別安排ICASSP 2025在5月23日-25日于蘇州舉辦衛(wèi)星會議。思必馳-上海交大聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)將參與本次現(xiàn)場交流。

在本次ICASSP 2025會議上，思必馳-上海交大聯(lián)合實(shí)驗(yàn)室共發(fā)表了12篇論文，涵蓋了音頻信息處理、語音喚醒識別、語音合成、多模態(tài)生成等研究方向，實(shí)現(xiàn)了若干針對噪聲環(huán)境、低資源、多語種、多模態(tài)等場景的技術(shù)突破，為思必馳的全鏈路語音語言核心技術(shù)實(shí)力以及業(yè)務(wù)創(chuàng)新能力帶來多重增益。下面介紹本次發(fā)表的部分典型研究成果：

音頻信息處理

Neural Directed Speech Enhancement with Dual Microphone Array in High Noise Scenario

針對多說話人場景實(shí)現(xiàn)了目標(biāo)語音的靈活增強(qiáng)，僅使用雙麥克風(fēng)陣列就顯著提高了語音質(zhì)量和下游任務(wù)的性能，尤其是在極低信噪比條件下表現(xiàn)出色。

工作簡介：在多說話人場景中，利用空間特征對增強(qiáng)目標(biāo)語音極為關(guān)鍵，但麥克風(fēng)陣列有限時，構(gòu)建緊湊的多通道語音增強(qiáng)系統(tǒng)頗具挑戰(zhàn)，極低信噪比下更是難上加難。為此，我們創(chuàng)新提出三導(dǎo)向空間選擇方法，打造靈活框架，用三個導(dǎo)向向量指導(dǎo)增強(qiáng)、界定范圍。具體引入因果導(dǎo)向的U型網(wǎng)絡(luò)（CDUNet）模型，以原始多通道語音與期望增強(qiáng)寬度為輸入，據(jù)此依目標(biāo)方向動態(tài)調(diào)導(dǎo)向向量，結(jié)合目標(biāo)和干擾信號角分離微調(diào)增強(qiáng)區(qū)域。該模型僅憑雙麥克風(fēng)陣列，就在語音質(zhì)量與下游任務(wù)表現(xiàn)上十分出色，還具備實(shí)時操作、參數(shù)少的特性。

語音喚醒識別

NTC-KWS: Noise-aware CTC for Robust Keyword Spotting

針對噪聲環(huán)境下的關(guān)鍵詞識別提出“NTC-KWS”，強(qiáng)化了在車載、家電等噪音場景下的喚醒和識別精準(zhǔn)度，也為資源受限設(shè)備帶來高魯棒性的端到端方案。

工作簡介：當(dāng)前基于CTC的小型化關(guān)鍵詞識別系統(tǒng)在低資源計(jì)算平臺上部署時，因模型尺寸和計(jì)算能力限制，面臨噪聲過擬合問題，導(dǎo)致高誤報(bào)率，尤其在復(fù)雜聲學(xué)環(huán)境下性能顯著下降。因此，我們在CTC-KWS的框架下提出一種噪聲感知關(guān)鍵詞識別系統(tǒng)（NTC-KWS），創(chuàng)新性地引入兩類額外的通配符弧對噪聲進(jìn)行建模：自環(huán)弧處理噪聲導(dǎo)致的插入錯誤，旁路弧應(yīng)對噪聲過大造成的掩蔽和干擾，旨在提高模型在噪聲環(huán)境中的魯棒性。實(shí)驗(yàn)表明，NTC-KWS在各種聲學(xué)條件下優(yōu)于現(xiàn)有端到端系統(tǒng)和CTC-KWS基線，低SNR條件下優(yōu)勢尤為顯著。該工作為資源受限設(shè)備提供了輕量化且高魯棒的關(guān)鍵詞識別方案，其噪聲建模機(jī)制可擴(kuò)展至其他端到端語音敏感任務(wù)。

語音合成

VALL-T: Decoder-Only Generative Transducer for Robust and Decoding-Controllable Text-to-Speech

針對魯棒、可控語音合成提出“VALL-T”（生成式Transducer模型），進(jìn)一步提升了思必馳在多語種、多場景高保真TTS方面的性能穩(wěn)定性。

工作簡介：當(dāng)前基于decoder-only Transformer架構(gòu)的TTS模型缺乏單調(diào)對齊約束，導(dǎo)致發(fā)音錯誤、跳詞和難以停止等幻覺問題，嚴(yán)重制約其實(shí)際應(yīng)用可靠性。

因此，我們提出了VALL-T，即生成式Transducer模型，它為輸入音素序列引入了移位的相對位置編碼，明確地限制了單調(diào)的生成過程，同時保持了decoder-only Transformer的架構(gòu)。實(shí)驗(yàn)表明，我們的模型對幻覺表現(xiàn)出更好的魯棒性，詞錯誤率相對降低了28.3%。此外，還可以通過對齊的可控性實(shí)現(xiàn)跨語言適配和長語音穩(wěn)定合成。

多模態(tài)生成

Smooth-Foley: Creating Continuous Sound for Video-to-Audio Generation Under Semantic Guidance

“Smooth-Foley” 視頻到音頻生成模型，擴(kuò)展了智能汽車、智能家居、虛擬數(shù)字人等垂域解決方案上的產(chǎn)品形態(tài)，為思必馳進(jìn)一步拓展視聽融合交互提供技術(shù)儲備。

工作簡介：視頻到音頻（V2A）生成任務(wù)需同步滿足高精度時間對齊與強(qiáng)語義一致性，但現(xiàn)有方法因低分辨率的語義條件與時間條件不夠精確的限制，難以處理動態(tài)物體視頻中的復(fù)雜聲景生成。因此，我們提出了Smooth-Foley，一種視頻到音頻的生成模型，不僅在生成過程提供文本標(biāo)簽的語義引導(dǎo)，以增強(qiáng)音頻的語義和時間對齊；還通過訓(xùn)練幀適配器和時間適配器以利用預(yù)訓(xùn)練的文本到音頻生成模型。實(shí)驗(yàn)表明，Smooth-Foley在連續(xù)聲音場景和一般場景中均優(yōu)于現(xiàn)有模型。生成的音頻具有更高的質(zhì)量并更好遵循物理規(guī)律。

多模態(tài)生成

SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs

“SLAM-AAC”通過高性能模型、創(chuàng)新的數(shù)據(jù)增強(qiáng)和解碼策略，顯著提升了音頻字幕生成的性能。該項(xiàng)工作是開源項(xiàng)目“SLAM-LLM”的一部分，積極推動多模態(tài)大模型技術(shù)的創(chuàng)新與發(fā)展，促進(jìn)全球研究者的技術(shù)交流與合作。

工作簡介：盡管目前音頻預(yù)訓(xùn)練模型與大語言模型（LLMs）的發(fā)展為自動音頻描述（AAC）提供了更強(qiáng)的音頻理解和文本生成能力，但如何高效對齊多模態(tài)特征并利用有限數(shù)據(jù)仍是關(guān)鍵問題。因此，我們提出SLAM-AAC，通過兩階段創(chuàng)新策略優(yōu)化AAC：首先，借鑒機(jī)器翻譯中的回譯方法，擴(kuò)展Clotho數(shù)據(jù)集的文本多樣性，緩解數(shù)據(jù)稀缺的問題；其次在推理階段引入即插即用的CLAP-Refine方法，從多個束搜索生成的文本描述中選擇與音頻最匹配的描述。實(shí)驗(yàn)表明，SLAM-AAC在Clotho V2和AudioCaps數(shù)據(jù)集上顯著超越主流模型，該工作為小規(guī)模音頻-文本數(shù)據(jù)下的AAC提供了可擴(kuò)展解決方案，使其有可能用于其他多模態(tài)生成任務(wù)。

ICASSP (International Conference on Acoustics, Speech and Signal Processing) 即國際聲學(xué)、語音與信號處理會議，是IEEE（電氣與電子工程師協(xié)會）主辦的全世界最大的，也是最全面的信號處理及其應(yīng)用方面的頂級會議，在國際上享有盛譽(yù)并具有廣泛的學(xué)術(shù)影響力。2025年度ICASSP會議主題是 “Celebrating Signal Processing”，旨在慶祝信號處理領(lǐng)域的卓越成就與創(chuàng)新突破。

長期以來，思必馳深度融入國內(nèi)外學(xué)術(shù)前沿陣地，在 ICASSP、INTERSPEECH、ACL、EMNLP、AAAI 等頂尖學(xué)術(shù)大會上屢創(chuàng)佳績，持續(xù)輸出高質(zhì)量科研成果。思必馳-上海交大聯(lián)合實(shí)驗(yàn)室通過一系列高水準(zhǔn)論文，展現(xiàn)出在人工智能語音語言關(guān)鍵技術(shù)領(lǐng)域的深度探索與重大突破，為行業(yè)發(fā)展注入強(qiáng)勁動力。思必馳堅(jiān)定科研與產(chǎn)業(yè)應(yīng)用密切結(jié)合，也將繼續(xù)探索科技成果的應(yīng)用轉(zhuǎn)化。

作為專業(yè)的對話式人工智能平臺型企業(yè)，思必馳具有源頭技術(shù)創(chuàng)新和應(yīng)用創(chuàng)新的能力，自2022年7月獲國家科技部批準(zhǔn)建設(shè)“語言計(jì)算國家新一代人工智能開放創(chuàng)新平臺”以來，接連于2023-2024年獲批組建蘇州市、江蘇省、長三角三級創(chuàng)新聯(lián)合體，并于2025年攜手上海交通大學(xué)、蘇州大學(xué)，牽頭組建“江蘇省語言計(jì)算及應(yīng)用重點(diǎn)實(shí)驗(yàn)室”，成為國家人工智能戰(zhàn)略科技力量的重要組成部分。

思必馳承擔(dān)了包括國家重點(diǎn)研發(fā)計(jì)劃、國家發(fā)改委“互聯(lián)網(wǎng)+”重大工程和人工智能創(chuàng)新發(fā)展工程、國家工信部人工智能與實(shí)體經(jīng)濟(jì)深度融合項(xiàng)目、長三角科技創(chuàng)新共同體聯(lián)合攻關(guān)計(jì)劃項(xiàng)目等十余項(xiàng)國家級、省部級項(xiàng)目，展現(xiàn)出卓越的科研實(shí)力與項(xiàng)目落地能力。

思必馳深耕語音語言領(lǐng)域，憑借自主研發(fā)的核心技術(shù)多次在國際研究機(jī)構(gòu)評測中奪得冠軍；曾三度斬獲國內(nèi)人工智能最高獎“吳文俊獎”，榮獲中國專利優(yōu)秀獎，以及信通院車載智能語音交互系統(tǒng)最高級別認(rèn)證等重要榮譽(yù)。技術(shù)創(chuàng)新能力備受全球矚目，被高盛全球人工智能報(bào)告列為關(guān)鍵參與者，也被Gartner評為東亞五大明星AI公司之一。

截至2024年年底，思必馳擁有近100項(xiàng)全球獨(dú)創(chuàng)技術(shù)，已授權(quán)知識產(chǎn)權(quán)1597件，其中已授權(quán)發(fā)明專利633項(xiàng)，參與了71項(xiàng)國家/行業(yè)/團(tuán)體標(biāo)準(zhǔn)，獲得23項(xiàng)國家級的產(chǎn)品認(rèn)證。近期，大模型人機(jī)對話技術(shù)創(chuàng)新與產(chǎn)業(yè)賦能發(fā)展提速，思必馳堅(jiān)持自主的大模型技術(shù)路線，即“構(gòu)建可靠性優(yōu)先的1+N分布式智能體系統(tǒng)：1 個中樞大模型+ N 個垂域模型及全鏈路交互組件組成全功能系統(tǒng)”，以任務(wù)型交互為核心，結(jié)合智能硬件感知優(yōu)勢，構(gòu)建垂域大模型和中樞大模型系統(tǒng)，服務(wù)企業(yè)客戶。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

音頻

音頻

+關(guān)注

關(guān)注
30

文章
3042

瀏覽量
83441
信息處理

信息處理

+關(guān)注

關(guān)注
0

文章
36

瀏覽量
10221
思必馳

思必馳

+關(guān)注

關(guān)注
4

文章
337

瀏覽量
15334

原文標(biāo)題：ICASSP2025蘇州衛(wèi)星會議｜思必馳-上海交大聯(lián)合實(shí)驗(yàn)室12篇論文將于語音技術(shù)頂會現(xiàn)場交流

文章出處：【微信號：思必馳，微信公眾號：思必馳】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

思必馳與上海交大聯(lián)合實(shí)驗(yàn)室12篇論文被ICASSP 2025收錄

評論