51成人社区视频,国产精品毛片精品一区二区三区,亚洲综合在线视频在线观看

近日，計(jì)算語言學(xué)與自然語言處理領(lǐng)域全球頂級會議ACL 2025及語音研究領(lǐng)域旗艦會議INTERSPEECH 2025相繼公布論文錄用結(jié)果。思必馳-上海交大聯(lián)合實(shí)驗(yàn)室表現(xiàn)亮眼，共有13篇論文被兩大會議收錄！

ACL是中國計(jì)算機(jī)學(xué)會（CCF）推薦的A類頂級國際學(xué)術(shù)會議，代表著計(jì)算語言學(xué)和自然語言處理領(lǐng)域的最高水平。INTERSPEECH由國際語音通信協(xié)會（ISCA）主辦，是全球最大、最綜合性的語音信號處理領(lǐng)域科技盛會。

本次收錄的論文成果涵蓋了大模型檢索增強(qiáng)生成、語音編解碼與表示學(xué)習(xí)、低延遲語音合成、低資源語音識別、可靠音頻語言模型等前沿方向，在多模態(tài)檢索增強(qiáng)生成、說話人解耦低比特率編碼、高效非自回歸語音合成、大規(guī)模低資源語料庫構(gòu)建與自訓(xùn)練、模型可靠性增強(qiáng)等關(guān)鍵技術(shù)上取得重要突破。這些研究共同推動高效、可靠、低資源友好的智能語音語言技術(shù)發(fā)展，為思必馳的全鏈路語音語言核心技術(shù)實(shí)力以及業(yè)務(wù)創(chuàng)新能力帶來多重增益。以下為部分成果介紹：

面向長文檔問答的大模型可靠檢索

NeuSym-RAG: Hybrid Neural Symbolic Retrieval with Multiview Structuring for PDF Question Answering

NeuSym-RAG在自建數(shù)據(jù)集AIRQA-Real上以17.3%絕對優(yōu)勢超越經(jīng)典RAG，通過神經(jīng)與符號檢索協(xié)同、多視角結(jié)構(gòu)化解析，讓企業(yè)級大模型在處理海量半結(jié)構(gòu)化文檔時(shí)保持高可靠性與可擴(kuò)展性，同時(shí)兼具成本可控能力。

論文簡介：基于大語言模型（LLM）的檢索增強(qiáng)生成（RAG）技術(shù)在自動問答任務(wù)中展現(xiàn)出廣闊前景，但現(xiàn)有方法往往將神經(jīng)檢索與符號檢索割裂處理，未能充分發(fā)揮二者的互補(bǔ)優(yōu)勢。此外，傳統(tǒng)的單視角文本切分方式忽略了PDF文檔中豐富的結(jié)構(gòu)與版面信息，如章節(jié)、表格等。為此，本文提出NeuSym-RAG，一種神經(jīng)-符號融合的混合式檢索框架，在智能體與知識庫的交互中結(jié)合兩種檢索范式。該方法通過多視角元素切分與基于數(shù)據(jù)庫模式的解析，將半結(jié)構(gòu)化PDF中的內(nèi)容同時(shí)組織進(jìn)關(guān)系型數(shù)據(jù)庫與向量庫中，使得大模型智能體能夠迭代式地檢索上下文，直至獲取足夠信息以生成答案。在三個(gè)基于完整 PDF 的問答數(shù)據(jù)集（包括一個(gè)自建的學(xué)術(shù)問答集 AIRQA-REAL）上的實(shí)驗(yàn)表明，NeuSym-RAG 穩(wěn)定優(yōu)于僅基于向量的RAG方法和多種結(jié)構(gòu)化基線，證明了其在統(tǒng)一檢索機(jī)制與多視角利用方面的優(yōu)勢。

低碼率語音傳輸

LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec

LSCodec 提出了一種超低比特率且說話人解耦的離散語音編解碼器，在保證聽感的前提下顯著壓縮語音編碼，并把說話人信息與內(nèi)容徹底分離，讓云端或邊緣設(shè)備都能以更低帶寬、更小模型安全傳輸和生成高品質(zhì)語音。

論文簡介：盡管離散語音標(biāo)記在基于語言模型的語音生成方面展現(xiàn)出強(qiáng)大潛力，但其高比特率和冗余的音色信息限制了此類模型的發(fā)展。在這項(xiàng)工作中，我們提出了LSCodec，一種兼具低比特率和說話人解耦能力的離散語音編解碼器。LSCodec采用多階段無監(jiān)督訓(xùn)練框架并結(jié)合說話人擾動技術(shù)。首先建立一個(gè)連續(xù)信息瓶頸，然后通過向量量化生成一個(gè)離散的說話人解耦空間。最后，一個(gè)離散標(biāo)記聲碼器從LSCodec中細(xì)化聲學(xué)細(xì)節(jié)。通過重建評估，LSCodec在僅使用單個(gè)碼本和比基線更小的詞匯量的情況下，展現(xiàn)出卓越的可懂度和音頻質(zhì)量。語音轉(zhuǎn)換和說話人探測實(shí)驗(yàn)證明了LSCodec出色的說話人解耦能力，消融研究驗(yàn)證了所提出訓(xùn)練框架的有效性。

低延遲語音合成

Unlocking Temporal Flexibility: Neural Speech Codec with Variable Frame Rate

提出TFC（時(shí)序靈活編碼）技術(shù)，首次將可變幀率（VFR）引入神經(jīng)語音編解碼器，讓語音編碼“按需給幀”，在保持音質(zhì)的同時(shí)顯著縮短傳輸/推理序列，實(shí)現(xiàn)實(shí)時(shí)語音服務(wù)的更快響應(yīng)和更低云成本。

論文簡介：大多數(shù)神經(jīng)語音編解碼器通過幀內(nèi)機(jī)制（例如碼本丟棄）在恒定幀率（CFR）下實(shí)現(xiàn)比特率調(diào)整。然而，語音段本身具有時(shí)變的信息密度（例如靜音區(qū)間與有聲段）。這一特性使得CFR在比特率和詞元序列長度方面并非最優(yōu)，影響了實(shí)時(shí)應(yīng)用的效率。在本工作中，我們提出了一種時(shí)序靈活編碼（Temporally Flexible Coding, TFC）技術(shù)，首次將可變幀率（VFR）引入神經(jīng)語音編解碼器。TFC支持無縫調(diào)整平均幀率，并基于時(shí)序熵動態(tài)分配幀率。實(shí)驗(yàn)結(jié)果表明，采用TFC的編解碼器能以高度靈活性實(shí)現(xiàn)最優(yōu)重建質(zhì)量，并在較低幀率下保持競爭力。該方法有望與其他低幀率神經(jīng)語音編解碼技術(shù)結(jié)合，為下游任務(wù)提供更高效的解決方案。

長期以來，思必馳深度參與國內(nèi)外學(xué)術(shù)前沿研究，在ICASSP、INTERSPEECH、ACL、EMNLP、AAAI、ICML等頂級學(xué)術(shù)會議上屢獲佳績，持續(xù)產(chǎn)出高質(zhì)量科研成果。思必馳-上海交大聯(lián)合實(shí)驗(yàn)室憑借一系列高水平論文，彰顯了在人工智能語音語言關(guān)鍵技術(shù)領(lǐng)域的深度探索和重大突破，為行業(yè)的發(fā)展注入了強(qiáng)大動力。思必馳秉持科研與產(chǎn)業(yè)應(yīng)用緊密結(jié)合的理念，未來也將持續(xù)探索科技成果的應(yīng)用轉(zhuǎn)化。

作為專業(yè)的對話式人工智能平臺型企業(yè)，思必馳具有源頭技術(shù)創(chuàng)新和應(yīng)用創(chuàng)新的能力，自2022年7月獲國家科技部批準(zhǔn)建設(shè)“語言計(jì)算國家新一代人工智能開放創(chuàng)新平臺”以來，接連于2023-2024年獲批組建蘇州市、江蘇省、長三角三級創(chuàng)新聯(lián)合體，并于2025年攜手上海交通大學(xué)、蘇州大學(xué)，牽頭組建“江蘇省語言計(jì)算及應(yīng)用重點(diǎn)實(shí)驗(yàn)室”，成為國家人工智能戰(zhàn)略科技力量的重要組成部分。

思必馳承擔(dān)了包括國家重點(diǎn)研發(fā)計(jì)劃、國家發(fā)改委“互聯(lián)網(wǎng)+”重大工程和人工智能創(chuàng)新發(fā)展工程、國家工信部人工智能與實(shí)體經(jīng)濟(jì)深度融合項(xiàng)目、長三角科技創(chuàng)新共同體聯(lián)合攻關(guān)計(jì)劃項(xiàng)目等十余項(xiàng)國家級、省部級項(xiàng)目，展現(xiàn)出卓越的科研實(shí)力與項(xiàng)目落地能力。

思必馳深耕語音語言領(lǐng)域，憑借自主研發(fā)的核心技術(shù)多次在國際研究機(jī)構(gòu)評測中奪得冠軍；曾三度斬獲國內(nèi)人工智能最高獎“吳文俊獎”，榮獲中國專利優(yōu)秀獎，以及信通院車載智能語音交互系統(tǒng)最高級別認(rèn)證等重要榮譽(yù)。技術(shù)創(chuàng)新能力備受全球矚目，被高盛全球人工智能報(bào)告列為關(guān)鍵參與者，也被Gartner評為東亞五大明星AI公司之一。

截至2024年年底，思必馳擁有近100項(xiàng)全球獨(dú)創(chuàng)技術(shù)，已授權(quán)知識產(chǎn)權(quán)1597件，其中已授權(quán)發(fā)明專利633項(xiàng)，參與了71項(xiàng)國家/行業(yè)/團(tuán)體標(biāo)準(zhǔn)，獲得23項(xiàng)國家級的產(chǎn)品認(rèn)證。近期，大模型人機(jī)對話技術(shù)創(chuàng)新與產(chǎn)業(yè)賦能發(fā)展提速，思必馳堅(jiān)持自主的大模型技術(shù)路線，即“構(gòu)建可靠性優(yōu)先的1+N分布式智能體系統(tǒng)：1 個(gè)中樞大模型+ N 個(gè)垂域模型及全鏈路交互組件組成全功能系統(tǒng)”，以任務(wù)型交互為核心，結(jié)合智能硬件感知優(yōu)勢，構(gòu)建垂域大模型和中樞大模型系統(tǒng)，服務(wù)企業(yè)客戶。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1806

文章
49011

瀏覽量
249374
思必馳

思必馳

+關(guān)注

關(guān)注
4

文章
337

瀏覽量
15325
自然語言

自然語言

+關(guān)注

關(guān)注
1

文章
292

瀏覽量
13654
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3139

瀏覽量
4063

原文標(biāo)題：ACL2025 + INTERSPEECH2025｜思必馳-上海交大聯(lián)合實(shí)驗(yàn)室13篇論文被收錄

文章出處：【微信號：思必馳，微信公眾號：思必馳】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

思必馳與上海交大聯(lián)合實(shí)驗(yàn)室研究成果入選兩大頂級會議

評論