資料介紹
本文以開發(fā)印尼語語音合成系統(tǒng)為目的,研究印尼語文本分析與處理方法,主要研究了文本歸一化和音節(jié)劃分方法。采用正則表達及關(guān)鍵字相結(jié)合的方法,對文本中數(shù)字及特殊字符進行歸一化處理;采用基于音節(jié)列表及特殊規(guī)則相結(jié)合的方案實現(xiàn)音節(jié)劃分。從發(fā)音語料庫中挑選出500個包含特殊字符的句子進行歸一化測試,按特殊字符詞數(shù)統(tǒng)計的正確率達96.0%。選取詞典中的1000個單詞進行集內(nèi)測試,其音節(jié)化結(jié)果和人工劃分結(jié)果相比,正確率為98.2%;從文本語料庫中任意選取480個句子共計5850個單詞進行集外測試,其正確率為97.1%。實驗結(jié)果表明,上述方法為印尼語音合成系統(tǒng)的開發(fā)奠定了良好的基礎(chǔ)。
目前印尼語公開發(fā)布的語料庫是從一部流行的印度尼西亞小說中提取并以男女對話的方式進行錄音的,該語料庫的覆蓋范圍較窄。對于印尼語語音合成系統(tǒng),Mengko 和Ayuningtyas 研究了基于音節(jié)拼接的印尼語文語轉(zhuǎn)換系統(tǒng),其主要針對音節(jié)聲音數(shù)據(jù)庫質(zhì)量和播放過程中音節(jié)的整合問題進行改進,但該系統(tǒng)音節(jié)列表不全且未考慮音節(jié)組合的韻律特征。Sutarman 研究了使用雙音素拼接的印尼語文語轉(zhuǎn)換系統(tǒng),此系統(tǒng)在構(gòu)造雙音素數(shù)據(jù)庫和文本到語音的過程中發(fā)現(xiàn),在音素表中查找單詞時不夠精確,并且在分割過程中,使用雙音素進行切分得到的結(jié)果也不盡如人意。
?
本文聚焦于印尼語語音合成系統(tǒng)中的前端文本分析模塊,著重關(guān)注文本語料庫中數(shù)字及特殊字符的歸一化以及基于音節(jié)列表和特殊規(guī)則相結(jié)合的印尼語音節(jié)的自動劃分。
本文的結(jié)構(gòu)如下:第1 節(jié)為印尼語的簡單概述;第2 節(jié)對印尼語發(fā)音語料庫的構(gòu)建進行闡述;第3節(jié)介紹了印尼語中非標準詞的歸一化方法;第4 節(jié)介紹印尼語的音節(jié)劃分;第5 節(jié)對整個實驗過程進行了總結(jié)。
- 基于注意力機制的新聞文本分類模型 30次下載
- 基于LSTM的表示學(xué)習-文本分類模型 18次下載
- 基于主題分布優(yōu)化的模糊文本分類方法 5次下載
- 基于不同神經(jīng)網(wǎng)絡(luò)的文本分類方法研究對比 49次下載
- 融合文本分類和摘要的多任務(wù)學(xué)習摘要模型 11次下載
- 一種基于BERT模型的社交電商文本分類算法 8次下載
- 一種面向鐵路文本分類的字符級特征提取方法 10次下載
- 集成WL-CNN和SL-Bi-LSTM的旅游問句文本分類算法 6次下載
- 結(jié)合BERT模型的中文文本分類算法 6次下載
- 基于深度神經(jīng)網(wǎng)絡(luò)的文本分類分析 37次下載
- 如何進行馬來語語音合成系統(tǒng)的設(shè)計與實現(xiàn)概述 4次下載
- 如何使用Spark計算框架進行分布式文本分類方法的研究 3次下載
- 傣語語音合成中的文本歸一化方法 0次下載
- 讓機器說話更自然 語音合成還能干什么? 0次下載
- 基于文章標題信息的漢語自動文本分類
- 自然語言處理過程的五個層次 751次閱讀
- 卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用 782次閱讀
- 人工智能中文本分類的基本原理和關(guān)鍵技術(shù) 1361次閱讀
- 文本分類中處理樣本不均衡和提升模型魯棒性的trick 1076次閱讀
- 樂鑫語音助手框架ESP-Skainet的中文語音合成例程 2334次閱讀
- 帶你從頭構(gòu)建文本分類器 3642次閱讀
- 基于中文語音合成模塊XF-S4240實現(xiàn)語音車載終端的設(shè)計 3947次閱讀
- 訓(xùn)練一個機器學(xué)習模型,實現(xiàn)了根據(jù)基于文本分析預(yù)測葡萄酒質(zhì)量 6188次閱讀
- Python文本預(yù)處理的基本步驟,討論文本預(yù)處理過程所需要的工具 4913次閱讀
- 如何為文本分類任務(wù)選擇正確的模型,這里有一個完整流程圖! 1.2w次閱讀
- XF-S4240中文語音合成模塊原理簡介及分析 4340次閱讀
- 文本數(shù)據(jù)分析:文本挖掘還是自然語言處理? 1.7w次閱讀
- 詳細解析WORLD語音合成系統(tǒng)的原理以及使用方法 1.6w次閱讀
- Python的幾個自然語言處理工具介紹 5352次閱讀
- 基于數(shù)字信號處理器的中文語音合成系統(tǒng)設(shè)計 2017次閱讀
評論