婷婷免费高清视频在线观看,亚洲午夜在线一区,免费高清日本中文,精品一区久久,久久不射影院,玖玖国产精品,性感大胸美女比基尼

<abbr id="e6mu4"><center id="e6mu4"></center></abbr>

<td id="e6mu4"></td>

SpeechGen：用Prompt解鎖語音語言模型生成能力

CSDN
2023-06-19 22:04:40

(資料圖片)

本文分享了一個創(chuàng)新的統(tǒng)一框架，SpeechGen，旨在激發(fā)語音語言模型進(jìn)行生成任務(wù)的潛力。提出該框架的團(tuán)隊是來自臺灣大學(xué)李宏毅老師團(tuán)隊，作者均是臺灣大學(xué)在讀博士，分別是語音實驗室成員吳海斌、Kai-Wei Chang和Yuan-Kuei Wu。

論文鏈接：https://arxiv.org/pdf/2306.02207.pdf

Demo: https://ga642381.github.io/SpeechPrompt/speechgen.html

Code: https://github.com/ga642381/SpeechGen

作者 | 臺灣大學(xué)語音實驗室責(zé)編 | 夏萌出品 | CSDN（ID：CSDNnews）引言與動機(jī)大型語言模型（LLMs）在人工智能生成內(nèi)容（AIGC）方面引起了相當(dāng)大的關(guān)注，特別是隨著 ChatGPT 的出現(xiàn)。然而，如何用大型語言模型處理連續(xù)語音仍然是一個未解決的挑戰(zhàn)，這一挑戰(zhàn)阻礙了大型語言模型在語音生成方面的應(yīng)用。因為語音信號包含豐富的信息，包括說話者和情感，超越了純文本數(shù)據(jù)，基于語音的語言模型（Speech Language Model, Speech LM）不斷涌現(xiàn)。雖然與基于文本的語言模型相比，語音語言模型仍處于早期階段，但由于語音數(shù)據(jù)中蘊含著比文本更豐富的信息，它們具備巨大的潛力，令人充滿期待。研究人員們正積極探索提示（prompt）范式的潛力，以發(fā)揮預(yù)訓(xùn)練語言模型的能力。這種提示通過微調(diào)少量參數(shù)，引導(dǎo)預(yù)訓(xùn)練語言模型做特定的下游任務(wù)。這種技術(shù)因其高效和有效而在 NLP領(lǐng)域備受青睞。在語音處理領(lǐng)域，SpeechPrompt 展示出了在參數(shù)效率方面的顯著改進(jìn)，并在各種語音分類任務(wù)中取得了競爭性的表現(xiàn)。然而，提示能否幫助語音語言模型做生成任務(wù)仍是未解之謎。在本文中，我們提出一個創(chuàng)新的統(tǒng)一框架，SpeechGen，旨在激發(fā)語音語言模型進(jìn)行生成任務(wù)的潛力。如下圖所示，將一段語音、一個特定的提示（prompt）喂給 speech LM 作為輸入，speech LM就能做特定的任務(wù)。比如將紅色的 prompt 當(dāng)作輸入，speech LM 就能做 speech translation 的任務(wù)。我們提出的框架有以下優(yōu)點：無文本 (Textless)：我們的框架以及其所依賴的語音語言模型獨立于文字?jǐn)?shù)據(jù)，擁有無可估量的價值。畢竟，獲取標(biāo)記文本與語音配對的過程耗時繁瑣，而且在某些語言中甚至無法找到合適的文本。無需文字的特性使得我們的強(qiáng)大語音生成能力得以覆蓋各種語言需求，讓全人類受益匪淺。多功能性 (Versatility)：我們開發(fā)的框架通用性極高，能應(yīng)用于各種各樣的語音生成任務(wù)。文章中的實驗使用語音翻譯、語音修復(fù)、語音連續(xù)當(dāng)作例子。簡易性 (Easy to follow)：我們提出的框架為各類語音生成任務(wù)提供了通用解決方案，讓設(shè)計下游模型和損失函數(shù)變得輕而易舉?？蛇w移性 (Transferability)：我們的框架不僅容易適應(yīng)未來更先進(jìn)的語音語言模型，還蘊藏著巨大的潛力，讓效率和效果得到進(jìn)一步提升。尤其令人振奮的是，隨著先進(jìn)語音語言模型即將問世，我們的框架將迎來更為強(qiáng)大的發(fā)展。經(jīng)濟(jì)性 (Affordability)：我們的框架經(jīng)過精心的設(shè)計，只需訓(xùn)練少量參數(shù)，而不是整個龐大的語言模型。這極大地減輕了計算負(fù)擔(dān)，并允許在GTX 2080 GPU上執(zhí)行訓(xùn)練過程。大學(xué)的實驗室也能負(fù)擔(dān)得起這樣的運算開銷。SpeechGen我們的研究方法在于構(gòu)建一個全新的框架 SpeechGen，該框架主要用于利用語音語言模型（Speech Language Model, Speech LM）進(jìn)行各種下游語音生成任務(wù)的微調(diào)。在訓(xùn)練過程中，Speech LMs的參數(shù)保持不變，我們的方法側(cè)重于學(xué)習(xí)任務(wù)特定的提示（Prompt）向量。Speech LMs通過同時對提示向量和輸入單元進(jìn)行條件設(shè)置，有效地生成特定語音生成任務(wù)所需的輸出。然后，這些離散單元輸出被輸入到基于單元的語音合成器中，生成對應(yīng)的波形。我們的 SpeechGen 框架由三個元素組成：語音編碼器、Speech LM 和語音解碼器（Speech Decoder）。首先，語音編碼器將波形作為輸入，并將其轉(zhuǎn)換為由有限詞匯表導(dǎo)出的單位序列。為了縮短序列長度，會移除重復(fù)的連續(xù)單位以生成壓縮的單位序列。然后，Speech LM 作為單位序列的語言模型，通過預(yù)測前一單位和單位序列的后續(xù)單位來優(yōu)化可能性。我們對 Speech LM 進(jìn)行提示調(diào)整，以引導(dǎo)其根據(jù)任務(wù)生成適當(dāng)?shù)膯挝?。最后，Speech LM生成的標(biāo)記由語音解碼器處理，將其轉(zhuǎn)換回波形。在我們的提示調(diào)整策略中，提示向量會在輸入序列的開始處插入，這將引導(dǎo) Speech LMs 在生成過程中的方向。具體插入的提示數(shù)量，則取決于 Speech LMs 的架構(gòu)。在序列到序列的模型中，編碼器輸入和解碼器輸入都會加入提示，但在只有編碼器或只有解碼器的架構(gòu)中，只會在輸入序列前面添加一個提示。在序列到序列的 Speech LMs（如mBART）中，我們采用了自我監(jiān)督學(xué)習(xí)模型（如HuBERT）來處理輸入和目標(biāo)語音。這樣做可以為輸入生成離散單元，并為目標(biāo)生成對應(yīng)的離散單元。我們在編碼器和解碼器輸入的前面都添加了提示向量，以構(gòu)造輸入序列。此外，我們還通過替換注意力機(jī)制中的關(guān)鍵值對，以進(jìn)一步增強(qiáng)提示的指導(dǎo)能力。在模型訓(xùn)練中，我們以交叉熵?fù)p失作為所有生成任務(wù)的目標(biāo)函數(shù)，通過比較模型的預(yù)測結(jié)果和目標(biāo)離散單元標(biāo)簽來計算損失。在這個過程中，提示向量是模型中唯一需要訓(xùn)練的參數(shù)，而Speech LMs的參數(shù)在訓(xùn)練過程中保持不變，這確保了模型行為的一致性。我們通過插入提示向量，引導(dǎo) Speech LMs 從輸入中提取任務(wù)特定信息，并提高產(chǎn)生符合特定語音生成任務(wù)的輸出的可能性。這種方法允許我們微調(diào)并調(diào)整 Speech LMs 的行為，而無需修改其基礎(chǔ)參數(shù)。總的來說，我們的研究方法基于一種全新的框架 SpeechGen，通過訓(xùn)練提示向量，引導(dǎo)模型的生成過程，并使其能有效地產(chǎn)生符合特定語音生成任務(wù)的輸出。實驗我們的框架可以用于任意的 speech LM 及各類生成任務(wù)，具有很好的潛力。在我們的實驗中，由于 VALL-E 和 AudioLM 不是開源的，我們選擇使用 Unit mBART 作為 speech LM 進(jìn)行案例研究。我們用語音翻譯 (speech translation)、語音修復(fù) (speech inpainting)、語音連續(xù) (speech continuation) 當(dāng)作例子，來展示我們的框架的能力。這三個任務(wù)的示意圖如下圖所示。所有的任務(wù)都是語音輸入，語音輸出，無需文本的幫助。語音翻譯我們在訓(xùn)練語音翻譯 (speech translation) 時，用的時西班牙文轉(zhuǎn)英文的任務(wù)。我們給模型輸入西班牙語的語音，希望模型產(chǎn)生英文的語音，整個過程無需文本幫助。以下是幾個語音翻譯的例子，我們會展示正確答案 (ground truth) 與模型的預(yù)測 (model prediction)。這些演示示例表明模型的預(yù)測捕捉到了正確答案的核心含義。語音修補(bǔ)在我們進(jìn)行語音修補(bǔ) (speech inpainting) 的實驗中，我們特別選取超過 2.5 秒的音頻片段作為后續(xù)處理的目標(biāo)語音，并通過隨機(jī)選擇過程挑選出一段時長介于 0.8 至 1.2 秒的語音片段。然后我們對選出的片段進(jìn)行遮蔽，模擬語音修補(bǔ)任務(wù)中缺失或受損的部分。我們使用詞錯誤率 (WER) 和字符錯誤率 (CER) 作為評估受損片段修復(fù)程度的指標(biāo)。對 SpeechGen 生成的輸出與受損語音進(jìn)行比較分析，我們的模型可以顯著重建口語詞匯，將 WER 從 41.68% 降低到 28.61%，將 CER 從 25.10% 降低到 10.75%，如下表所示。這意味著我們提出的方法能夠顯著提高語音重建的能力，最終促進(jìn)語音輸出的準(zhǔn)確性和可理解性。下圖是一個展示樣例，上面的子圖是受損的語音，下面的子圖是 SpeechGen 產(chǎn)生的語音，可以看到，SpeechGen 很好地修復(fù)了受損的語音。語音連續(xù)我們將通過 LJSpeech 展示語音連續(xù)任務(wù)的實際應(yīng)用。在訓(xùn)練提示（prompt）期間，我們的策略是讓模型只看到片段的種子片段（seed segment)，這個 seed segment 占據(jù)了語音總長度的一個比例，我們將其稱為條件比率（condition ratio, r)，并讓模型繼續(xù)產(chǎn)生后續(xù)的語音。以下，我們?yōu)槟故疽恍嵗?。黑色的文字代表種子片段（seed segment），而紅色的文字則是 SpeechGen 生成的句子（這里的文字首先經(jīng)過語音識別得到的結(jié)果。在訓(xùn)練和推理過程中，模型完全進(jìn)行的是語音到語音的任務(wù)，且完全不接收任何文字信息）。不同的條件比率使 SpeechGen 能夠生成不同長度的語句以實現(xiàn)連貫性，并完成一句完整的話。從質(zhì)量角度看，可以觀察到生成的句子與種子片段在語法上基本一致，并且語義相關(guān)。雖然，生成的語音仍然無法完美地傳達(dá)一個完整的意思。我們預(yù)期這個問題將在未來更強(qiáng)大的語音模型中得到解決。不足與未來方向語音語言模型和語音生成正處于蓬勃發(fā)展的階段，而我們的框架則提供了一種巧妙地利用強(qiáng)大語言模型進(jìn)行語音生成的可能性。然而，這個框架仍有一些尚待完善之處，也有許多值得我們深入研究的問題。與基于文本的語言模型相比，語音語言模型目前還處于發(fā)展的初級階段。雖然我們提出的提示框架能激發(fā)語音語言模型做語音生成任務(wù)，但并不能達(dá)到卓越的性能。不過，隨著語音語言模型的不斷進(jìn)步，比如從 GSLM 到 Unit mBART 的大轉(zhuǎn)身，提示的表現(xiàn)有了明顯的提升。特別是以前對 GSLM 而言具有挑戰(zhàn)性的任務(wù)，現(xiàn)在在 Unit mBART 下表現(xiàn)出更好的性能。我們預(yù)計未來會出現(xiàn)更多先進(jìn)的語音語言模型嶄露頭角。超越內(nèi)容信息：當(dāng)前的語音語言模型并不能完全捕捉到說話者和情感信息，這給當(dāng)前的語音提示框架在有效處理這些信息方面帶來了挑戰(zhàn)。為了克服這個限制，我們有一個方法：引入即插即用的模塊，專門為框架注入說話者和情感信息。展望未來，我們預(yù)計未來的語音語言模型將整合和利用這些內(nèi)容之外的信息，以提高性能并更好地處理語音生成任務(wù)中的說話者和情感相關(guān)方面。提示生成的可能性：對于提示生成，我們有著靈活多變的選擇，可以集成各種類型的指示，包括文本和圖像指示。想象一下，我們可以訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)，讓它用圖像或文本作為輸入，而不是像本文中那樣使用訓(xùn)練好的 embedding 當(dāng)作提示。這個訓(xùn)練好的網(wǎng)絡(luò)將成為我們的提示生成器，為框架增添了更多的多樣性。這樣的方式會讓提示生成變得更加有趣和豐富多彩。結(jié)論在本文中，我們探索了使用提示來解鎖語音語言模型在各種生成任務(wù)中的性能。我們提出了一個名為 SpeechGen 的統(tǒng)一框架，該框架僅有約 10M 的可訓(xùn)練參數(shù)。我們所提出的框架具有幾個令人滿意的特性，包括無需文本、多功能性、高效性、可轉(zhuǎn)移性和可負(fù)擔(dān)性。為了展示我們框架的能力，我們以 Unit mBART 為案例研究，并在三個不同的語音生成任務(wù)上進(jìn)行實驗：語音翻譯、語音修復(fù)和語音延續(xù)。當(dāng)這篇論文提交到 arXiv時，Google 提出了一種更先進(jìn)的語音語言模型——SPECTRON，它為我們展示了語音語言模型在建模說話人和情感等信息的可能性。這無疑是一個令人興奮的消息，隨著先進(jìn)語音語言模型的不斷提出，我們的統(tǒng)一框架具有巨大的潛力。

關(guān)鍵詞：

分享到:

?

還沒有評論

村BA福建賽區(qū)7月鏖戰(zhàn)晉江冠亞軍隊伍將參加大區(qū)賽

SpeechGen：用Prompt解鎖語音語言模型生成能力2023-06-19
第七屆進(jìn)博會招展啟動 25家國際企業(yè)鎖定入2023-06-19
當(dāng)前看點!幼師拍“女孩問男孩是否有房有車2023-06-19
端午假期期間，豫北局部最高氣溫或達(dá)41℃-2023-06-19
環(huán)球觀速訊丨多因素疊加下大宗商品有望反彈2023-06-19
全球滾動:鄉(xiāng)村振興品牌賦能計劃在成都發(fā)布2023-06-19
真·探105案丨誰干的？“隔空投送”小照片2023-06-19
半島調(diào)查丨價格翻番，仍一房難求！端午假期2023-06-19
“拍瓜師”火了！每天拍瓜上萬個好不好吃2023-06-19
喀左縣調(diào)查“房子門被鄰居堵死” 當(dāng)事人妹2023-06-19
水利部針對南方10省區(qū)啟動水旱災(zāi)害防御Ⅳ級2023-06-19
五枝并蒂蓮！開園以來首次在同一開花季發(fā)現(xiàn)2023-06-19
我國資本市場雙向開放水平不斷提高投資者2023-06-19
事關(guān)端午節(jié)假期！洛陽發(fā)布重要消費提醒2023-06-19
交易員直播_交易日直播環(huán)球今亮點2023-06-19
半邊蓮的功效與作用視頻_半邊蓮的功效與作2023-06-19
深入理解TypeScript（關(guān)于深入理解TypeScri2023-06-19
環(huán)球今日報丨世界柔道大滿貫哈薩克斯坦站中2023-06-19
對陣中國男足，巴勒斯坦主教練直言：想贏球2023-06-19
大道之行，天下為公！當(dāng)孔子與馬克思見面會2023-06-19
全球滾動:《水調(diào)歌頭·明月幾時有》流傳千2023-06-19
連續(xù)上漲后小挫的背后，機(jī)構(gòu)：結(jié)構(gòu)性行情上2023-06-19
五糧液集團(tuán)子公司入股光伏企業(yè)，賽道再添新2023-06-19
環(huán)球快看點丨多家物流公司公布5月成績單 2023-06-19
一桌沒有筷子和碗的綠葉宴怎么吃？|全球觀2023-06-19
全球速遞！【中國有約】漳州1567-2023：海2023-06-19
全球觀速訊丨【中國有約】泉州與德化瓷：刺2023-06-19
鄉(xiāng)村之美丨臺州：繪就鄉(xiāng)村治理新畫卷天天2023-06-19
“千萬工程”調(diào)研行丨有“顏值”，更有“產(chǎn)2023-06-19
世界即時：新華視點｜部分地方“天價”奢華2023-06-19

專題More

SpeechGen：用Prompt解鎖語音語言模型生成能力

黎平县| 顺平县| 兖州市| 金乡县| 田林县| 东光县| 青州市| 星子县| 台湾省| 商丘市| 股票| 灵川县| 贡觉县| 逊克县| 武定县| 雅安市| 内丘县| 两当县| 平南县| 左贡县| 长沙县| 邵武市| 多伦县| 凉山| 湟中县| 巴塘县| 平湖市| 项城市| 资溪县| 台北县| 五河县| 四会市| 扎赉特旗| 光泽县| 奉化市| 米林县| 邢台县| 石柱| 德庆县| 岚皋县| 杭州市|

<strike id="em8ki"><input id="em8ki"></input></strike>