在語(yǔ)音合系統(tǒng)中將背景音與文本語(yǔ)音混合輸出的方法

文檔序號(hào)：2821630閱讀：180來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：在語(yǔ)音合系統(tǒng)中將背景音與文本語(yǔ)音混合輸出的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語(yǔ)音合成方法，具體是在使用計(jì)算機(jī)完成從文本到自然語(yǔ)音的轉(zhuǎn)換過(guò)程中，管理和應(yīng)用背景音樂(lè)的方法。
背景技術(shù)：
目前，在IVR、呼叫中心等電話語(yǔ)音系統(tǒng)中，已經(jīng)廣泛采用完成從文本到語(yǔ)音功能的語(yǔ)音合成系統(tǒng)。隨著信息服務(wù)系統(tǒng)所提供信息范圍越來(lái)越廣，信息量越來(lái)越大，時(shí)效要求越來(lái)越強(qiáng)，以前的人工服務(wù)已經(jīng)無(wú)法滿足這種需求，而語(yǔ)音合成系統(tǒng)的功能就是把海量信息的文本及時(shí)轉(zhuǎn)換成語(yǔ)音文件，并且立即播放出來(lái)。合成語(yǔ)音清晰準(zhǔn)確，能滿足實(shí)時(shí)信息播報(bào)的需要，能減少人工服務(wù)的成本并避免人工播報(bào)經(jīng)常出現(xiàn)的口齒不清、誤讀等許多問(wèn)題。
目前語(yǔ)音合成技術(shù)的發(fā)展已經(jīng)可以滿足大多數(shù)語(yǔ)音應(yīng)用系統(tǒng)的要求，提供自然、流暢、清晰的合成語(yǔ)言。但是由于目前技術(shù)所限，合成語(yǔ)音還存在語(yǔ)氣不夠親切等問(wèn)題，影響用戶的感受。
另外，在目前的語(yǔ)音應(yīng)用中往往會(huì)同時(shí)使用預(yù)錄語(yǔ)音和合成語(yǔ)音，預(yù)錄語(yǔ)音與合成語(yǔ)音在音色、音量等語(yǔ)音參數(shù)方面存在的差異會(huì)影響兩種語(yǔ)音銜接處的效果。
如上所述，目前在合成語(yǔ)音的應(yīng)用過(guò)程中會(huì)存在一些影響最終效果的缺點(diǎn)，影響了用戶的感受。申請(qǐng)人公司的研發(fā)人員通過(guò)實(shí)驗(yàn)和測(cè)聽(tīng)發(fā)現(xiàn)，在合成語(yǔ)音中適當(dāng)?shù)奶砑颖尘耙魳?lè)，可以改善用戶在實(shí)際應(yīng)用過(guò)程中對(duì)語(yǔ)音的體驗(yàn)，使語(yǔ)音服務(wù)更加的親切自然。
一般的電話語(yǔ)音應(yīng)用中，通常沒(méi)有使用背景音，或僅用背景音樂(lè)填補(bǔ)用戶的等待時(shí)間。這樣的使用方法常常會(huì)在背景音樂(lè)與合成語(yǔ)音切換時(shí)造成能量等方面的突兀差別，使語(yǔ)音信息服務(wù)常常缺少人性化的親和力，用戶長(zhǎng)時(shí)間收聽(tīng)合成語(yǔ)音播放的信息，很容易產(chǎn)生疲勞感。
如果希望實(shí)現(xiàn)背景音與合成語(yǔ)音的同步播放，語(yǔ)音服務(wù)方必須了解語(yǔ)音學(xué)的相關(guān)知識(shí)，并且進(jìn)行一定的編碼工作。這種改進(jìn)增加了集成開(kāi)發(fā)的工作量，并且存在一定的難度，因此電話語(yǔ)音系統(tǒng)中插入背景音的問(wèn)題長(zhǎng)時(shí)間以來(lái)都沒(méi)有得到妥善解決。
實(shí)驗(yàn)發(fā)現(xiàn)，在語(yǔ)音信息服務(wù)中，為合成語(yǔ)音適當(dāng)?shù)靥砑颖尘耙魳?lè)，可以有效改善用戶在實(shí)際應(yīng)用過(guò)程中對(duì)合成語(yǔ)音的體驗(yàn)，使語(yǔ)音服務(wù)更加的親切自然。

發(fā)明內(nèi)容
本發(fā)明的目的就是提供一種在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出的方法，為用戶提供背景音應(yīng)用和管理的界面，使背景音和合成語(yǔ)音相輔相成，將背景音與文本語(yǔ)音合成后輸出，提高語(yǔ)音服務(wù)品質(zhì)。
本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的。
一種在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出的方法，包括用戶向合成系統(tǒng)提供合成文本信息，合成系統(tǒng)經(jīng)過(guò)文本分析(對(duì)文本進(jìn)行分句、分詞處理)和韻律分析(產(chǎn)生朗讀的音量、音高、語(yǔ)調(diào)等)，再調(diào)用音庫(kù)中的發(fā)音單元，組合成連續(xù)的合成文本語(yǔ)音數(shù)據(jù)，其特征是建立背景音庫(kù)，建立標(biāo)識(shí)(序號(hào)或名稱)與音庫(kù)內(nèi)容相對(duì)應(yīng)的背景音索引，在語(yǔ)音合成系統(tǒng)的資源管理中心中增加對(duì)背景音庫(kù)進(jìn)行添加、刪除、音量調(diào)整、描述內(nèi)容編輯的管理操作等程序內(nèi)容；在合成文本文件中需要添加背景音的位置加入背景音的CSSML標(biāo)記，確定添加背景音的起始和終止位置，指定使用的背景音文件名稱或者是背景音編號(hào)/名稱，或者在語(yǔ)音合成系統(tǒng)的用戶開(kāi)發(fā)接口提供的設(shè)置合成參數(shù)的函數(shù)中增加背景音的合成參數(shù)(合成系統(tǒng)原來(lái)支持的合成參數(shù)包括設(shè)置文本特性的參數(shù)字符集，文本類型，輸入緩沖區(qū)大??；設(shè)置語(yǔ)音數(shù)據(jù)特性的參數(shù)發(fā)音人，語(yǔ)音數(shù)據(jù)格式，語(yǔ)音數(shù)據(jù)頭格式，字節(jié)序，輸出緩沖區(qū)大小；設(shè)置韻律特性的參數(shù)音高，音量，語(yǔ)速；設(shè)置讀法處理的參數(shù)回車(chē)處理，數(shù)字處理，英文處理；)；可以從背景音庫(kù)中提取出CSSML標(biāo)記或合成參數(shù)設(shè)置的背景音，把背景音與合成文本語(yǔ)音按照一定能量比例進(jìn)行混音處理，獲得帶有背景音效果的合成語(yǔ)音數(shù)據(jù)輸出。
背景音庫(kù)的的制作步驟如下(1)收集背景音用戶根據(jù)自己的應(yīng)用需要，預(yù)先收集或錄制適用的背景音樂(lè)，并保存為語(yǔ)音文件；(2)格式轉(zhuǎn)化用戶將背景音語(yǔ)音文件的格式手工轉(zhuǎn)換為wav格式；(3)采樣率的轉(zhuǎn)換合成系統(tǒng)根據(jù)用戶安裝的音庫(kù)采樣率，把背景音轉(zhuǎn)換成相同采樣率的語(yǔ)音文件；
(4)能量調(diào)整合成系統(tǒng)根據(jù)用戶指定的參數(shù)，對(duì)背景音進(jìn)行能量的調(diào)整；(5)語(yǔ)音數(shù)據(jù)壓縮合成系統(tǒng)將所有背景語(yǔ)音數(shù)據(jù)壓縮成alaw格式；(6)保存合成系統(tǒng)將背景音文件保存到背景音庫(kù)中。
在合成系統(tǒng)開(kāi)發(fā)接口提供的設(shè)置合成參數(shù)的函數(shù)中增加的背景音合成參數(shù)，用于指定在語(yǔ)音合成時(shí)添加的背景音標(biāo)識(shí)(序號(hào)或名稱)，從背景音庫(kù)中將用戶選擇的背景音提出后，將合成語(yǔ)音和背景音按一定能量或波形比例進(jìn)行混音處理，得到帶有背景音的合成語(yǔ)音數(shù)據(jù)輸出。
從背景音庫(kù)中提取出CSSML標(biāo)記設(shè)置的背景音，其步驟是(1)添加CSSML標(biāo)記用戶可以手工或使用工具生成CSSML文件，并在文件中需要添加背景音的位置加入背景音的CSSML標(biāo)記，以句為單位精確的控制背景音的播放位置；(2)解析標(biāo)記合成系統(tǒng)對(duì)送入的CSSML文件進(jìn)行解析，提取背景音CSSML標(biāo)記的信息，并將信息保存下來(lái)，供后繼處理使用；(3)提取背景音文件根據(jù)解析結(jié)果，合成系統(tǒng)從背景音庫(kù)中提取出指定的背景音語(yǔ)音數(shù)據(jù)；(4)混音處理按照指定的比例，將合成語(yǔ)音和背景音進(jìn)行混音處理，得到帶有背景音的合成語(yǔ)音；(5)語(yǔ)音數(shù)據(jù)輸出將帶有背景音的合成語(yǔ)音數(shù)據(jù)從合成系統(tǒng)中輸出，進(jìn)行必要的格式轉(zhuǎn)化等操作。
資源管理中心的背景音用戶界面中，設(shè)置“資源管理中心”的“背景音庫(kù)”界面實(shí)現(xiàn)背景音資源的添加、刪除和修改，以及設(shè)置提示音的相關(guān)屬性；設(shè)置“背景音屬性設(shè)置”界面實(shí)現(xiàn)背景音屬性的設(shè)置與修改，這些屬性包括背景音名稱、編號(hào)、背景音時(shí)長(zhǎng)、重復(fù)播放選項(xiàng)、背景音說(shuō)明；設(shè)置“背景音屬性設(shè)置”界面實(shí)現(xiàn)背景音試聽(tīng)和調(diào)節(jié)功能，界面中為用戶提供背景音與合成語(yǔ)音音量對(duì)比的調(diào)節(jié)工具，用戶可以試聽(tīng)，并根據(jù)需要進(jìn)行適當(dāng)調(diào)整，以獲得最佳混音效果；設(shè)置“合成演示程序”界面“高級(jí)參數(shù)設(shè)置”決定是否使用背景音。
背景音是合成系統(tǒng)的一種資源，存放于系統(tǒng)的背景音庫(kù)中。在使用合成系統(tǒng)前，需要將用戶想要播放的背景音添加到背景音庫(kù)中，然后就可以在合成系統(tǒng)中使用了。
發(fā)明的效果背景音的靈活應(yīng)用。可以對(duì)被合成文本設(shè)置任何符合格式要求的背景音，增強(qiáng)信息播報(bào)的聽(tīng)覺(jué)效果?？梢栽诒缓铣晌谋镜娜魏挝恢貌迦氩煌谋尘耙?，例如，配合開(kāi)門(mén)聲，風(fēng)雨聲，或者歌聲，人群歡笑聲，以營(yíng)造不同的氣氛，滿足不同性質(zhì)語(yǔ)音信息，以及不同信息受眾的需要。
背景音的統(tǒng)一管理。用戶可以根據(jù)各自的需要或喜好，自行定制背景音庫(kù)。合成系統(tǒng)提供了背景音添加向?qū)?，幫助用戶完成背景音的添加和設(shè)置。并且可以用背景音名稱或編號(hào)減縮，使用十分方便。
試聽(tīng)和調(diào)整功能。方便用戶調(diào)整背景音與合成語(yǔ)音的能量對(duì)比，達(dá)到和諧悅耳的效果。
術(shù)語(yǔ)解釋語(yǔ)音合成(Text-To-Speech)又稱為文語(yǔ)轉(zhuǎn)化。它涉及聲學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理、多媒體等多種學(xué)科，是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)。語(yǔ)音合成技術(shù)解決的主要問(wèn)題是如何將電子化文本的文字信息轉(zhuǎn)化為能夠播放的聲音信息。近代語(yǔ)音合成技術(shù)是隨著計(jì)算機(jī)技術(shù)和數(shù)字信號(hào)處理技術(shù)的發(fā)展而發(fā)展起來(lái)的，目的是讓計(jì)算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語(yǔ)音。
IVR交互式語(yǔ)音應(yīng)答(Interactive Voice Response)，是呼叫中心系統(tǒng)結(jié)構(gòu)中不可或缺的重要組成部分，它能為來(lái)話者提供相應(yīng)的語(yǔ)音引導(dǎo)，并為其實(shí)現(xiàn)自動(dòng)語(yǔ)音服務(wù)。
CSSML即中文語(yǔ)音合成標(biāo)記語(yǔ)言(Chinese Speech SynthesisMarkup Language)，是針對(duì)中文語(yǔ)音合成的特點(diǎn)，由科大訊飛公司制定的中文語(yǔ)音合成標(biāo)記規(guī)范，該規(guī)范是SSML v1.0規(guī)范的擴(kuò)展，于2002年12月發(fā)布。本公司語(yǔ)音合成系統(tǒng)產(chǎn)品都把CSSML規(guī)范作為中文語(yǔ)音合成的支持標(biāo)準(zhǔn)，用戶可以通過(guò)CSSML標(biāo)記文本來(lái)指定文本的合成方式，這種方法能夠規(guī)范化文本的合成方式、解決許多語(yǔ)音合成系統(tǒng)難以智能處理的問(wèn)題。

圖1在InterPhonic 3.0語(yǔ)音合成系統(tǒng)的資源管理中心背景音界面管理背景音資源?？梢蕴砑?、刪除背景音文件，修改背景音屬性等。
圖2在InterPhonic 3.0語(yǔ)音合成系統(tǒng)的背景音屬性設(shè)置界面設(shè)置背景音屬性和調(diào)節(jié)試聽(tīng)效果。
圖3在InterPhonic 3.0語(yǔ)音合成系統(tǒng)的合成演示程序界面中設(shè)置系統(tǒng)參數(shù)，確定是否啟用背景音。
圖4本發(fā)明的工作流程框圖。
具體實(shí)施例方式
一種在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出的方法，包括用戶向合成系統(tǒng)提供合成文本信息，合成系統(tǒng)經(jīng)過(guò)文本分析(對(duì)文本進(jìn)行分句、分詞處理)和韻律分析(產(chǎn)生朗讀的音量、音高、語(yǔ)調(diào)等)，再調(diào)用音庫(kù)中的發(fā)音單元，組合成連續(xù)的合成文本語(yǔ)音數(shù)據(jù)，其特征是建立背景音庫(kù)，建立序號(hào)或名稱與音庫(kù)內(nèi)容相對(duì)應(yīng)的背景音索引，在語(yǔ)音合成系統(tǒng)的資源管理中心中增加對(duì)背景音庫(kù)進(jìn)行添加、刪除、音量調(diào)整、描述內(nèi)容編輯的管理操作等程序內(nèi)容；在合成文本文件中需要添加背景音的位置加入背景音的CSSML標(biāo)記，確定添加背景音的起始和終止位置，指定使用的背景音文件名稱或者是背景音編號(hào)/名稱，或者在語(yǔ)音合成系統(tǒng)的用戶開(kāi)發(fā)接口提供的設(shè)置合成參數(shù)的函數(shù)(本例中采用為T(mén)tssetSyuthParam函數(shù))中增加背景音的合成參數(shù)；可以從背景音庫(kù)中提取出CSSML標(biāo)記或合成參數(shù)設(shè)置的背景音，把背景音與合成文本語(yǔ)音按照一定能量比例進(jìn)行混音處理，獲得帶有背景音效果的合成語(yǔ)音數(shù)據(jù)輸出。
背景音庫(kù)的的制作步驟如下(1)收集背景音用戶根據(jù)自己的應(yīng)用需要，預(yù)先收集或錄制適用的背景音樂(lè)，并保存為語(yǔ)音文件；(2)格式轉(zhuǎn)化用戶將背景音語(yǔ)音文件的格式手工轉(zhuǎn)換為wav格式；(3)采樣率的轉(zhuǎn)換合成系統(tǒng)根據(jù)用戶安裝的音庫(kù)采樣率，把背景音轉(zhuǎn)換成相同采樣率的語(yǔ)音文件；(4)能量調(diào)整合成系統(tǒng)根據(jù)用戶指定的參數(shù)，對(duì)背景音進(jìn)行能量的調(diào)整；(5)語(yǔ)音數(shù)據(jù)壓縮合成系統(tǒng)將所有背景語(yǔ)音數(shù)據(jù)壓縮成alaw格式；(6)保存合成系統(tǒng)將背景音文件保存到背景音庫(kù)中。
在合成系統(tǒng)開(kāi)發(fā)接口提供的設(shè)置合成參數(shù)的函數(shù)中增加的背景音合成參數(shù)，用于指定在語(yǔ)音合成時(shí)添加的背景音序號(hào)，從背景音庫(kù)中將用戶選擇的背景音提出后，將合成語(yǔ)音和背景音按一定能量或波形比例進(jìn)行混音處理，得到帶有背景音的合成語(yǔ)音數(shù)據(jù)輸出。
從背景音庫(kù)中提取出CSSML標(biāo)記設(shè)置的背景音，其步驟是(1)添加CSSML標(biāo)記用戶可以手工或使用工具生成CSSML文件，并在文件中需要添加背景音的位置加入背景音的CSSML標(biāo)記，以句為單位精確的控制背景音的播放位置；(2)解析標(biāo)記合成系統(tǒng)對(duì)送入的CSSML文件進(jìn)行解析，提取背景音CSSML標(biāo)記的信息，并將信息保存下來(lái)，供后繼處理使用；(3)提取背景音文件根據(jù)解析結(jié)果，合成系統(tǒng)從背景音庫(kù)中提取出指定的背景音語(yǔ)音數(shù)據(jù)；(4)混音處理按照指定的比例，將合成語(yǔ)音和背景音進(jìn)行混音處理，得到帶有背景音的合成語(yǔ)音；(5)語(yǔ)音數(shù)據(jù)輸出將帶有背景音的合成語(yǔ)音數(shù)據(jù)從合成系統(tǒng)中輸出，進(jìn)行必要的格式轉(zhuǎn)化等操作。
本發(fā)明采用計(jì)算機(jī)軟件形式，應(yīng)用于InterPhonic CE3.0語(yǔ)音合成系統(tǒng)中，為用戶提供一系列背景音應(yīng)用和管理的用戶界面，用戶可以輕松實(shí)現(xiàn)背景音的管理和使用。
目前系統(tǒng)只支持未經(jīng)壓縮的wav格式的音頻數(shù)據(jù)，對(duì)于A/U law等壓縮格式的音頻數(shù)據(jù)，則不能使用。系統(tǒng)推薦使用16K、16Bits以上高質(zhì)量的音頻文件。
在InterPhonic CE3.0語(yǔ)音合成系統(tǒng)中還設(shè)置了相應(yīng)參數(shù)，指定在語(yǔ)音合成時(shí)添加的背景音，從背景音庫(kù)中將用戶選擇的背景音提出后，按照一定的比例，將合成語(yǔ)音和背景音按一定能量或波形比例進(jìn)行混音處理，得到帶有背景音的合成語(yǔ)音數(shù)據(jù)輸出。
■界面1(圖1)在InterPhonic 3.0語(yǔ)音合成系統(tǒng)的資源管理中心背景音界面管理背景音資源?？梢蕴砑印h除背景音文件，修改背景音屬性等。
■界面2(圖2)在InterPhonic 3.0語(yǔ)音合成系統(tǒng)的背景音屬性設(shè)置界面設(shè)置背景音屬性和調(diào)節(jié)試聽(tīng)效果。
其中各項(xiàng)參數(shù)說(shuō)明編號(hào)當(dāng)前所設(shè)置的背景音在背景音庫(kù)中的編號(hào)，自動(dòng)顯示。
時(shí)長(zhǎng)正常情況下，當(dāng)前背景音的播放時(shí)間，自動(dòng)顯示。
重復(fù)播放背景音在語(yǔ)音合成過(guò)程中，應(yīng)用當(dāng)前背景音時(shí)，是否重復(fù)播放。用戶選擇。
名稱當(dāng)前背景音的名稱。在背景音庫(kù)中，背景音文件的名稱必須唯一，長(zhǎng)度不大于36字符。
描述對(duì)當(dāng)前背景音的簡(jiǎn)單說(shuō)明，長(zhǎng)度不大于256字符。
混音比例在進(jìn)行語(yǔ)音合成時(shí)，背景音與合成語(yǔ)音的音量比例。
取值范圍0～0.6，值越大，背景音音量越大；取值為零，表示背景音為靜音。
試聽(tīng)功能單擊“試聽(tīng)”按鈕，可以試聽(tīng)當(dāng)前正在設(shè)置的背景音。單擊“停止”按鈕結(jié)束試聽(tīng)。
■界面3(圖3)在InterPhonic 3.0語(yǔ)音合成系統(tǒng)的合成演示程序界面中設(shè)置系統(tǒng)參數(shù)，確定是否啟用背景音。選擇“不使用背景音”，合成的語(yǔ)音文件中不出現(xiàn)背景音，這是默認(rèn)形式；選擇具體的背景音文件名，就是在合成的語(yǔ)音文件中使用此背景音。默認(rèn)情況下，合成以后的語(yǔ)音文件中通篇都將應(yīng)用同一段背景音樂(lè)。如果只需要在被合成文本某些地方使用背景音樂(lè)，或者對(duì)不同語(yǔ)句應(yīng)用不同的背景音樂(lè)，應(yīng)當(dāng)在被合成文本的適當(dāng)位置添加CSSML標(biāo)記，例如

在合成文本中用CSSML標(biāo)記引用背景音可以有三種形式一是用背景音名稱，如<environment src＝″name背景音名稱″></environment>
二是用背景音編號(hào)，如<environment src＝″id2″></environment>
三是用背景音文件路徑，如<environment src＝″d\music.wav″></environment>
權(quán)利要求
1.一種在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出的方法，包括用戶向合成系統(tǒng)提供合成文本信息，合成系統(tǒng)經(jīng)過(guò)文本分析(對(duì)文本進(jìn)行分句、分詞處理)和韻律分析(產(chǎn)生朗讀的音量、音高、語(yǔ)調(diào)等)，再調(diào)用音庫(kù)中的發(fā)音單元，組合成連續(xù)的合成文本語(yǔ)音數(shù)據(jù)，其特征是建立背景音庫(kù)，建立標(biāo)識(shí)(序號(hào)或名稱)與音庫(kù)內(nèi)容相對(duì)應(yīng)的背景音索引，在語(yǔ)音合成系統(tǒng)的資源管理中心中增加對(duì)背景音庫(kù)進(jìn)行添加、刪除、音量調(diào)整、描述內(nèi)容編輯的管理操作等程序內(nèi)容；在合成文本文件中需要添加背景音的位置加入背景音的CSSML標(biāo)記，確定添加背景音的起始和終止位置，指定使用的背景音文件名稱或者是背景音序號(hào)/名稱，或者在語(yǔ)音合成系統(tǒng)用戶開(kāi)發(fā)接口提供的設(shè)置合成參數(shù)的函數(shù)中增加背景音合成參數(shù)；可以從背景音庫(kù)中提取出CSSML標(biāo)記或合成參數(shù)設(shè)置的背景音，把背景音與合成文本語(yǔ)音按照一定能量比例進(jìn)行混音處理，獲得帶有背景音效果的合成語(yǔ)音數(shù)據(jù)輸出。
2.根據(jù)權(quán)利要求1所述的在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出方法，其特征在于背景音庫(kù)的的制作步驟如下(1)收集背景音用戶根據(jù)自己的應(yīng)用需要，預(yù)先收集或錄制適用的背景音樂(lè)，并保存為語(yǔ)音文件；(2)格式轉(zhuǎn)化用戶將背景音語(yǔ)音文件的格式手工轉(zhuǎn)換為wav格式；(3)采樣率的轉(zhuǎn)換合成系統(tǒng)根據(jù)用戶安裝的音庫(kù)采樣率，把背景音轉(zhuǎn)換成相同采樣率的語(yǔ)音文件；(4)能量調(diào)整合成系統(tǒng)根據(jù)用戶指定的參數(shù)，對(duì)背景音進(jìn)行能量的調(diào)整；(5)語(yǔ)音數(shù)據(jù)壓縮合成系統(tǒng)將所有背景語(yǔ)音數(shù)據(jù)壓縮成alaw格式；(6)保存合成系統(tǒng)將背景音文件保存到背景音庫(kù)中。
3.根據(jù)權(quán)利要求1所述的在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出方法，其特征在于在合成系統(tǒng)開(kāi)發(fā)接口提供的設(shè)置合成參數(shù)的函數(shù)中增加的背景音合成參數(shù)，用于指定在語(yǔ)音合成時(shí)添加的背景音標(biāo)識(shí)(序號(hào))，從背景音庫(kù)中將用戶選擇的背景音提出后，將合成語(yǔ)音和背景音按一定能量或波形比例進(jìn)行混音處理，得到帶有背景音的合成語(yǔ)音數(shù)據(jù)輸出。
4.根據(jù)權(quán)利要求1所述的在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出方法，其特征在于從背景音庫(kù)中提取出CSSML標(biāo)記設(shè)置的背景音，其步驟是(1)添加CSSML標(biāo)記用戶可以手工或使用工具生成CSSML文件，并在文件中需要添加背景音的位置加入背景音的CSSML標(biāo)記，以句為單位精確的控制背景音的播放位置；(2)解析標(biāo)記合成系統(tǒng)對(duì)送入的CSSML文件進(jìn)行解析，提取背景音CSSML標(biāo)記的信息，并將信息保存下來(lái)，供后繼處理使用；(3)提取背景音文件根據(jù)解析結(jié)果，合成系統(tǒng)從背景音庫(kù)中提取出指定的背景音語(yǔ)音數(shù)據(jù)；(4)混音處理按照指定的比例，將合成語(yǔ)音和背景音進(jìn)行混音處理，得到帶有背景音的合成語(yǔ)音；(5)語(yǔ)音數(shù)據(jù)輸出將帶有背景音的合成語(yǔ)音數(shù)據(jù)從合成系統(tǒng)中輸出，進(jìn)行必要的格式轉(zhuǎn)化等操作。
5.根據(jù)權(quán)利要求1所述的在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出方法，其特征在于資源管理中心的背景音用戶界面中，設(shè)置“資源管理中心”的“背景音庫(kù)”界面實(shí)現(xiàn)背景音資源的添加、刪除和修改，以及設(shè)置提示音的相關(guān)屬性；設(shè)置“背景音屬性設(shè)置”界面實(shí)現(xiàn)背景音屬性的設(shè)置與修改，這些屬性包括背景音名稱、編號(hào)、背景音時(shí)長(zhǎng)、重復(fù)播放選項(xiàng)、背景音說(shuō)明；設(shè)置“背景音屬性設(shè)置”界面實(shí)現(xiàn)背景音試聽(tīng)和調(diào)節(jié)功能，界面中為用戶提供背景音與合成語(yǔ)音音量對(duì)比的調(diào)節(jié)工具，用戶可以試聽(tīng)，并根據(jù)需要進(jìn)行適當(dāng)調(diào)整，以獲得最佳混音效果；設(shè)置“合成演示程序”界面“高級(jí)參數(shù)設(shè)置”決定是否使用背景音。
全文摘要
本發(fā)明公開(kāi)了一種在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出的方法，包括用戶向合成系統(tǒng)提供合成文本信息，合成系統(tǒng)經(jīng)過(guò)文本分析和韻律分析，再調(diào)用音庫(kù)中的發(fā)音單元，組合成連續(xù)的合成文本語(yǔ)音數(shù)據(jù)。本發(fā)明特征是建立背景音庫(kù)，在合成文本文件中加入背景音的CSSML標(biāo)記，或者在語(yǔ)音合成系統(tǒng)用戶開(kāi)發(fā)接口提供背景音合成參數(shù)；然后從背景音庫(kù)中提取出CSSML標(biāo)記或合成參數(shù)設(shè)置的背景音，把背景音與合成文本語(yǔ)音按照一定能量比例進(jìn)行混音處理后輸出，增強(qiáng)了信息播報(bào)的聽(tīng)覺(jué)效果。
文檔編號(hào)G10L13/00GK1584979SQ200410044998
公開(kāi)日2005年2月23日申請(qǐng)日期2004年6月1日優(yōu)先權(quán)日2004年6月1日
發(fā)明者嚴(yán)峻, 于繼棟, 李海方申請(qǐng)人:安徽中科大訊飛信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載