午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

在語(yǔ)音合系統(tǒng)中將背景音與文本語(yǔ)音混合輸出的方法

文檔序號(hào):2821630閱讀:180來(lái)源:國(guó)知局
專利名稱:在語(yǔ)音合系統(tǒng)中將背景音與文本語(yǔ)音混合輸出的方法
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音合成方法,具體是在使用計(jì)算機(jī)完成從文本到自然語(yǔ)音的轉(zhuǎn)換過(guò)程中,管理和應(yīng)用背景音樂(lè)的方法。
背景技術(shù)
目前,在IVR、呼叫中心等電話語(yǔ)音系統(tǒng)中,已經(jīng)廣泛采用完成從文本到語(yǔ)音功能的語(yǔ)音合成系統(tǒng)。隨著信息服務(wù)系統(tǒng)所提供信息范圍越來(lái)越廣,信息量越來(lái)越大,時(shí)效要求越來(lái)越強(qiáng),以前的人工服務(wù)已經(jīng)無(wú)法滿足這種需求,而語(yǔ)音合成系統(tǒng)的功能就是把海量信息的文本及時(shí)轉(zhuǎn)換成語(yǔ)音文件,并且立即播放出來(lái)。合成語(yǔ)音清晰準(zhǔn)確,能滿足實(shí)時(shí)信息播報(bào)的需要,能減少人工服務(wù)的成本并避免人工播報(bào)經(jīng)常出現(xiàn)的口齒不清、誤讀等許多問(wèn)題。
目前語(yǔ)音合成技術(shù)的發(fā)展已經(jīng)可以滿足大多數(shù)語(yǔ)音應(yīng)用系統(tǒng)的要求,提供自然、流暢、清晰的合成語(yǔ)言。但是由于目前技術(shù)所限,合成語(yǔ)音還存在語(yǔ)氣不夠親切等問(wèn)題,影響用戶的感受。
另外,在目前的語(yǔ)音應(yīng)用中往往會(huì)同時(shí)使用預(yù)錄語(yǔ)音和合成語(yǔ)音,預(yù)錄語(yǔ)音與合成語(yǔ)音在音色、音量等語(yǔ)音參數(shù)方面存在的差異會(huì)影響兩種語(yǔ)音銜接處的效果。
如上所述,目前在合成語(yǔ)音的應(yīng)用過(guò)程中會(huì)存在一些影響最終效果的缺點(diǎn),影響了用戶的感受。申請(qǐng)人公司的研發(fā)人員通過(guò)實(shí)驗(yàn)和測(cè)聽(tīng)發(fā)現(xiàn),在合成語(yǔ)音中適當(dāng)?shù)奶砑颖尘耙魳?lè),可以改善用戶在實(shí)際應(yīng)用過(guò)程中對(duì)語(yǔ)音的體驗(yàn),使語(yǔ)音服務(wù)更加的親切自然。
一般的電話語(yǔ)音應(yīng)用中,通常沒(méi)有使用背景音,或僅用背景音樂(lè)填補(bǔ)用戶的等待時(shí)間。這樣的使用方法常常會(huì)在背景音樂(lè)與合成語(yǔ)音切換時(shí)造成能量等方面的突兀差別,使語(yǔ)音信息服務(wù)常常缺少人性化的親和力,用戶長(zhǎng)時(shí)間收聽(tīng)合成語(yǔ)音播放的信息,很容易產(chǎn)生疲勞感。
如果希望實(shí)現(xiàn)背景音與合成語(yǔ)音的同步播放,語(yǔ)音服務(wù)方必須了解語(yǔ)音學(xué)的相關(guān)知識(shí),并且進(jìn)行一定的編碼工作。這種改進(jìn)增加了集成開(kāi)發(fā)的工作量,并且存在一定的難度,因此電話語(yǔ)音系統(tǒng)中插入背景音的問(wèn)題長(zhǎng)時(shí)間以來(lái)都沒(méi)有得到妥善解決。
實(shí)驗(yàn)發(fā)現(xiàn),在語(yǔ)音信息服務(wù)中,為合成語(yǔ)音適當(dāng)?shù)靥砑颖尘耙魳?lè),可以有效改善用戶在實(shí)際應(yīng)用過(guò)程中對(duì)合成語(yǔ)音的體驗(yàn),使語(yǔ)音服務(wù)更加的親切自然。

發(fā)明內(nèi)容
本發(fā)明的目的就是提供一種在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出的方法,為用戶提供背景音應(yīng)用和管理的界面,使背景音和合成語(yǔ)音相輔相成,將背景音與文本語(yǔ)音合成后輸出,提高語(yǔ)音服務(wù)品質(zhì)。
本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的。
一種在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出的方法,包括用戶向合成系統(tǒng)提供合成文本信息,合成系統(tǒng)經(jīng)過(guò)文本分析(對(duì)文本進(jìn)行分句、分詞處理)和韻律分析(產(chǎn)生朗讀的音量、音高、語(yǔ)調(diào)等),再調(diào)用音庫(kù)中的發(fā)音單元,組合成連續(xù)的合成文本語(yǔ)音數(shù)據(jù),其特征是建立背景音庫(kù),建立標(biāo)識(shí)(序號(hào)或名稱)與音庫(kù)內(nèi)容相對(duì)應(yīng)的背景音索引,在語(yǔ)音合成系統(tǒng)的資源管理中心中增加對(duì)背景音庫(kù)進(jìn)行添加、刪除、音量調(diào)整、描述內(nèi)容編輯的管理操作等程序內(nèi)容;在合成文本文件中需要添加背景音的位置加入背景音的CSSML標(biāo)記,確定添加背景音的起始和終止位置,指定使用的背景音文件名稱或者是背景音編號(hào)/名稱,或者在語(yǔ)音合成系統(tǒng)的用戶開(kāi)發(fā)接口提供的設(shè)置合成參數(shù)的函數(shù)中增加背景音的合成參數(shù)(合成系統(tǒng)原來(lái)支持的合成參數(shù)包括設(shè)置文本特性的參數(shù)字符集,文本類型,輸入緩沖區(qū)大??;設(shè)置語(yǔ)音數(shù)據(jù)特性的參數(shù)發(fā)音人,語(yǔ)音數(shù)據(jù)格式,語(yǔ)音數(shù)據(jù)頭格式,字節(jié)序,輸出緩沖區(qū)大小;設(shè)置韻律特性的參數(shù)音高,音量,語(yǔ)速;設(shè)置讀法處理的參數(shù)回車(chē)處理,數(shù)字處理,英文處理;);可以從背景音庫(kù)中提取出CSSML標(biāo)記或合成參數(shù)設(shè)置的背景音,把背景音與合成文本語(yǔ)音按照一定能量比例進(jìn)行混音處理,獲得帶有背景音效果的合成語(yǔ)音數(shù)據(jù)輸出。
背景音庫(kù)的的制作步驟如下(1)收集背景音用戶根據(jù)自己的應(yīng)用需要,預(yù)先收集或錄制適用的背景音樂(lè),并保存為語(yǔ)音文件;(2)格式轉(zhuǎn)化用戶將背景音語(yǔ)音文件的格式手工轉(zhuǎn)換為wav格式;(3)采樣率的轉(zhuǎn)換合成系統(tǒng)根據(jù)用戶安裝的音庫(kù)采樣率,把背景音轉(zhuǎn)換成相同采樣率的語(yǔ)音文件;
(4)能量調(diào)整合成系統(tǒng)根據(jù)用戶指定的參數(shù),對(duì)背景音進(jìn)行能量的調(diào)整;(5)語(yǔ)音數(shù)據(jù)壓縮合成系統(tǒng)將所有背景語(yǔ)音數(shù)據(jù)壓縮成alaw格式;(6)保存合成系統(tǒng)將背景音文件保存到背景音庫(kù)中。
在合成系統(tǒng)開(kāi)發(fā)接口提供的設(shè)置合成參數(shù)的函數(shù)中增加的背景音合成參數(shù),用于指定在語(yǔ)音合成時(shí)添加的背景音標(biāo)識(shí)(序號(hào)或名稱),從背景音庫(kù)中將用戶選擇的背景音提出后,將合成語(yǔ)音和背景音按一定能量或波形比例進(jìn)行混音處理,得到帶有背景音的合成語(yǔ)音數(shù)據(jù)輸出。
從背景音庫(kù)中提取出CSSML標(biāo)記設(shè)置的背景音,其步驟是(1)添加CSSML標(biāo)記用戶可以手工或使用工具生成CSSML文件,并在文件中需要添加背景音的位置加入背景音的CSSML標(biāo)記,以句為單位精確的控制背景音的播放位置;(2)解析標(biāo)記合成系統(tǒng)對(duì)送入的CSSML文件進(jìn)行解析,提取背景音CSSML標(biāo)記的信息,并將信息保存下來(lái),供后繼處理使用;(3)提取背景音文件根據(jù)解析結(jié)果,合成系統(tǒng)從背景音庫(kù)中提取出指定的背景音語(yǔ)音數(shù)據(jù);(4)混音處理按照指定的比例,將合成語(yǔ)音和背景音進(jìn)行混音處理,得到帶有背景音的合成語(yǔ)音;(5)語(yǔ)音數(shù)據(jù)輸出將帶有背景音的合成語(yǔ)音數(shù)據(jù)從合成系統(tǒng)中輸出,進(jìn)行必要的格式轉(zhuǎn)化等操作。
資源管理中心的背景音用戶界面中,設(shè)置“資源管理中心”的“背景音庫(kù)”界面實(shí)現(xiàn)背景音資源的添加、刪除和修改,以及設(shè)置提示音的相關(guān)屬性;設(shè)置“背景音屬性設(shè)置”界面實(shí)現(xiàn)背景音屬性的設(shè)置與修改,這些屬性包括背景音名稱、編號(hào)、背景音時(shí)長(zhǎng)、重復(fù)播放選項(xiàng)、背景音說(shuō)明;設(shè)置“背景音屬性設(shè)置”界面實(shí)現(xiàn)背景音試聽(tīng)和調(diào)節(jié)功能,界面中為用戶提供背景音與合成語(yǔ)音音量對(duì)比的調(diào)節(jié)工具,用戶可以試聽(tīng),并根據(jù)需要進(jìn)行適當(dāng)調(diào)整,以獲得最佳混音效果;設(shè)置“合成演示程序”界面“高級(jí)參數(shù)設(shè)置”決定是否使用背景音。
背景音是合成系統(tǒng)的一種資源,存放于系統(tǒng)的背景音庫(kù)中。在使用合成系統(tǒng)前,需要將用戶想要播放的背景音添加到背景音庫(kù)中,然后就可以在合成系統(tǒng)中使用了。
發(fā)明的效果背景音的靈活應(yīng)用。可以對(duì)被合成文本設(shè)置任何符合格式要求的背景音,增強(qiáng)信息播報(bào)的聽(tīng)覺(jué)效果??梢栽诒缓铣晌谋镜娜魏挝恢貌迦氩煌谋尘耙?,例如,配合開(kāi)門(mén)聲,風(fēng)雨聲,或者歌聲,人群歡笑聲,以營(yíng)造不同的氣氛,滿足不同性質(zhì)語(yǔ)音信息,以及不同信息受眾的需要。
背景音的統(tǒng)一管理。用戶可以根據(jù)各自的需要或喜好,自行定制背景音庫(kù)。合成系統(tǒng)提供了背景音添加向?qū)?,幫助用戶完成背景音的添加和設(shè)置。并且可以用背景音名稱或編號(hào)減縮,使用十分方便。
試聽(tīng)和調(diào)整功能。方便用戶調(diào)整背景音與合成語(yǔ)音的能量對(duì)比,達(dá)到和諧悅耳的效果。
術(shù)語(yǔ)解釋語(yǔ)音合成(Text-To-Speech)又稱為文語(yǔ)轉(zhuǎn)化。它涉及聲學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理、多媒體等多種學(xué)科,是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)。語(yǔ)音合成技術(shù)解決的主要問(wèn)題是如何將電子化文本的文字信息轉(zhuǎn)化為能夠播放的聲音信息。近代語(yǔ)音合成技術(shù)是隨著計(jì)算機(jī)技術(shù)和數(shù)字信號(hào)處理技術(shù)的發(fā)展而發(fā)展起來(lái)的,目的是讓計(jì)算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語(yǔ)音。
IVR交互式語(yǔ)音應(yīng)答(Interactive Voice Response),是呼叫中心系統(tǒng)結(jié)構(gòu)中不可或缺的重要組成部分,它能為來(lái)話者提供相應(yīng)的語(yǔ)音引導(dǎo),并為其實(shí)現(xiàn)自動(dòng)語(yǔ)音服務(wù)。
CSSML即中文語(yǔ)音合成標(biāo)記語(yǔ)言(Chinese Speech SynthesisMarkup Language),是針對(duì)中文語(yǔ)音合成的特點(diǎn),由科大訊飛公司制定的中文語(yǔ)音合成標(biāo)記規(guī)范,該規(guī)范是SSML v1.0規(guī)范的擴(kuò)展,于2002年12月發(fā)布。本公司語(yǔ)音合成系統(tǒng)產(chǎn)品都把CSSML規(guī)范作為中文語(yǔ)音合成的支持標(biāo)準(zhǔn),用戶可以通過(guò)CSSML標(biāo)記文本來(lái)指定文本的合成方式,這種方法能夠規(guī)范化文本的合成方式、解決許多語(yǔ)音合成系統(tǒng)難以智能處理的問(wèn)題。


圖1在InterPhonic 3.0語(yǔ)音合成系統(tǒng)的資源管理中心背景音界面管理背景音資源??梢蕴砑?、刪除背景音文件,修改背景音屬性等。
圖2在InterPhonic 3.0語(yǔ)音合成系統(tǒng)的背景音屬性設(shè)置界面設(shè)置背景音屬性和調(diào)節(jié)試聽(tīng)效果。
圖3在InterPhonic 3.0語(yǔ)音合成系統(tǒng)的合成演示程序界面中設(shè)置系統(tǒng)參數(shù),確定是否啟用背景音。
圖4本發(fā)明的工作流程框圖。
具體實(shí)施例方式
一種在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出的方法,包括用戶向合成系統(tǒng)提供合成文本信息,合成系統(tǒng)經(jīng)過(guò)文本分析(對(duì)文本進(jìn)行分句、分詞處理)和韻律分析(產(chǎn)生朗讀的音量、音高、語(yǔ)調(diào)等),再調(diào)用音庫(kù)中的發(fā)音單元,組合成連續(xù)的合成文本語(yǔ)音數(shù)據(jù),其特征是建立背景音庫(kù),建立序號(hào)或名稱與音庫(kù)內(nèi)容相對(duì)應(yīng)的背景音索引,在語(yǔ)音合成系統(tǒng)的資源管理中心中增加對(duì)背景音庫(kù)進(jìn)行添加、刪除、音量調(diào)整、描述內(nèi)容編輯的管理操作等程序內(nèi)容;在合成文本文件中需要添加背景音的位置加入背景音的CSSML標(biāo)記,確定添加背景音的起始和終止位置,指定使用的背景音文件名稱或者是背景音編號(hào)/名稱,或者在語(yǔ)音合成系統(tǒng)的用戶開(kāi)發(fā)接口提供的設(shè)置合成參數(shù)的函數(shù)(本例中采用為T(mén)tssetSyuthParam函數(shù))中增加背景音的合成參數(shù);可以從背景音庫(kù)中提取出CSSML標(biāo)記或合成參數(shù)設(shè)置的背景音,把背景音與合成文本語(yǔ)音按照一定能量比例進(jìn)行混音處理,獲得帶有背景音效果的合成語(yǔ)音數(shù)據(jù)輸出。
背景音庫(kù)的的制作步驟如下(1)收集背景音用戶根據(jù)自己的應(yīng)用需要,預(yù)先收集或錄制適用的背景音樂(lè),并保存為語(yǔ)音文件;(2)格式轉(zhuǎn)化用戶將背景音語(yǔ)音文件的格式手工轉(zhuǎn)換為wav格式;(3)采樣率的轉(zhuǎn)換合成系統(tǒng)根據(jù)用戶安裝的音庫(kù)采樣率,把背景音轉(zhuǎn)換成相同采樣率的語(yǔ)音文件;(4)能量調(diào)整合成系統(tǒng)根據(jù)用戶指定的參數(shù),對(duì)背景音進(jìn)行能量的調(diào)整;(5)語(yǔ)音數(shù)據(jù)壓縮合成系統(tǒng)將所有背景語(yǔ)音數(shù)據(jù)壓縮成alaw格式;(6)保存合成系統(tǒng)將背景音文件保存到背景音庫(kù)中。
在合成系統(tǒng)開(kāi)發(fā)接口提供的設(shè)置合成參數(shù)的函數(shù)中增加的背景音合成參數(shù),用于指定在語(yǔ)音合成時(shí)添加的背景音序號(hào),從背景音庫(kù)中將用戶選擇的背景音提出后,將合成語(yǔ)音和背景音按一定能量或波形比例進(jìn)行混音處理,得到帶有背景音的合成語(yǔ)音數(shù)據(jù)輸出。
從背景音庫(kù)中提取出CSSML標(biāo)記設(shè)置的背景音,其步驟是(1)添加CSSML標(biāo)記用戶可以手工或使用工具生成CSSML文件,并在文件中需要添加背景音的位置加入背景音的CSSML標(biāo)記,以句為單位精確的控制背景音的播放位置;(2)解析標(biāo)記合成系統(tǒng)對(duì)送入的CSSML文件進(jìn)行解析,提取背景音CSSML標(biāo)記的信息,并將信息保存下來(lái),供后繼處理使用;(3)提取背景音文件根據(jù)解析結(jié)果,合成系統(tǒng)從背景音庫(kù)中提取出指定的背景音語(yǔ)音數(shù)據(jù);(4)混音處理按照指定的比例,將合成語(yǔ)音和背景音進(jìn)行混音處理,得到帶有背景音的合成語(yǔ)音;(5)語(yǔ)音數(shù)據(jù)輸出將帶有背景音的合成語(yǔ)音數(shù)據(jù)從合成系統(tǒng)中輸出,進(jìn)行必要的格式轉(zhuǎn)化等操作。
本發(fā)明采用計(jì)算機(jī)軟件形式,應(yīng)用于InterPhonic CE3.0語(yǔ)音合成系統(tǒng)中,為用戶提供一系列背景音應(yīng)用和管理的用戶界面,用戶可以輕松實(shí)現(xiàn)背景音的管理和使用。
目前系統(tǒng)只支持未經(jīng)壓縮的wav格式的音頻數(shù)據(jù),對(duì)于A/U law等壓縮格式的音頻數(shù)據(jù),則不能使用。系統(tǒng)推薦使用16K、16Bits以上高質(zhì)量的音頻文件。
在InterPhonic CE3.0語(yǔ)音合成系統(tǒng)中還設(shè)置了相應(yīng)參數(shù),指定在語(yǔ)音合成時(shí)添加的背景音,從背景音庫(kù)中將用戶選擇的背景音提出后,按照一定的比例,將合成語(yǔ)音和背景音按一定能量或波形比例進(jìn)行混音處理,得到帶有背景音的合成語(yǔ)音數(shù)據(jù)輸出。
■界面1(圖1)在InterPhonic 3.0語(yǔ)音合成系統(tǒng)的資源管理中心背景音界面管理背景音資源??梢蕴砑印h除背景音文件,修改背景音屬性等。
■界面2(圖2)在InterPhonic 3.0語(yǔ)音合成系統(tǒng)的背景音屬性設(shè)置界面設(shè)置背景音屬性和調(diào)節(jié)試聽(tīng)效果。
其中各項(xiàng)參數(shù)說(shuō)明編號(hào)當(dāng)前所設(shè)置的背景音在背景音庫(kù)中的編號(hào),自動(dòng)顯示。
時(shí)長(zhǎng)正常情況下,當(dāng)前背景音的播放時(shí)間,自動(dòng)顯示。
重復(fù)播放背景音在語(yǔ)音合成過(guò)程中,應(yīng)用當(dāng)前背景音時(shí),是否重復(fù)播放。用戶選擇。
名稱當(dāng)前背景音的名稱。在背景音庫(kù)中,背景音文件的名稱必須唯一,長(zhǎng)度不大于36字符。
描述對(duì)當(dāng)前背景音的簡(jiǎn)單說(shuō)明,長(zhǎng)度不大于256字符。
混音比例在進(jìn)行語(yǔ)音合成時(shí),背景音與合成語(yǔ)音的音量比例。
取值范圍0~0.6,值越大,背景音音量越大;取值為零,表示背景音為靜音。
試聽(tīng)功能單擊“試聽(tīng)”按鈕,可以試聽(tīng)當(dāng)前正在設(shè)置的背景音。單擊“停止”按鈕結(jié)束試聽(tīng)。
■界面3(圖3)在InterPhonic 3.0語(yǔ)音合成系統(tǒng)的合成演示程序界面中設(shè)置系統(tǒng)參數(shù),確定是否啟用背景音。選擇“不使用背景音”,合成的語(yǔ)音文件中不出現(xiàn)背景音,這是默認(rèn)形式;選擇具體的背景音文件名,就是在合成的語(yǔ)音文件中使用此背景音。默認(rèn)情況下,合成以后的語(yǔ)音文件中通篇都將應(yīng)用同一段背景音樂(lè)。如果只需要在被合成文本某些地方使用背景音樂(lè),或者對(duì)不同語(yǔ)句應(yīng)用不同的背景音樂(lè),應(yīng)當(dāng)在被合成文本的適當(dāng)位置添加CSSML標(biāo)記,例如

在合成文本中用CSSML標(biāo)記引用背景音可以有三種形式一是用背景音名稱,如<environment src=″name背景音名稱″></environment>
二是用背景音編號(hào),如<environment src=″id2″></environment>
三是用背景音文件路徑,如<environment src=″d\music.wav″></environment>
權(quán)利要求
1.一種在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出的方法,包括用戶向合成系統(tǒng)提供合成文本信息,合成系統(tǒng)經(jīng)過(guò)文本分析(對(duì)文本進(jìn)行分句、分詞處理)和韻律分析(產(chǎn)生朗讀的音量、音高、語(yǔ)調(diào)等),再調(diào)用音庫(kù)中的發(fā)音單元,組合成連續(xù)的合成文本語(yǔ)音數(shù)據(jù),其特征是建立背景音庫(kù),建立標(biāo)識(shí)(序號(hào)或名稱)與音庫(kù)內(nèi)容相對(duì)應(yīng)的背景音索引,在語(yǔ)音合成系統(tǒng)的資源管理中心中增加對(duì)背景音庫(kù)進(jìn)行添加、刪除、音量調(diào)整、描述內(nèi)容編輯的管理操作等程序內(nèi)容;在合成文本文件中需要添加背景音的位置加入背景音的CSSML標(biāo)記,確定添加背景音的起始和終止位置,指定使用的背景音文件名稱或者是背景音序號(hào)/名稱,或者在語(yǔ)音合成系統(tǒng)用戶開(kāi)發(fā)接口提供的設(shè)置合成參數(shù)的函數(shù)中增加背景音合成參數(shù);可以從背景音庫(kù)中提取出CSSML標(biāo)記或合成參數(shù)設(shè)置的背景音,把背景音與合成文本語(yǔ)音按照一定能量比例進(jìn)行混音處理,獲得帶有背景音效果的合成語(yǔ)音數(shù)據(jù)輸出。
2.根據(jù)權(quán)利要求1所述的在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出方法,其特征在于背景音庫(kù)的的制作步驟如下(1)收集背景音用戶根據(jù)自己的應(yīng)用需要,預(yù)先收集或錄制適用的背景音樂(lè),并保存為語(yǔ)音文件;(2)格式轉(zhuǎn)化用戶將背景音語(yǔ)音文件的格式手工轉(zhuǎn)換為wav格式;(3)采樣率的轉(zhuǎn)換合成系統(tǒng)根據(jù)用戶安裝的音庫(kù)采樣率,把背景音轉(zhuǎn)換成相同采樣率的語(yǔ)音文件;(4)能量調(diào)整合成系統(tǒng)根據(jù)用戶指定的參數(shù),對(duì)背景音進(jìn)行能量的調(diào)整;(5)語(yǔ)音數(shù)據(jù)壓縮合成系統(tǒng)將所有背景語(yǔ)音數(shù)據(jù)壓縮成alaw格式;(6)保存合成系統(tǒng)將背景音文件保存到背景音庫(kù)中。
3.根據(jù)權(quán)利要求1所述的在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出方法,其特征在于在合成系統(tǒng)開(kāi)發(fā)接口提供的設(shè)置合成參數(shù)的函數(shù)中增加的背景音合成參數(shù),用于指定在語(yǔ)音合成時(shí)添加的背景音標(biāo)識(shí)(序號(hào)),從背景音庫(kù)中將用戶選擇的背景音提出后,將合成語(yǔ)音和背景音按一定能量或波形比例進(jìn)行混音處理,得到帶有背景音的合成語(yǔ)音數(shù)據(jù)輸出。
4.根據(jù)權(quán)利要求1所述的在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出方法,其特征在于從背景音庫(kù)中提取出CSSML標(biāo)記設(shè)置的背景音,其步驟是(1)添加CSSML標(biāo)記用戶可以手工或使用工具生成CSSML文件,并在文件中需要添加背景音的位置加入背景音的CSSML標(biāo)記,以句為單位精確的控制背景音的播放位置;(2)解析標(biāo)記合成系統(tǒng)對(duì)送入的CSSML文件進(jìn)行解析,提取背景音CSSML標(biāo)記的信息,并將信息保存下來(lái),供后繼處理使用;(3)提取背景音文件根據(jù)解析結(jié)果,合成系統(tǒng)從背景音庫(kù)中提取出指定的背景音語(yǔ)音數(shù)據(jù);(4)混音處理按照指定的比例,將合成語(yǔ)音和背景音進(jìn)行混音處理,得到帶有背景音的合成語(yǔ)音;(5)語(yǔ)音數(shù)據(jù)輸出將帶有背景音的合成語(yǔ)音數(shù)據(jù)從合成系統(tǒng)中輸出,進(jìn)行必要的格式轉(zhuǎn)化等操作。
5.根據(jù)權(quán)利要求1所述的在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出方法,其特征在于資源管理中心的背景音用戶界面中,設(shè)置“資源管理中心”的“背景音庫(kù)”界面實(shí)現(xiàn)背景音資源的添加、刪除和修改,以及設(shè)置提示音的相關(guān)屬性;設(shè)置“背景音屬性設(shè)置”界面實(shí)現(xiàn)背景音屬性的設(shè)置與修改,這些屬性包括背景音名稱、編號(hào)、背景音時(shí)長(zhǎng)、重復(fù)播放選項(xiàng)、背景音說(shuō)明;設(shè)置“背景音屬性設(shè)置”界面實(shí)現(xiàn)背景音試聽(tīng)和調(diào)節(jié)功能,界面中為用戶提供背景音與合成語(yǔ)音音量對(duì)比的調(diào)節(jié)工具,用戶可以試聽(tīng),并根據(jù)需要進(jìn)行適當(dāng)調(diào)整,以獲得最佳混音效果;設(shè)置“合成演示程序”界面“高級(jí)參數(shù)設(shè)置”決定是否使用背景音。
全文摘要
本發(fā)明公開(kāi)了一種在語(yǔ)音合成系統(tǒng)中將背景音與文本語(yǔ)音混合輸出的方法,包括用戶向合成系統(tǒng)提供合成文本信息,合成系統(tǒng)經(jīng)過(guò)文本分析和韻律分析,再調(diào)用音庫(kù)中的發(fā)音單元,組合成連續(xù)的合成文本語(yǔ)音數(shù)據(jù)。本發(fā)明特征是建立背景音庫(kù),在合成文本文件中加入背景音的CSSML標(biāo)記,或者在語(yǔ)音合成系統(tǒng)用戶開(kāi)發(fā)接口提供背景音合成參數(shù);然后從背景音庫(kù)中提取出CSSML標(biāo)記或合成參數(shù)設(shè)置的背景音,把背景音與合成文本語(yǔ)音按照一定能量比例進(jìn)行混音處理后輸出,增強(qiáng)了信息播報(bào)的聽(tīng)覺(jué)效果。
文檔編號(hào)G10L13/00GK1584979SQ200410044998
公開(kāi)日2005年2月23日 申請(qǐng)日期2004年6月1日 優(yōu)先權(quán)日2004年6月1日
發(fā)明者嚴(yán)峻, 于繼棟, 李海方 申請(qǐng)人:安徽中科大訊飛信息科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1