国产无遮挡色视频免费视频-国产五月色婷婷综合-国产五月婷婷-国产午夜不卡-曰批免费视频播放在线看片二-曰韩一级毛片

更多精彩 >

微軟深度神經(jīng)網(wǎng)絡語音,定制個性化的自然人聲

2020-12-01 14:54:50   來源:投資家網(wǎng)專欄  作者:螳螂財經(jīng) 

摘要:以往,談及對合成語音的刻板印象,很多人會聯(lián)想到《星球大戰(zhàn)》中的C-3PO——那個有著近似人類外形金光閃閃的家伙,它是整個系列影片中毫無爭議的搞笑擔當,其動作僵硬而滑稽,說起話來喋喋不休,聲音中混雜著輕微的交流聲和金屬質(zhì)感的回聲。直到今天,它那獨特的嗓音,仍然是很多科幻片中人工智能發(fā)聲的模板。

以往,談及對合成語音的刻板印象,很多人會聯(lián)想到《星球大戰(zhàn)》中的C-3PO——那個有著近似人類外形金光閃閃的家伙,它是整個系列影片中毫無爭議的搞笑擔當,其動作僵硬而滑稽,說起話來喋喋不休,聲音中混雜著輕微的交流聲和金屬質(zhì)感的回聲。直到今天,它那獨特的嗓音,仍然是很多科幻片中人工智能發(fā)聲的模板。

第一部《星球大戰(zhàn)》公映于1977年,彼時,個人電腦才剛剛走出實驗室,人們對于人工智能的想象力仍受限于時代。去年,該系列推出了最后一部作品《星球大戰(zhàn):天行者崛起》,C-3PO的聲音還是人們熟悉的老樣子。而現(xiàn)實中,智能語音技術飛速發(fā)展,取而代之的是聽感越來越趨于自然、逼真的“合成人聲”,讓越來越多的企業(yè)于實現(xiàn)了與客戶的多模態(tài)互動。

合成人聲的用途相當廣泛,我們熟知的便是手機中的語音助手,用戶可通過簡單的人機對話,獲知天氣、路況等實時信息,也可命令手機完成撥號、查詢等任務。這一類應用被稱作實時語音合成,它對基于云的計算力提出了很高的要求,除了需要對聲音的自然度不斷地進行優(yōu)化外,實時合成對于語音合成引擎和平臺架構也都有著極高的要求,必須保障在極低的延遲下,提供準確、穩(wěn)定、自然的聲音內(nèi)容。另一類常見的應用是利用人工智能語音合成有聲內(nèi)容,這類應用通常會在語音服務端進行非實時的批量合成,然后再將有聲內(nèi)容文件提供給用戶。有聲內(nèi)容合成的主要挑戰(zhàn)在于如何通過多種角色扮演和豐富情感表達,降低聽眾單向接收有聲內(nèi)容的聽覺疲勞。

以往,有聲書需要由專業(yè)朗誦者來錄制,制作周期長達數(shù)月且成本高昂。如今,通過智能合成語音錄制有聲書,制作周期可縮短至幾小時,甚至是幾分鐘。即便在需要人工干預校對和聲音編輯的情況下,制作周期也可縮短至數(shù)周,節(jié)省了大量的人力、物力及時間成本,且得到的效果幾乎與真人朗誦別無二致。今年的“世界讀書日”,由周迅與公益組織紅丹丹聯(lián)合發(fā)起的為視障人士讀書活動,向我們展示了語音合成技術的新高度。在此之前,創(chuàng)建一個高質(zhì)量的語音合成模型需要以大量真人原聲為樣本進行機器學習,樣本量通常會超過10小時或10000句。而這次公益活動的主辦方采用了由微軟最新開發(fā)的深度神經(jīng)網(wǎng)絡語音合成定制系統(tǒng),只采集了半小時大約500句的周迅原聲錄音,便通過深度定制的語音模型,惟妙惟肖地復原了周迅的聲音。

這里所說的“復原”不只是周迅頗具特色的聲線,也包括周迅在朗讀時的語氣、情緒、語調(diào)、抑揚頓挫等。可以想象,隨著這一技術的普及,有聲書行業(yè)也將隨之發(fā)生巨大的改變。微軟將在國際殘疾人日捐贈的100小時有聲書籍正昭示著這種改變的開始。

微軟深度神經(jīng)網(wǎng)絡是基于Azure云的端到端語音合成系統(tǒng),由前端、聲學模型和聲碼器三部分組成。前端主要解決基于語義理解的文本發(fā)音問題,比如“2020”在表示年份和數(shù)字時的讀法不一樣,這是上下文關聯(lián)問題;再比如“堡”字,用于地名時應讀作“鋪”,“解”用在姓氏上應讀作“謝”,這都是多音字問題;還有“一會兒”這類詞,不能讀成三個字,后兩個字應合并為兒化音,這是語言習慣問題。聲學模型負責為語音賦予韻律,比如語速、語調(diào)、停頓、重音和情緒變化等。最后一部分聲碼器負責還原語音的聲學特征,也就是一般所說的嗓音或聲線,如振幅、頻率、波長等。

深度神經(jīng)網(wǎng)絡模型是當前最先進的語音合成技術,但相應的主流產(chǎn)品在合成效率、效果,以及所需聲音樣本量上,卻存在很大差異。以樣本量為例,微軟的語音合成定制技術處于行業(yè)領先地位,一般情況下,只需要不超過2000句的內(nèi)容,就可以做到非常逼真的還原。那么,在周迅的案例中,是如何做到只需500句甚至更少的聲音素材就達到類似效果呢?微軟還有一個“殺器”——通用模型。通用模型是在對海量語料庫進行大數(shù)據(jù)分析的基礎上,不斷訓練深度神經(jīng)網(wǎng)絡去學習人類語言與發(fā)聲特征后得到的。目前微軟通用語料庫的容量已經(jīng)超過3000小時,覆蓋了50多個語種,通過它提煉出來的通用模型已經(jīng)熟練掌握了這50多種語言的幾乎全部發(fā)聲規(guī)律,甚至包括真人說話時換氣和咽口水的細節(jié)都可以模仿出來。當微軟需要基于像周迅這樣只有500句話甚至更少內(nèi)容的語料庫做語音定制時,便可以在通用模型基礎上,通過遷移學習法來建立周迅聲音的擴展模型。

目前,微軟的語音合成定制系統(tǒng)只需要半小時左右的聲音樣本便可建立定制語音模型,與傳統(tǒng)TTS建模所需的至少10小時或10000句的聲音樣本量相比,是一個從量到質(zhì)的飛躍。這一飛躍使得面向更多的企業(yè)甚至于普通消費者的個人聲音定制成為可能。

微軟之所以能在語音合成領域保持領先地位,主要得益于其20多年來在算法和定制模型上所積累的深厚功力。自從1991年微軟研究院成立以來,微軟一直將語音作為主要的研究領域,儲備、積累了大量的人工智能相關技術。2018年9月,微軟率先開始測試基于深度神經(jīng)網(wǎng)絡的端到端語音合成系統(tǒng),為人工智能語音技術的發(fā)展揭開了新的一頁。

前不久,微軟將其定制的通用中文發(fā)聲與市場上的主流產(chǎn)品進行了盲測對比,微軟的MOS得分(5分制)為4.35,居于領先地位,表明合成語音與真人聲音已經(jīng)非常接近(真人的MOS得分為4.41)。

除了語音助手和有聲書籍錄制外,語音合成技術還廣泛應用于智能語音客服領域,這也是微軟目前在to B領域的主要發(fā)力點,比如很多航空公司、電商平臺、電信運營商等都在嘗試使用微軟的智能語音客服來緩解人工壓力。智能語音客服可以解決很多常見的標準化問題,減少客戶的等待時間,為客戶帶來更好的服務體驗。在應對突發(fā)事件方面,智能語音客服更有得天獨厚的優(yōu)勢,很多突發(fā)事件都會造成客戶咨詢量在短時間內(nèi)爆發(fā)式增長,在這種情況下,企業(yè)如果增設人工客服,一方面可能在時間上來不及,另一方面?zhèn)}促上崗也可能導致服務質(zhì)量的難以保證。

目前,微軟為企業(yè)定制智能語音客服大致需要300至2000句語料訓練,以滿足特定應用場景的需求;對于需要定制適用于多場景、富有多種情緒甚至涵蓋多語種的品牌聲音的企業(yè)而言,語料訓練則有更高要求。

上述兩種定制目前都會有人工參與測試和適當調(diào)校并向客戶提供靈活的接入方式,即通過API或SDK接入微軟的Azure公有云,實現(xiàn)端到端的實時合成。如果客戶有特殊需求,產(chǎn)品也可部署在私有云甚至離線設備中。未來,這兩種系統(tǒng)都將實現(xiàn)自動化定制。實際上,微軟已經(jīng)邀請合作伙伴開始小范圍的自動化系統(tǒng)測試,可能在不久的將來正式發(fā)布此系列產(chǎn)品。

可以預期,伴隨著相關技術的發(fā)展,智能語音在個人及商業(yè)領域中的應用場景將更加豐富,不斷細分的合成語音服務也會給我們帶來更多的體驗和驚喜。同時,微軟提出了人工智能六項倫理道德準則:公平、可靠和安全、隱私和保證、包容、透明和責任。倡導負責任的人工智能。這些原則將為人工智能的發(fā)展保駕護航,予力全球每一人、每一組織,成就不凡!

直播鏈接:https://live.bilibili.com/h5/4306336

*本文圖片均來源于網(wǎng)絡


猜你喜歡

微軟發(fā)布首款AI PC ,產(chǎn)業(yè)鏈有望迎來新一輪量價齊升

微軟

3月21日晚,微軟舉辦主題為“辦公新時代”的線上新品發(fā)布會

2024-03-22

李星

假如比爾·蓋茨和微軟也不可信

微軟比爾·蓋茨

距離TikTok被強制收購或者強制關閉還有不到一個月。

2020-08-28

新茶飲推動羽衣甘藍被瘋搶,我國新茶飲相關企業(yè)超30.4萬家

創(chuàng)新創(chuàng)業(yè)天眼查

據(jù)報道,近日,羽衣甘藍因多家茶飲品牌的推動,成為新茶飲熱門原料,十余個品牌推出超30款相關飲品。

2025-04-11

家電消費市場持續(xù)回暖 消費者購買以舊換新家電近9000萬臺

大消費天眼查

近日,“2025全國家電消費季”啟動儀式在上海舉行。

2025-04-11

體重管理盛行健康風尚興起,今年以來新增健身相關企業(yè)已達4.5萬余家

大消費天眼查

近年來,體重管理在中國逐漸盛行,成為新的健康風尚。

2025-04-11

家電消費市場持續(xù)回暖 消費者購買以舊換新家電近9000萬臺

大消費天眼查

近日,“2025全國家電消費季”啟動儀式在上海舉行。

2025-04-11

中國2月游戲市場收入同比增長12.3% 我國現(xiàn)存超55萬家游戲企業(yè)

創(chuàng)新創(chuàng)業(yè)天眼查

天眼查專業(yè)版數(shù)據(jù)顯示,截至目前,我國現(xiàn)存游戲相關的企業(yè)有55萬余家。

2025-04-11

賞花經(jīng)濟升溫鄉(xiāng)村游受捧,我國目前已存在64.6萬余家鄉(xiāng)村旅游相關企業(yè)

創(chuàng)新創(chuàng)業(yè)天眼查

近期,云南羅平縣的百萬畝油菜花盛放,吸引了大量游客前來賞花,催生了賞花經(jīng)濟。

2025-04-11

食品標識新規(guī)出臺,我國目前已有超過1584.3萬家食品相關企業(yè)

創(chuàng)新創(chuàng)業(yè)天眼查

市場監(jiān)管總局近期將出臺《食品標識監(jiān)督管理辦法》,旨在解決消費者反映強烈的食品生產(chǎn)日期和保質(zhì)期標注問題...

2025-04-11

阿里魚、三麗鷗聯(lián)合小紅書打造“三麗鷗頭號寶貝大賞”,首創(chuàng)用戶參與開發(fā)聯(lián)名新模式

創(chuàng)新創(chuàng)業(yè)阿里魚

近日,阿里魚聯(lián)合三麗鷗、小紅書發(fā)起的首屆“三麗鷗頭號寶貝大賞”正式落下帷幕。該活動首創(chuàng)“用戶參與聯(lián)名...

2025-04-11

投資家網(wǎng)(www.51baobao.cn)是國內(nèi)領先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務平臺。為活躍于中國市場的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務,包括行業(yè)媒體、智庫服務、會議服務及生態(tài)服務。長按右側(cè)二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。

分化浪潮中的堅守與突破 | 第19屆中國投資年會,即將啟幕

分化浪潮中的堅守與突破 | 第19屆中國投資年會,即將啟幕

在時代的浩渺長河中,“分化”宛如一條隱匿的脈絡,貫穿于萬物的生長、發(fā)展與變遷。從生命的進化到文明的演...

第二屆中匈可再生能源、新材料商業(yè)投資峰會將盛大啟幕

第二屆中匈可再生能源、新材料商業(yè)投資峰會將盛大啟幕

第二屆中匈可再生能源、新材料商業(yè)投資峰會于2025年4月9日在匈牙利布達佩斯盛大啟幕。

雕刻耐心|第18屆中國投資年會·有限合伙人峰會在滬召開

雕刻耐心|第18屆中國投資年會·有限合伙人峰會在滬召開

“中國投資年會”作為私募股權行業(yè)的年度盛會,已成功舉辦了18屆,吸引了全國VC/PE領域從業(yè)者的廣泛...

主站蜘蛛池模板: 欧美日韩视频精品一区二区 | 国产人成精品综合欧美成人 | 亚洲精品线在线观看 | 久久99国产精品久久 | 精品国产美女福利到在线不卡 | 久久精品成人免费网站 | 日本成人免费在线观看 | 亚洲精品aaa | 特黄视频| 美女视频黄.免费网址 | 美女视频黄在线观看 | 在线观看日本亚洲一区 | 国产高清精品久久久久久久 | 精品视频在线免费播放 | 一区二区三区国模大胆 | 国产精品免费一区二区区 | 香蕉伊人网 | 亚洲v视频| 国产日韩欧美另类 | 欧美一级级a在线观看 | 久草视频2 | 亚洲欧美视频在线观看 | 一级a美女毛片 | 成年人网站免费 | 亚洲成人在线播放视频 | 久色网址| 扒开两腿猛进入爽爽视频 | 久久免费观看视频 | 99久久99久久精品免费看子 | 国内自拍视频一区二区三区 | 日韩男人天堂 | 亚洲免费在线播放 | 成人在线第一页 | 亚洲狠狠ady亚洲精品大秀 | 亚洲男人第一天堂 | 日韩免费一区二区三区 | 中文字幕日本一区波多野不卡 | 精品久 | 日本一区二区三区四区公司 | 91精品成人免费国产 | 成熟的女性强烈交性视频 |