近日,加拿大新創(chuàng)公司琴鳥發(fā)布了新款人工智能(AI)語音系統(tǒng),其能通過分析講話錄音和對應(yīng)文本以及兩者之間的關(guān)聯(lián),在1分鐘內(nèi)模仿人類“講話”。不過業(yè)內(nèi)專家認為,語音系統(tǒng)真正令人信服地復制人聲,還需再等幾年。
新款人工智能語音系統(tǒng)發(fā)布 可高效率復制人聲
據(jù)《科學美國人》雜志網(wǎng)站2日報道,加拿大新創(chuàng)公司琴鳥(Lyrebird)發(fā)布了新款人工智能(AI)語音系統(tǒng),其能通過分析講話錄音和對應(yīng)文本以及兩者之間的關(guān)聯(lián),在1分鐘內(nèi)模仿人類“講話”,比如,模仿特朗普、奧巴馬和希拉里三個人的聲音展開一段對話。
讓聲音聽起來更自然,是計算機程序在將文字轉(zhuǎn)換成語音過程中面臨的核心挑戰(zhàn),即使目前最好的語音助手,如蘋果公司的Siri和亞馬遜公司的Alexa,一發(fā)聲給人的第一感覺仍然是,“哇!這是計算機。”背后原因在于這些語音助手系統(tǒng)的工作原理:根據(jù)預錄的聲音文檔整理出詞匯,再通過另一個新的音頻文檔將這些詞匯拼湊在一起發(fā)聲。
而琴鳥公司的AI使用了一種全新的語音合成系統(tǒng),能在“傾聽”過程中“掌握”每個人說話時字母、音位和單詞的發(fā)音特點,通過推理并模仿這個人聲音中的情感和語調(diào),“說”出全新的語句。
新系統(tǒng)使用模仿人腦思維的算法創(chuàng)建出一種人工神經(jīng)網(wǎng)絡(luò),能利用深度學習技術(shù)將所聽到的轉(zhuǎn)換成語音,并僅靠任何人1分鐘講話內(nèi)容,就能完全模仿這個人說話。其市場前景非常廣闊,可用來改進個人人工智能助手、音頻書籍以及殘疾人語音系統(tǒng)等。
開發(fā)該系統(tǒng)的蒙特利爾大學學習算法實驗室博士后亞歷山大·布瑞比森表示,在學會并模仿了幾個人的聲音后,再模仿任何一個新對象的語音就會變得更快,因此新語音系統(tǒng)不需太多信息,1分鐘足以捕獲某個人聲音的核心特點。
但美國卡內(nèi)基梅隆大學語言技術(shù)研究所教授迪莫·鮑曼表示,琴鳥的語音系統(tǒng)和真正的人聲之間還有差距。“我仔細聽過琴鳥系統(tǒng)的發(fā)聲,其帶有背景噪音,以及微弱的機器人特征。而且,它還不能模仿人們在講話中的呼吸和唇部運動,因此仍然能聽出其計算機語音特征。”鮑曼說。他認為,語音系統(tǒng)真正令人信服地復制人聲,還需再等幾年。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。