-
大橘財經:科大訊飛的AI科技樹——從直播場景識別到智能醫療
最后更新: 2020-10-26 10:54:39導讀我們在2017年11月份,醫考機器人以456的高分通過了國家職業醫師資格考試。在接下來的時間里面,我們基于領先的核心技術,深入到醫療輔診的各個核心的剛需場景,去解決實際問題,核心指標有了大幅度的進步。
觀察者網·大橘財經訊(文/一鳴 編輯/周遠方)10月23日下午,在科大訊飛“全球1024開發者節”上,科大訊飛AI研究院常務副院長劉聰發表了關于“構筑AI科技樹,煥新美好新生活”的主題演講。劉聰表示,語音識別是科大訊飛的傳統強項,目前其已將直播場景下復雜任務的識別效果從60%提到了85%。
科大訊飛AI研究院常務副院長劉聰
劉聰介紹,近年來,科大訊飛陸續推出了方言識別、遠場交互、多麥克風陣列等相關的功能,將語音聽寫從簡單場景的可用做到了通用;語音轉寫從原來的不好不可用,做到了演講、會議、庭審等復雜場景的好用;語音控制、命令喚醒,也從簡單場景的可用,做到了復雜場景的好用。
下一步,科大訊飛將持續深耕語音識別,去挑戰更加復雜的場景,去實現從語音到聲音,從單純的文字內容的識別,到音頻的全場景解析。例如直播場景這樣有游戲、音樂以及笑聲、掌聲等各種音效嘈雜的背景下,如何有針對性地提取想要的聲音。
“面對這種復雜的環境,科大訊飛已經有一套全場景音頻解析的整體方案。目前,我們在直播場景下一個很復雜任務上的識別效果,已經從60%提到了85%,”他表示未來相關技術會在訊飛開放平臺和訊飛聽見上線。
以下是劉聰演講節選:
我們知道語音識別是訊飛的傳統強項,從早期的呼叫導航到2010年我們發布了訊飛超腦語音云和輸入法,開啟了中文語音輸入的時代;通過深度學習框架持續的迭代效果,接下來我們又陸續推出了方言識別、原廠交互、多麥克風陣列等相關的能力;2015年我們又將人機交互的場景拓展到人人對話的場景。
整體來說,我們總結出三點,我們將語音聽寫從簡單場景的可用,做到了通用;語音轉寫從原來的不好不可用,做到了演講、會議、庭審等復雜場景的好用;語音控制、命令喚醒,也從簡單場景的可用,做到了復雜場景的好用。
那隨著現在語音識別在更多場景的應用。我們要想一下,語音識別下一步發展的方向是什么?又有哪些技術可以從實驗室場景走向成熟,還有哪些價值值得我們發掘?
首先我們認為語音識別需要持續的去挑戰更加復雜的場景,去實現從語音到聲音,從單純的文字內容的識別,到音頻的全場景解析。例如現在我們在泛娛樂當中,我們可以看到直播短視頻有很多更加復雜的聲音現象,需要我們去解決。例如在直播的過程當中,背景可能是復雜多樣的,可能有視頻聲、游戲聲或者音樂聲。此外直播連麥的時候還會經常出現多人混疊的對話,這些對我們的語音識別都會有很大的影響。除此之外,這些視頻當中還會包含像笑聲、掌聲、各種音效這樣一些其他的聲音現象。
針對這樣一個場景,我們一方面需要降低各種背景的噪聲對識別精度的影響。另外一方面,要有針對性的將我們感興趣的聲音提取出來。這里我們展示了全場景音頻解析的整體方案。首先我們通過多分辨率特征提取的聲音檢測方案,再結合我們的序列訓練,對一些相似聲音進行精細建模,可以實現將笑聲、音效等非語音的聲音和語音內容分離。
針對包含語音的有效內容,我們也使用了語音降噪和分離的方案,綜合利用我們的聲音、文本、說話等信息,以及在有條件的情況下,還可以使用多模態的唇形、視線以及麥克風陣列的空間位置等信息來進行聯合建模。
這些例子都是我們的真實算法、針對真實數據的一個結果。我們的算法針對這樣的復雜音頻,有了一個很好的處理效果,可以有針對性的提取出更多層次。目前,我們在直播場景下一個復雜任務上的識別效果,已經從60%提到了85%,未來我們相關的技術也會在我們的開放平臺、訊飛聽見等上線。
語音合成
接下來我們來看一下語音合成。我們知道語音合成一般是以自然通報分來作為評價指標的,其中5分是滿分播音員的水平,4分是普通發音人的水平。過去我們是在中英文上,包括冰波形拼接、包括參數合成的方法上達到了普通發音人水平。
近年來,伴隨著深度學習的加持,我們提出了基于聽感量化的多人混合訓練等合成框架,并進一步在向配音合成,然后對話合成等更有表現力的場景,做到了接近4.5分的水平。
合成技術也在持續進步,合成的一些領域,風格也是從單一向多元化發展。那么問題又來了,當我們的合成自然度已經越來越接近真人水平的時候,合成還能有哪些令人驚喜的提升呢?合成下一步發展方向又是什么?
我們要先想一下,為什么像短視頻有聲書這樣的內容非常吸引人,因為它不僅僅是單純的從文本找語音的生成,而是基于我們的文本、聲音、畫面等基本的素材,實現了全方位的包裝。例如,我們的語音當中會包含角色演繹、情感切換的內容在配合上背景的音樂,各種音效,從而形成了這樣一個非常生動活潑的內容。
像我們的語音合成的發展方向,同樣不能只以單純的追求自然度MOS分為目標,而是要追求用戶可以感知的,同時技術可以實現的更高表現力的呈現。這里我們也可以通過從文本內容當中挖掘到角色、情感等更深層的信息。通過剛才說的音樂音效等聽感的提升,以及我們多模態這樣更具表現力的呈現來實現。
對應于語音識別的全場景音頻解析,我們認為語音合成也需要實現從語音到聲音的全場景音頻合成。去年1024發布會上,我們在車載場景下使用我們的環繞音效,提升了用戶聽感的效果。今年我們又進一步進行了拓展,一方面,我們可以基于自然語言理解技術,從文本當中分析到合適的情感焦點以及我們角色相關的信息,并通過語音呈現出來,進一步結合我們針對一些特殊情況打造的背景音樂,從而呈現出一場全局的音頻、全場的一個合成。這里我們也是以一個交互場景為例子,來看一下我們這樣一個聽感提升的效果,請放視頻。
我們可以看到在這個例子當中,一方面它通過對內容的理解,實現一人分飾多角和情感的變化。另外一方面它能通過對場景的理解,當知道用戶累的時候,可以主動的去推送這樣一些舒緩的音樂和音效。這一解決方案除了在交互場景,在小說合成、配音合成等場景也大有可為。
另外我們知道情感的表達、合成和預測也是我們語音合成當中的一個重要的方向,也是業界的研究熱點。但是現在我們看到業界的情感語音合成一般是輸入一句文本,并指定一種情感,然后輸出一段飽含情感的語音。
但我們想一下,在人與人溝通過程當中,其實情感的表達并不是這么全局化、單一化的,而是有一些細微的變化情況。我們的機器合成常被人們詬病,說這個聲音沒有人情味的一個表現。
針對這樣一個問題,我們也是從單一的情感合成升級到面向交互場景的這樣一個微情緒合成的方案。該方案也是基于我們剛才說的,通過聽感量化的編碼,來對我們多種情感進行組合式編碼,以實現我們對局部一些情感的準確的預測和控制。在有了這樣一個方案之后,我們再結合情緒識別等其他的方案,就可以在交互當中體現出一些細微的情感變化,讓我們的用戶用不同的語氣說話的時候,可以得到一些不同的反饋,讓我們整個的交互過程變得更加有趣,更加有人情味。
虛擬形象
接下來我們來看一下多模態合成,也就是虛擬形象。我們在去年發布了全球首個多語種虛擬主播小晴,大家也非常熟悉了。今年我們也是陸續發布了更多的虛擬主播,并在多家媒體使用。
今年我們為小晴進一步研發了表情生成、動作生成等技術,同時結合我們生活化場景的設計進一步的優化,讓我們的小晴具備了交互的能力。當我們虛擬形象具備更好的交互能力之后,再結合我們在一些場景的靜態和動態內容的嵌入,我們就有可能形成一些更加有意思的現象。
例如我們在學習機里面,基于我們的虛擬形象技術、結合我們的語音評測等技術,我們設計了一個可以實時互動的英文主播的教學,讓整個英文的教學變得特別有趣。我們也來看一下演示的視頻。這里面所有的內容都是合成出來的。未來我們也非常歡迎各位合作伙伴可以想一下在我們各自場景有沒有什么樣的需求,可以用我們的這樣一些虛擬形象的技術,讓大家在一些場景當中交互變得更加有意思。
標簽 科大訊飛-
本文僅代表作者個人觀點。
- 責任編輯: 一鳴 
-
茅臺三季報:營收、凈利增速均放緩
2020-10-25 17:21 大公司 -
蘋果5G初代 or 華為麒麟絕唱?
2020-10-23 14:48 商業 -
科大訊飛劉慶峰:AI是“源頭技術”,是買不來的
2020-10-23 14:18 商業 -
華為前三季營收6713億元,同比增長9.9%
2020-10-23 11:28 大公司 -
天貓精靈“走出”音箱,將接入更多智能硬件
2020-10-22 18:03 商業 -
國貨營銷新出路:不會外語也能向全球直播!
2020-10-21 16:22 -
戴森:老板成英國首富,不是中國顧客捧起來的
2020-10-21 15:55 大公司 -
滴滴加磅社區團購 網約車CTO調任橙心優選
2020-10-21 14:11 商業 -
天貓雙十一增至4天,蔣凡:商家對“雙11”有更強期待和預期
2020-10-20 22:36 -
滴滴回應明年港股上市:沒有任何明確計劃或時間表
2020-10-20 17:13 商業 -
西瓜視頻加碼“中視頻”:未來一年補貼20億元,與抖音深度聯動
2020-10-20 11:00 -
殺入紅海:OPPO電視S1發布,售價7999元
2020-10-20 10:27 商業 -
京東:雙十一將備貨超2億件5折商品,投入30座亞洲一號倉
2020-10-19 21:29 -
B站與BBC達成戰略合作,將聯合出品《綠色星球》等紀錄片
2020-10-19 14:35 商業 -
小米、OPPO囤積日本零部件并大幅增產
2020-10-17 15:18 商業 -
美國媒體忍不住說了實話:制裁螞蟻?僅有象征意義
2020-10-16 16:42 大公司 -
講日本故事的真國產“MINISO”,赴美上市了
2020-10-16 15:29 商業 -
螞蟻上市再進一步,港股IPO新增簿記管理人
2020-10-16 14:13 大公司 -
華為發布PowerX 2025能源目標網 助力運營商數字化轉型
2020-10-16 12:18 產業萬象 -
5G的最大敵人是電費?華為為此投入3000人研發團隊
2020-10-15 23:39 華為
相關推薦 -
這領域中美差距正縮小,“中國似乎更受益于AI” 評論 11禁用中國自動駕駛硬件軟件?美國商務部被曝新動作 評論 181以軍再次“先發制人”,“黎以爆發最大規模交火” 評論 256“如果歐盟執意加征關稅,一些中國車企將削減投資” 評論 122QUAD峰會“不針對任何國家”?首個議題就直指中國 評論 177最新聞 Hot
-
馬斯克突然“投降”了
-
哈里斯喊話再辯一次,特朗普:太晚了
-
以軍再次“先發制人”,“黎以爆發最大規模交火”
-
斯里蘭卡大選,左翼候選人領先
-
QUAD峰會“不針對任何國家”?首個議題就直指中國
-
“如果歐盟執意加征關稅,一些中國車企將削減投資”
-
“全球經濟正面臨的壓力,與上世紀20年代大蕭條相當”
-
“看看中美造船差距吧”,美國搖人了
-
美國大豆,中國也不想買了?
-
“中國在中東的兩個成功,歐洲很關注”
-
以軍空襲黎首都,真主黨高級指揮官喪生
-
以色列至少籌劃了15年,美國不愿用是怕傷及無辜?
-
“爆炸前幾小時真主黨仍在分發尋呼機,他們都檢測過”
-
“把俄羅斯踢出五常!”美國務院:整點現實的...
-
“我要是輸了,得賴猶太裔,民主黨給他們下咒了”
-
第二位!被英國政府提前釋放的囚犯,48小時后因相同罪名再次入獄
-