-
劉聰:代表人工智能第三次浪潮的快速發展,這是中國人的原創
最后更新: 2024-07-26 16:16:00這樣,一方面實現了人聲和噪聲的精確分離,另一方面,多維度的語音屬性結構可以進一步地把聲音里的內容、韻律、音色等處理出來,如此可以進一步地去解決雞尾酒會問題。過去幾年,訊飛連續4屆參與并獲得國際多通道語音分離和識別權威賽事CHiME的冠軍,充分證明我們的語音識別技術突破了更加復雜的場景。再進一步結合大模型,就是我們今年6月27日舉行的訊飛星火V4.0發布會上呈現的極復雜語音轉寫技術,基于訊飛星火大模型的多模態能力,現場在噪聲環境下三人同時說話,正常人耳難以聽清,但我們做到了將每個人的聲音較為準確分離,并且實時轉寫出來。
訊飛星火V4.0發布會上展示的極復雜語音轉寫
作為一項技術框架的創新,復雜語音信號解耦建模關鍵技術還可以再延伸一下,應用到語音合成上。在過去,語音合成需要一個人錄制自己很多的聲音語料之后才能進行合成。如果我們沒有研發剛才所說的語音屬性解耦技術的話,我們就很難把很多人的聲音合成為一個合成聲音,因為若將所有的聲音全混在一起的話,可想而知會變成一個“四不像”。但是,當我們通過這項技術把每一個人的聲音屬性解耦出來之后,就可以把很多人的語音混在一起,訓練一個合成的模型,并且能夠分辨每個人的聲音之間的一些共性和特性是什么。
此后,你如果希望模擬某個人的聲音,只需要用這個人聲音的特性以及相關的數據去建模即可。我們將這些屬性進一步去建模、去控制時,如果面對一些新的發聲人,可能就不再需要那么多的語音。以前語音合成需要錄制一個人十個小時左右的語音,近幾年只需要幾分鐘;目前在大模型框架之下,只需要一句話就可以了。所以,有了語音屬性解耦技術,我們不僅能解決語音識別的問題,同樣還可以達到對特定人更好的語音合成效果。
心智觀察所:本次國獎的獲獎項目為訊飛研究多年的成果,而近些年面對大模型的突然崛起,業界有聲音質疑獲獎項目是否被大模型的到來所顛覆。請問您會如何回應這些質疑,并請您簡單講述訊飛將如何將大模型與國獎項目相結合。
劉聰:最早的大模型技術關注的并非語音領域,包括OpenAI的ChatGPT在內的大模型大部分是文本大模型,重點在于文本。
智能語音技術更多是聲學層面,但以語音識別為例,語音轉變成文字的過程中牽扯到了語言模型,即文本模型的一種。以ChatGPT等為代表的文本大模型,因為它的模型更大、語料更多、長文本的建模能力更強,本身能夠直接提升語音識別和語音翻譯等效果。
語音合成則是反方向的,從文本到語音。當我們對文本做前端分析的時候會用到一些語言模型的技術,所以同樣也會文本大模型能力的提升帶來更好的效果。
其次,我們也可以進一步從文本大模型進行延伸。當有了文本大模型之后,業界開始研發一些其他種類的大模型。我們比較熟知的是從文本大模型拓展到多模態大模型,例如文生視頻模型、文生圖模型、多模態視覺理解模型等。當然,業界也有專門研究語音大模型的,套用文本大模型的框架來做語音大模型的框架。
雖然此次我們的國獎獲獎項目并沒有直接使用大模型,但是針對語音提出的一些算法創新,可以在大模型時代進一步與語音大模型進行結合。舉個例子,我們剛才提到的語音屬性解耦、語音信號時空分離等創新技術,本質上是對原始的語音信號進行處理之后,獲得更高質量的語音編碼向量。我們可以將更高質量的語音編碼向量處理之后,再輸入到大語言模型里,這樣做會比直接把原始語音信號進行建模的效果更好,能夠完成前端的預處理及預訓練。
原來在多語種領域里,國際上做得最好的一般是谷歌、微軟,他們有很多的多語種數據。但OpenAI在發布文本大模型ChatGPT之后,去年11月發布了Whisper v3的多語種語音大模型,效果非常驚人。訊飛則在去年12月開始,針對性結合此次國獎獲獎項目的一些技術訓練星火語音大模型,并于今年1月30日發布訊飛星火語音大模型。一經發布之后,在中文、英語、法語、俄語等首批37個主流語種的語音識別效果已超過了Whisper v3。
此外,我們之前也發布了超擬人語音合成,意味著我們與機器進行語音對話時,能聽到像真人一樣的合成聲音,并且有情緒感知能力,不論在語音合成的自然度和擬人度上都有更好的表現。
今年1月30日訊飛星火語音大模型正式發布
這個項目涉及的創新方法結合場景應用,可以在通用大模型的基礎之上,進一步對語音問題有更好的建模和理解,同時也降低我們對多語種海量數據的需求。本項目的技術跟大模型之間可以形成互相借鑒、互相結合的關系。
心智觀察所:現在訓練大模型因為各種原因,需要更多地使用國產芯片。那么使用國產芯片來開展智能語音算法模型訓練和推理的時候,有哪些難點需要被克服?請問訊飛專門做了哪些優化?
劉聰:國產化也是本項目的一大特點。我們一直強調國產自主可控,一方面是重視自己能夠掌握的算法創新,另一方面注重跟硬件相結合。2019年訊飛被美國列入“實體清單”時,我們就開始做儲備。目前,國產芯片本身在制造等方面被“卡脖子”,在性能上有一定的差距,而且芯片的軟件生態也有待發展。
對比圖像,在本項目里用國產芯片做語音模型訓練相對而言難度更大。說同樣一個詞,我可以說得慢、也可以說得快;在語音模型里做芯片的適配時,不同的語音長度可能會導致對算子的適配度不一樣。即使芯片在硬件參數上水平相當,但算子適配不好的情況下去直接訓練模型,很可能剛開始只有百分之二三十的效率。這樣同樣訓練一個模型,需要的時間更長,還有些算子會不支持,實際上是很重要的一個問題。
從現在領域里比較關注的端側適配的角度來看,一些國外的芯片在端側使用這些模型時,量化適配做的比較好,不論什么模型在量化后損失可控。而國產化的一些端側芯片量化之后,積累的誤差損失會比較大。
所以針對性能低、適配難以及語音變長等問題,項目提出了硬件親和的變長輸入算子融合和聯合統一量化感知訓練技術,通過軟硬件協同優化的動態張量算子自動融合方法,實現對語音等變長輸入的訓練性能優化達到國際主流芯片同等水平;通過多硬件聯合的量化計算模擬,達到模型單次訓練后可在不同硬件平臺上一鍵部署,解決了智能語音技術硬件平臺的“卡脖子”問題。現在訊飛很多的硬件產品,例如錄音筆、掃描筆、辦公本、學習機等都使用了國產芯片,也基本在使用上面提到的算法,證明了有效性。
值得一提的是,由于我們被列入“實體清單”,導致這些工作的開展異常艱苦。但是如果沒有這些經驗和積累,我們此后就無法與華為聯合攻關,在去年共同建設出全國首個國產萬卡算力集群“飛星一號”,并且此后基于“飛星一號”推出訊飛星火大模型V3.5、V4.0,這些星火新版本都是在全國產平臺上訓練出來的。據我所知,如此大規模使用國產化平臺訓練模型成功的只有訊飛。
去年10月24日,“飛星一號”正式發布
所以我想強調的是,此獲得國獎的項目不光是解決了歷史上智能語音技術相關模型的國產化問題,更是為大模型時代的國產化能力奠定堅實的基礎,讓大家看到在全國產算力平臺上訓練對標國際頂尖水平的大模型是完全可行的。
心智觀察所:您剛才談到了首個萬卡的全國產算力平臺“飛星一號”,我們想了解一下它目前的基本情況,請問此平臺目前表現怎么樣?
此外,因為您剛剛也談到為國產硬件芯片做專門的優化非常辛苦。作為走過這條路的企業來說,你覺得國產芯片除了硬件的計算性能之外的軟件生態建設方面,您還有什么呼吁和建議嗎?
劉聰:從進展來說,去年底“飛星一號”整體訓練性能相對于英偉達集群已提升到90%,并且之后還在不斷優化提升,但是整體和國外先進水平對比還是有一定差距。由于模型與模型之間的適配邏輯不完全一樣,有些不同尺寸結構的模型需要持續地適配,我們的重點在訓練最主要的模型上,同時持續地訓練和迭代多模態模型、語音模型等。我們也將繼續與華為合作,深入完成全國產算力平臺相關的工作。
我認為生態是共建的,而不是靠某一家企業的算力和人工智能。如果我們想要做到英偉達一般的生態和框架,能足以應對任意一個模型,就要對各種各樣的結構、尺寸、模型創新有充足的支撐,以及在硬件的底層能力上持續進行演進,變得更加友好。
對此,我有另外一個呼吁:開放算子庫。開放的方式有很多,例如從底層的算子庫到上層的框架,以及配合一些社區的內容。目前,訊飛和華為共建的算子庫大部分都已經共享到庫中,未來如果有更多能夠比較開放地使用算子庫的企業,他們自己的很多創新算法就可以用這些算子去驗證,并且會不斷地去發現問題、閉環問題,這對于我們行業很關鍵,核心還是大家要去用。
心智觀察所:據了解,如奇瑞、一汽等車企也做過一些比較,認為訊飛的多語種智能語音技術效果全面領先于競品賽輪思。華為隨后也做過一個測評,稱訊飛領先于谷歌。請問在這些評比中具體比較的是一些什么樣的項目?
劉聰:一般評測指標有兩種,第一種為技術指標。技術指標一般需要我們要通過國際上權威的評測來做,可以理解成純算法本身的比拼。例如我們在2021年國際低資源多語種語音識別挑戰賽OpenASR,獲得了15個語種22項第一。故此,這種指標是一個較為學術性的指標。
你剛剛提到的這些測試主要是站在產品的層面來做評估,考驗端到端效果。舉個例子,在奇瑞、一汽等車企的評測里,它評估的不只是一個單點的語音識別指標,而是考慮整個汽車語音交互的流暢度、任務的信息傳達準確性、功能多樣性、喚醒成功率等各種各樣的維度。
-
本文僅代表作者個人觀點。
- 責任編輯: 武守哲 
-
歐盟港停滿中國車?“產能過剩”不背鍋
2024-07-26 14:51 心智觀察所視頻 -
統一生態:鴻蒙如何踩著諾基亞和三星的“尸體”前進
2024-07-26 14:22 心智觀察所視頻 -
專稿|“藍屏網災”暴露三大悖論,“純血鴻蒙”另辟蹊徑
2024-07-25 15:01 心智觀察所 -
打破認知局限!我國科學家研發出這一新型材料
2024-07-25 09:39 科技前沿 -
歐盟的反補貼調查,到底圖中國啥?
2024-07-24 13:56 心智觀察所視頻 -
鴻蒙系統與安卓“割席”,未來勝算幾何?
2024-07-24 13:41 心智觀察所視頻 -
“慢就是快”的啟示:中國無人駕駛憑什么后來居上?
2024-07-24 09:49 心智觀察所 -
“7月24日至25日地球可能出現地磁暴過程”
2024-07-23 21:54 天文 -
我國科學家在月壤中首次發現分子水
2024-07-23 18:19 嫦娥奔月 -
新一代載人火箭三級液氫液氧發動機長程高模試驗成功
2024-07-23 10:17 航空航天 -
國內最大、世界第二!可用于航空航天等領域大型核心零部件的加工處理
2024-07-20 22:18 中國精造 -
科技部通報國家重點研發計劃有關項目4個抄襲問題和1個評審請托問題
2024-07-20 14:52 學術造假 -
意義重大!中國電力體系的壯闊藍圖,正在逐步清晰
2024-07-19 13:44 電力改革 -
“中國沒有,國際也沒有,但不意味中國科學家不能做出來”
2024-07-19 08:11 科技前沿 -
我國團隊研發出太陽能動力微型無人機
2024-07-19 07:22 科技前沿 -
重大突破!我國科學家發現新型高溫超導體
2024-07-18 20:45 科技前沿 -
我國科學家為“尼安德特人被現代人所同化”提供有力遺傳學證據
2024-07-18 15:11 科技前沿 -
Open RAN之死:華為中興不戰而勝
2024-07-18 10:27 華為 -
手機直連衛星,中國星鏈何時能登場?
2024-07-18 08:33 -
“設計速度400公里每小時,試驗臺速度達600公里每小時”
2024-07-18 07:13 中國精造
相關推薦 -
“美國這項對抗政策,反而讓中國獲意外之財” 評論 83跟中國冷戰,與美國熱戰,歐盟“小可愛們”吃得消嗎? 評論 100殲-35A官宣!將在珠海航展首次展出 評論 387親歐派贏了,她還特意用俄語說… 評論 230中日高級別政治對話在京舉行:不應也不會“脫鉤” 評論 47最新聞 Hot
-
“美國這項對抗政策,反而讓中國獲意外之財”
-
美國小行星搜尋望遠鏡在大氣層中燒毀,后續項目已延期一年
-
菲律賓又哼唧上了:船、槍、錢一樣沒賠,中國已讀不回
-
跟中國冷戰,與美國熱戰,歐盟“小可愛們”吃得消嗎?
-
美國人準備好“內亂”?
-
“粗魯!他們侮辱我的國家和領導人…”
-
法官員稱“支持對華談判但不妥協”
-
特魯多、莫迪譴責
-
選前最后民調“無異于拋硬幣”,博彩平臺特朗普優勢收窄
-
美國一男子因企圖炸毀變電站被捕,曾鼓吹“加速主義”
-
對華更強硬!他開始“表忠心”了
-
中企開發的秘魯港口揭幕在即,美軍方又煽風點火
-
殲-35A官宣!將在珠海航展首次展出
-
親歐派贏了,她還特意用俄語說…
-
菲律賓舉行三軍演習,“演練奪島”
-
孟加拉國拖欠8.5億美元電費,印度前首富上手段了
-