-
專訪《生成式人工智能》作者丁磊:中國大模型廠商趕超美國,關鍵在這里
-
呂棟lvdong@guancha.cn
最后更新: 2024-05-08 23:15:24觀察者網:您在新書《生成式人工智能》中提到,Transformer與ChatGPT模型的出現密切相關,已成為深度學習最亮眼的成果之一,但很多人不明白什么是Transformer,為什么Transformer這么重要?除了Transformer,催生ChatGPT這類大模型的關鍵技術還有哪些?
丁磊:提到Transformer,大家肯定首先想到的就是“transform”這個詞,也就是“轉換”的意思。而顧名思義,Transformer也就是“轉換器”的意思。為什么一個技術模型要叫“轉換器”呢?其實這也正是Transformer的核心,也就是它能實現的功能——從序列到序列。
序列到序列模型(sequence to sequence)是在2014年提出的。所謂序列,指的是文本數據、語音數據、視頻數據等一系列具有連續關系的數據。在序列到序列模型中,只要能編碼成序列,輸入和輸出的可以是任何形式的內容。而序列編碼形式非常廣泛,我們日常做的大部分工作都可以編碼成序列,因此這種模型可以解決很多問題。
2017年出現的Transformer模型,在序列到序列模型基礎上有兩大提升,分別是采用多頭注意力機制和引入位置編碼機制,能夠識別更復雜的語言情況,從而能夠處理更為復雜的任務。在Transformer模型中,能輸出或生成的內容更加廣泛,包括文本、圖像、語音、視頻以及更廣義的內容,例如它可以生成報告、策劃方案、代碼以及程序等,是通用型的模型,可以生成任何我們需要的內容。目前國內外的大廠,都在基于Transformer技術推出自己的模型。
而且Transformer模型底層是開源的,每個人都可以利用Transformer技術,然后就是看誰可以設計出更加精巧的模型結構?,F在ChatGPT是基于GPT模型的,未來可能有更新的GPT模型結構,我們可以去改進它。也就是說,首先我們能改變模型結構,其次我們有沒有更多更好的數據去訓練模型,第三就是如何去訓練一個類似ChatGPT的模型,這也是很有講究的。
這三點也可以這么理解,就像教育小孩一樣,首先要有一個類似人類大腦的框架在那里,也就是模型的結構;其次是訓練模型的數據,相當于給小孩看什么樣的教材、講什么樣的課程;第三是如何培養孩子,也就訓練的方法。這三點,決定了我們能訓練出什么樣的模型。
ChatGPT(資料圖)
觀察者網:現在很多互聯網大廠在宣傳自己模型的時候,更喜歡突出千億甚至萬億的參數規模,這導致行業在模型參數上展開“軍備競賽”,業界也似乎秉持著“模型越大越好”的觀點,您如何評價這種觀點?我們該如何認識一個大模型的水平?
丁磊:大模型或模型大只是單一評價維度,大公司喜歡突出參數規模,是因為他們可以調動的資源更多,比如在算力、數據等層面,他們更有優勢,所以他們更偏向突出模型參數規模的優勢。但是從客觀角度來說,我覺得模型的“深度”更重要。
什么叫深度?是指模型在某一領域解決問題的能力更強,比如解決數學問題的能力更突出,或者在具體行業應用中,能把某一行業的問題解決的更專業,這就叫模型更深。如果一個模型只是夠大,并不能解決相應的業務問題,或者是只能解決部分問題,給不出完全正確的解決方案,在很多情況下就會失去用處。因此,除了關注參數規模之外,還要看重模型的深度。
觀察者網:能否這樣理解,大模型的“大”代表的是通用性,如果中小企業沒有能力去煉大模型的話,可以基于大廠研發的大模型,去做更加專用的行業模型來服務自身的業務?
丁磊:大部分的中小企業并不會去參與大模型的競賽,相反他們會基于開源的大模型去研發,甚至ChatGPT也都支持在線的訓練和迭代。也就是說,這些中小企業會利用一些開源的大模型,或者在線可以訓練迭代的大模型,去解決他們業務場景的問題,來構建相應的“深模型”,這也是大部分中小企業應該走的路。
觀察者網:現在布局大模型的大多都是互聯網企業,像國內的阿里、百度、騰訊等,以及美國的微軟和谷歌,互聯網企業在做大模型方面有哪些獨特的優勢?
丁磊:互聯網大廠在數據積累方面肯定更有優勢,但我認為開源還是會成為整個行業的趨勢,現在國內外都有開源的大模型,使用的數據大多也都是互聯網上公開的,像OpenAI訓練ChatGPT使用的數據,大多也都是互聯網上可以公開獲得的。大公司獲取數據的速度可能會更快,獲得體量也會更大,但這并不意味著互聯網巨頭在大模型領域有絕對的壟斷優勢。我們之前分析過,實際上訓練ChatGPT這種大模型,實力雄厚的創業公司或者一些中型公司,也都有能力來做這方面的事,不一定只有大公司才能做。
觀察者網:中美在AI領域的競爭最引人關注。馬斯克不久前曾提到,中美在AI方面的差距大約在十二個月左右。而國內一些廠商稱自己的大模型部分能力已超越ChatGPT,并且很快將整體趕超ChatGPT。您如何看待中美在AI方面的差距,國內廠商能否迅速趕超美國企業?
丁磊:我覺得與其對比中美,不如對比訓練模型這件事跟互聯網思維模式的差別。各國企業其實沒有本質差別,都可以做訓練模型這件事,但誰能最終做出來,就需要一種新的思維方式。打個比方,包括谷歌在內的互聯網公司研發產品,采用的是“養雞模式”,公司會將“養雞”拆成不同的細分任務,多部門人員各自負責具體業務。
而訓練GPT模型是“養娃模式”,它反而不需要那么多老師、廚師,核心人物只要少數。也就是說,它很難拆分成完全獨立的任務,必須有固定父母站在全局角度,親自教授培養孩子。所以在這種模式下,谷歌沒有最早做出產品的原因很簡單,現有體系很難在AI領域取得里程碑式的成功。訓練GPT模型本質是一個很難拆解的事,需要公司領導層在技術、業務,甚至資本層都是專家。
另一個簡單的例子就是,美國AI繪畫工具Midjourney,是由一家獨立研究實驗室開發出來的。包括創始人大衛·霍爾茲在內僅有11個人,除了他和財務、法務,核心只有8位研發人員。我也曾在IBM沃森研究中心有過一段工作經歷,IBM的沃森人工智能也曾陷入這種困境——有太多的人參與人工智能訓練,資源太多、研發不聚焦,造成項目沒有持續取得成績。
實際上,美國真正專注通用人工智能研發的知名公司也就兩家——OpenAI以及谷歌母公司Alphabet下設的人工智能實驗室DeepMind。就目前披露的信息看,OpenAI創始人奧特曼個人能力非常強,不僅懂技術,也懂商業運作,OpenAI在運營過程中也鮮少受股東制約。OpenAI是長在美國硅谷重視工程師地位的文化土壤里,有著強大的“工程師文化基因”,簡單說就是工程師可以主導研發,擁有更大自主性,發揮創造性的空間更大。
但OpenAI并不能代表美國的互聯網公司。所以我認為,互聯網公司在訓練大模型這件事上,并不具有天賦基因。它們可以去學,也可以去適應,但它本身并沒有這個基因。他們適合做一件事情,就是像“養雞”這樣的事,或者說更適合做大規模的生產,但訓練模型更像是“養娃”,你不能把這個問題拆分,ChatGPT擁有1750億個參數,我們沒辦法把它拆分成100份1000份,讓不同團隊并行去做,根本做不到。
觀察者網:有沒有可能判斷一下,中美企業在大模型領域的差距,以及追趕的時間表?
丁磊:這個沒辦法給出明確的時間表,因為現在主要也就OpenAI一家的大模型在各方面都比較領先。但是我認為,任何一家互聯網企業,如果按照原來的運行模式,很難做出像ChatGPT這樣的大模型,無論中國還是美國企業都一樣。
觀察者網:現在人們容易討論的問題是,為什么ChatGPT會率先誕生在美國,而中國企業涌入大模型更像是跟風,您怎么看待這種問題?
丁磊:我在硅谷工作多年,非常了解為什么硅谷會出現OpenAI以及奧特曼這樣的人物——是硅谷的“工程師文化基因”造就了他們。OpenAI其實也是一個異類公司,而硅谷擁有技術驅動的傳統文化,可以去忽視短期利益去做長期投入。OpenAI以及奧特曼,本身也有較強的資金基礎,使他們可以進行大規模投入,而大部分公司并不具備做這種事情的先決條件。
觀察者網:我們都知道,人工智能有三駕馬車:算力,算法,數據。在生成式AI概念中,這三駕馬車的重要性有大小之分嗎?眼下英偉達的GPU成為稀缺品,國內AIGC的發展會因為算力因素受限嗎?
丁磊:數據、算法和算力都很重要。但是我認為,數據現在比較容易獲得,很多數據都是互聯網上的數據,可以很容易獲得。最核心的還是算法,這關系到模型訓練的效果。
- 責任編輯: 呂棟 
-
昔日頂流基金經理蔡嵩松行賄、受賄案已當庭宣判
2024-05-08 22:54 -
王炸芯片,難再成蘋果救星
2024-05-08 18:18 觀網財經-科創 -
ST陽光:控股股東涉嫌內幕交易被證監會擬罰款2.32億元
2024-05-07 20:57 -
華為蘋果同日對決,背后還有中韓面板之爭
2024-05-07 17:23 觀網財經-科創 -
歷史性一幕!iPhone在華市場份額跌出前五
2024-05-07 11:13 觀網財經-科創 -
45億加碼“五五購物節”,拼多多助力上海“拼”出精彩
2024-05-06 19:32 -
美國?Tiktok法案的起草人,引火燒身了
2024-05-06 18:47 觀網財經-金融 -
舒適賽道紅利釋放,紅豆股份品牌轉型出成效
2024-05-06 13:33 -
“五一”近3億人次出游,較2019年同期增長28.2%
2024-05-06 12:16 觀察者頭條 -
巴菲特股東大會要點來了!回應減持蘋果、巨額現金儲備等
2024-05-05 08:28 -
武廣高鐵、滬杭客專等4條高鐵線漲價,漲幅近20%
2024-05-04 14:13 高鐵世紀 -
深圳將取消福田、南山之外區域住房限購?深圳住建局回應
2024-05-04 10:27 觀網財經-房產 -
20張營業執照只有3家實存?央媒:問題在下頭,根子在上頭
2024-05-03 11:21 基層治理 -
上海推出商品住房“以舊換新”活動
2024-05-03 09:39 觀網財經-房產 -
中俄東線天然氣管道最新進展
2024-05-03 09:30 國企備忘錄 -
31省份“一季報”:蘇魯浙增速超6%,山西總量下滑
2024-05-02 21:39 宏觀經濟 -
美聯儲維持利率不變,納指兩連跌星巴克重挫
2024-05-02 07:42 觀網財經-海外 -
南京公積金新政:包括宣城、馬鞍山在內的南京都市圈9城互認互貸
2024-05-01 19:50 觀網財經-房產 -
美國當前經濟數據中,也許藏著高官接連訪華的答案
2024-05-01 09:24
相關推薦 -
-
全國最大!哈密百萬千瓦“光熱+光伏”項目并網發電 評論 37“中國在非洲真正贏得了民心,就連斯威士蘭…” 評論 75“日企抱團是絕望之舉,中國工廠效率質量都是第一” 評論 123“她下月訪華,盡管特朗普團隊表達了擔憂” 評論 54最新聞 Hot
-
“中國在非洲真正贏得了民心,就連斯威士蘭…”
-
“日企抱團是絕望之舉,中國工廠效率質量都是第一”
-
“中國有能力讓夢想照進現實,將贏得史詩般競爭”
-
被災民暴罵到當場破防,馬克龍發飆:你該慶幸你在法國!
-
美高校敦促國際學生抓緊回來:萬一把中印拉黑名單呢
-
美國政府“逃過一劫”
-
“澤連斯基要求歐盟新外長:對華批評要降調”
-
澳大利亞來了,中國就得走人?澳總理這么回應
-
美媒感慨:基建狂魔發力,我們又要被超越了
-
英國剛公布新任大使,特朗普顧問就痛罵:傻X
-
“來自中國的老大哥能確保我們…”
-
俄羅斯的報復來了
-
澤連斯基罵普京“傻子”,俄方怒斥
-
還在扯皮中國,“涉華條款全刪了”
-
中國“光伏OPEC”發文嚴厲質問央企,怎么回事?
-
“最后一道貿易障礙,中國解除了!”
-