您好,歡迎進(jìn)入深圳市穎特新科技有限公司官方網(wǎng)站!
OpenAI自研芯片的優(yōu)勢(shì)與挑戰(zhàn)
近日,路透社報(bào)道稱(chēng)OpenAI正在考慮自研芯片。根據(jù)報(bào)道,自從去年開(kāi)始,OpenAI已經(jīng)開(kāi)始在為人工智能模型訓(xùn)練芯片缺貨(即Nvidia GPU供貨緊張)的問(wèn)題開(kāi)始考慮對(duì)策,而目前正在積極準(zhǔn)備自研芯片以滿(mǎn)足未來(lái)對(duì)于人工智能芯片的需求。事實(shí)上,不久之前OpenAI的CEO Sam Altman曾公開(kāi)表示Nvidia GPU缺貨對(duì)于OpenAI以及整個(gè)人工智能行業(yè)都存在著很大的影響。另外,從今年開(kāi)始OpenAI開(kāi)始招募硬件相關(guān)的人才,官方網(wǎng)站上有數(shù)個(gè)軟硬件協(xié)同設(shè)計(jì)的職位在招聘,同時(shí)在今年九月OpenAI還招募了人工智能編譯器領(lǐng)域的著名牛人Andrew Tulloch加入,這似乎也在印證OpenAI自研芯片方面的投入。OpenAI官方對(duì)此事拒絕發(fā)表評(píng)論,但是如果這件事最后落地的話,OpenAI將會(huì)是繼谷歌、亞馬遜、微軟、特斯拉等之后又一個(gè)加入自研芯片行列的硅谷科技巨頭。
OpenAI為什么要自研芯片
如前所述,OpenAI自研芯片的主要?jiǎng)恿κ且驗(yàn)镚PU缺貨。更具體地說(shuō),是因?yàn)闊o(wú)論是購(gòu)買(mǎi)Nvidia的GPU,還是使用基于GPU的云服務(wù),價(jià)格都太貴,尤其是考慮到OpenAI未來(lái)模型訓(xùn)練需要的算力可能還會(huì)指數(shù)級(jí)提升。
OpenAI從數(shù)年前開(kāi)始就布局生成式人工智能,而在去年的GPT-3以及去年下半年的ChatGPT公布后,由于這些生成式大語(yǔ)言模型的能力在過(guò)去數(shù)年內(nèi)得到了大幅提升并且到達(dá)了可以和人類(lèi)實(shí)現(xiàn)有意義的對(duì)話的地步,OpenAI一舉成為了人工智能領(lǐng)域的領(lǐng)頭羊,而生成式人工智能也成為了預(yù)計(jì)未來(lái)幾年內(nèi)對(duì)于人類(lèi)社會(huì)影響最大的技術(shù)。根據(jù)路透社的報(bào)道,OpenAI去年錄得收入2800萬(wàn)美元,而總體虧損為5.4億美元;而OpenAI巨大的虧損背后,主要原因就是由于算力開(kāi)銷(xiāo)。值得注意的是,5.4億美元的損失還是在生成式人工智能火爆前夕的2022年;在未來(lái)算力開(kāi)銷(xiāo)可望會(huì)指數(shù)級(jí)提升,這主要由于:
大模型競(jìng)爭(zhēng)更激烈,模型進(jìn)化速度變快,需要的算力快速提升:除了OpenAI之外,谷歌等科技巨頭也在力推自己的大模型,這使得大模型的進(jìn)化速度顯著變快,未來(lái)預(yù)計(jì)一個(gè)季度到半年就要更新一代,而最尖端模型需要的算力估計(jì)每年都會(huì)上升一個(gè)數(shù)量級(jí)
大模型應(yīng)用場(chǎng)景變得更廣:目前,微軟和谷歌已經(jīng)在搜索和代碼編寫(xiě)領(lǐng)域開(kāi)始使用大模型,預(yù)計(jì)在未來(lái)會(huì)有更多的大模型應(yīng)用場(chǎng)景,包括自動(dòng)任務(wù)處理、多模態(tài)問(wèn)答等等,而這些會(huì)讓不同的模型數(shù)量大大提升,同時(shí)也大大提升了模型部署需要的總算力。
根據(jù)美國(guó)金融公司Bernstein的分析,如果ChatGPT的訪問(wèn)量達(dá)到谷歌搜索十分之一的水平(而這也是OpenAI未來(lái)的重要目標(biāo)之一),那么每年OpenAI的GPU開(kāi)銷(xiāo)將達(dá)到160億美元。而這樣的開(kāi)銷(xiāo),可能是未來(lái)OpenAI進(jìn)一步規(guī);囊粋(gè)重要瓶頸。
那么,OpenAI如果要自研芯片,那么將能把成本節(jié)省多少呢?目前,一臺(tái)使用八卡Nvidia H100 GPU的服務(wù)器采購(gòu)成本約為30萬(wàn)美元,加上云服務(wù)商的溢價(jià)使用這臺(tái)服務(wù)器三年的總成本為100萬(wàn)美元左右(這是AWS的官方報(bào)價(jià),其他云服務(wù)商提供的價(jià)格應(yīng)該在同一數(shù)量級(jí));如果OpenAI能用自研芯片把這樣的八卡服務(wù)器的成本降低到10萬(wàn)美元以下,將會(huì)大大降低其成本。另一方面,如果自研芯片成功的話,在大規(guī)模部署的情況下單張加速卡的成本控制在1萬(wàn)美元以下應(yīng)該很有希望,也即八卡服務(wù)器的成本控制在10萬(wàn)美元之下并非遙不可及。
OpenAI自研芯片,有何獨(dú)特之處
目前,自研芯片的科技公司已經(jīng)有不少,那么OpenAI如果自研芯片會(huì)和谷歌、亞馬遜等科技公司的自研芯片有什么不同呢?
首先,OpenAI的自研芯片純粹是為了自己的模型訓(xùn)練使用,這一點(diǎn)和谷歌、亞馬遜等自研芯片并且目標(biāo)放在云端服務(wù)器上供客戶(hù)使用的商業(yè)模型不一樣。對(duì)于谷歌、亞馬遜等自研芯片供云服務(wù)客戶(hù)使用的場(chǎng)合來(lái)說(shuō),由于用戶(hù)使用模型的場(chǎng)景并不明確,使用的軟件棧不確定、具體訓(xùn)練的模型也不確定,因此需要在芯片設(shè)計(jì)上滿(mǎn)足兼容性的需求,而這樣兼容性的考慮往往會(huì)以犧牲每個(gè)訓(xùn)練任務(wù)的效率和性能為代價(jià)。相反,OpenAI自研芯片只是為了自己使用,而且訓(xùn)練的模型非常明確:就是以Transformer為基本組件的大語(yǔ)言模型,而且使用的軟件棧也完全控制在自己手里,因此可以確保設(shè)計(jì)有非常高的針對(duì)性。
第二點(diǎn)不同在于OpenAI對(duì)于模型有非常深入的理解。OpenAI在生成模型領(lǐng)域是領(lǐng)軍企業(yè),目前GPT系列模型仍然是大語(yǔ)言生成式模型中性能最好的模型,而且OpenAI在生成式模型領(lǐng)域有著多年積累,因此OpenAI對(duì)于目前生成式模型的各種設(shè)計(jì)方案有著深入的理解,這意味著OpenAI有足夠的能力和積累做芯片-模型協(xié)同設(shè)計(jì),能夠根據(jù)芯片的特性去設(shè)計(jì)相應(yīng)的模型,同時(shí)也可以根據(jù)模型的需求去明確芯片的設(shè)計(jì)指標(biāo),包括如何在計(jì)算單元、存儲(chǔ)和芯片間互聯(lián)之中做最優(yōu)化的折衷等。最關(guān)鍵的是,OpenAI對(duì)于未來(lái)幾年的生成式大模型的路線圖有著行業(yè)中最明確的規(guī)劃,這意味著即使自研芯片需要數(shù)年的時(shí)間,也不用過(guò)于擔(dān)心芯片真正量產(chǎn)后已經(jīng)無(wú)法趕上模型更新的局面。從這個(gè)角度來(lái)說(shuō),OpenAI的自研芯片和谷歌以及亞馬遜都有很不一樣的地方,但是和特斯拉的Dojo系列自研模型訓(xùn)練芯片卻有相似之處;而和特斯拉又不一樣的是,OpenAI對(duì)于模型訓(xùn)練的需求顯然會(huì)遠(yuǎn)高于特斯拉,而這樣的自研芯片的重要程度對(duì)于OpenAI來(lái)說(shuō)也會(huì)更高。
這些OpenAI的獨(dú)特之處,讓它有機(jī)會(huì)能實(shí)現(xiàn)使用非常規(guī)專(zhuān)用設(shè)計(jì)完成的高性能芯片。最近,Nvidia在官方博客中對(duì)于其GPU的性能提升規(guī)律做了分析:Nvidia的GPU算力在不到十年提升了1000倍,根據(jù)分析在1000倍算力提升中,計(jì)算精度的優(yōu)化(即使用16位甚至8位浮點(diǎn)數(shù)來(lái)取代原本的32位浮點(diǎn)數(shù)計(jì)算)并且搭配專(zhuān)用的計(jì)算模塊實(shí)現(xiàn)了16倍的性能提升,而芯片架構(gòu)領(lǐng)域和編譯器的協(xié)同優(yōu)化又提供了12.5倍的性能提升,而另一方面半導(dǎo)體工藝帶來(lái)的性能提升僅僅只有兩倍。由此可見(jiàn),在高性能計(jì)算芯片領(lǐng)域,算法和芯片架構(gòu)協(xié)同設(shè)計(jì)(包括模型算法和編譯器算法)才是主要的性能提升動(dòng)力(也即Huang‘s Law),而從這一角度來(lái)說(shuō),OpenAI確實(shí)處于一個(gè)非常有利的地位,憑借著其對(duì)于算法的深刻理解,OpenAI可望可以充分利用Huang’s Law,從而在未來(lái)幾年內(nèi)實(shí)現(xiàn)高性能計(jì)算芯片的設(shè)計(jì)。
OpenAI自研芯片的挑戰(zhàn)
OpenAI自研芯片除了有自己的優(yōu)勢(shì)之外,當(dāng)然也有挑戰(zhàn)。
OpenAI自研芯片的目標(biāo)明確,就是用于大模型的高算力芯片。高算力芯片的首要挑戰(zhàn)就是其復(fù)雜度,從芯片設(shè)計(jì)角度,高性能計(jì)算芯片中的計(jì)算單元、存儲(chǔ)訪問(wèn)以及芯片間的互聯(lián)都是需要仔細(xì)考慮。例如,為了能滿(mǎn)足大模型的需求,芯片大概率會(huì)使用HBM內(nèi)存;為了實(shí)現(xiàn)芯片的高能效比和規(guī)模化,預(yù)計(jì)會(huì)在先進(jìn)工藝上搭配芯片粒等技術(shù)實(shí)現(xiàn)高良率;大模型通常會(huì)使用分布式計(jì)算,因此芯片間的互聯(lián)就顯得至關(guān)重要(Nvidia的NVLINK和InfiniBand技術(shù)對(duì)于GPU來(lái)說(shuō)非常重要,OpenAI也需要類(lèi)似的技術(shù))。這些芯片設(shè)計(jì)組件每一個(gè)都需要有相當(dāng)經(jīng)驗(yàn)的團(tuán)隊(duì)來(lái)實(shí)現(xiàn),而把這些組件集成在一起也需要非常優(yōu)秀的架構(gòu)設(shè)計(jì)來(lái)確保整體性能。OpenAI如何在短時(shí)間內(nèi)組建一個(gè)有經(jīng)驗(yàn)的團(tuán)隊(duì)來(lái)做這些具有挑戰(zhàn)性的設(shè)計(jì)將是一個(gè)重要的挑戰(zhàn)。
除了芯片設(shè)計(jì)之外,如何確保軟件和硬件協(xié)同工作,或者換句話說(shuō)如何設(shè)計(jì)一個(gè)高性能的編譯器以及相關(guān)軟件生態(tài)是OpenAI的另一大挑戰(zhàn)。目前,Nvidia GPU的一個(gè)重要優(yōu)勢(shì)就是因?yàn)槠銫UDA軟件系統(tǒng),經(jīng)過(guò)十多年的積累后已經(jīng)有很高的性能以及兼容性。OpenAI的自研芯片中,編譯器系統(tǒng)也需要實(shí)現(xiàn)CUDA這樣的高性能才能完全利用芯片的算力。與其他針對(duì)云服務(wù)的科技公司自研芯片不同,OpenAI的芯片主要是供自己使用,因此無(wú)需太擔(dān)心生態(tài)和對(duì)于用戶(hù)模型支持度的問(wèn)題,但是在編譯性能上也需要達(dá)到和Nvidia的CUDA接近才行。事實(shí)上OpenAI在這個(gè)領(lǐng)域從早些時(shí)候已經(jīng)開(kāi)始有投入;今年七月OpenAI公布了自己的基于開(kāi)源Triton語(yǔ)言的人工智能模型編譯方案,可以把Python代碼通過(guò)編譯為使用開(kāi)源Triton語(yǔ)言的中間代碼(intermediate representation,IR),然后再使用Triton編譯器和LLVM編譯器編譯到PTX代碼,從而可以直接在支持PTX的GPU以及人工智能加速器上運(yùn)行。從這個(gè)角度看,OpenAI對(duì)于編譯器的投入或許就是其自研芯片的先聲。
最后,芯片的具體生產(chǎn)也會(huì)是一個(gè)挑戰(zhàn)。如前所述,OpenAI大概率會(huì)使用先進(jìn)工藝節(jié)點(diǎn)和高級(jí)封裝技術(shù)來(lái)實(shí)現(xiàn),因此如何確保生產(chǎn)的良率,以及更重要的是,如何在高級(jí)封裝和先進(jìn)工藝節(jié)點(diǎn)產(chǎn)能仍然有可能緊張的幾年內(nèi)獲得足夠的產(chǎn)能以量產(chǎn),也是一個(gè)需要解決的問(wèn)題。
考慮到這三個(gè)挑戰(zhàn),我們認(rèn)為,OpenAI目前自研芯片的計(jì)劃可能會(huì)是多步走。首先,在技術(shù)團(tuán)隊(duì)和生產(chǎn)問(wèn)題沒(méi)有完全解決前,OpenAI可以選擇和微軟(其最大股東,同時(shí)也有自研芯片計(jì)劃Athena)以及Nvidia(或者AMD)合作,選擇半定制化芯片,例如OpenAI提供芯片需要支持的一些指標(biāo),甚至提供一些IP,而可以和這些合作方一起把芯片設(shè)計(jì)和生產(chǎn)出來(lái)。而在技術(shù)團(tuán)隊(duì)和生產(chǎn)問(wèn)題解決后,OpenAI可以選擇大力投入自研的全定制芯片,從而完成最佳的性能和可控性。
掃碼關(guān)注我們
傳真:0755-82591176
郵箱:vicky@yingtexin.net
地址:深圳市龍華區(qū)民治街道民治大道973萬(wàn)眾潤(rùn)豐創(chuàng)業(yè)園A棟2樓A08