近日,潞晨科技宣布完成數(shù)億元的A輪融資。本輪融資是潞晨科技成立18個月內(nèi)完成的第三輪融資,此次融資資金將主要用于團(tuán)隊擴(kuò)張和業(yè)務(wù)拓展。藍(lán)馳創(chuàng)投是潞晨科技的天使輪領(lǐng)投方。眾所周知,如今生成式AI的“涌現(xiàn)”能力來自于底層大模型的成熟,但訓(xùn)練大模型需要的算力、網(wǎng)絡(luò)、數(shù)據(jù)成本非尋常公司能承受。而潞晨科技希望為這一難題提供解法。潞晨科技成立于2021年,主要業(yè)務(wù)是通過打造分布式AI開發(fā)和部署平臺,幫助企業(yè)降低大模型的落地成本,提升訓(xùn)練、推理效率。公司創(chuàng)始人尤洋此前在伯克利、新加坡國立大學(xué)均從事分布式計算、機(jī)器學(xué)習(xí)、高性能計算相關(guān)研究,曾創(chuàng)造ImageNet以及BERT訓(xùn)練速度的世界紀(jì)錄。而在2021年左右,他更加篤信大模型的趨勢,所以在當(dāng)年創(chuàng)立潞晨科技,希望降低大模型的落地門檻。潞晨科技當(dāng)前的產(chǎn)品包括開源高效深度學(xué)習(xí)系統(tǒng)Colossal-AI和對應(yīng)的企業(yè)版PaaS平臺。平臺主要由異構(gòu)內(nèi)存管理系統(tǒng)、高效N維并行系統(tǒng)、低延時推理系統(tǒng)組成,整體希望幫客戶達(dá)成最小化模型部署成本、最大化計算效率的效果。針對內(nèi)存管理,尤洋表示,模型參數(shù)、層數(shù)越大,計算量相應(yīng)也越大。GPT3的1750億參數(shù),可能需要占據(jù)800G內(nèi)存。再加上訓(xùn)練神經(jīng)網(wǎng)絡(luò)時還需要存梯度、優(yōu)化器狀態(tài),“GPT3在什么都沒干的情況下,就要消耗3200G內(nèi)存。”尤洋舉例。再加上內(nèi)存資源其實較為稀缺,所以科學(xué)管理內(nèi)存資源在訓(xùn)練大模型的場景下變得異常重要。當(dāng)GPU內(nèi)存放不下這些數(shù)據(jù),還需要把部分?jǐn)?shù)據(jù)遷移到CPU、NVMe硬盤上。尤洋表示,管理GPU、CPU、NVMe硬盤被稱為異構(gòu)管理。過去,異構(gòu)管理主要延續(xù)靜態(tài)思路,一開始就預(yù)估好參數(shù)、梯度、優(yōu)化器等所需的資源。在尤洋看來,這種方式由于比較固化,沒辦法隨著實際訓(xùn)練過程調(diào)配,很可能存在浪費資源。但潞晨采取的動態(tài)管理方式,可以更加靈活的平衡資源,“我們希望數(shù)據(jù)都能放到GPU里。但是如果GPU放不下了就放CPU里,CPU放不下就放NVMe里,但同時我們需要最小化CPU、GPU、NVMe之間的數(shù)據(jù)移動,這是最重要的。”尤洋表示,潞晨的異構(gòu)內(nèi)存管理系統(tǒng)可以幫助達(dá)成這一目標(biāo)。另一方面,企業(yè)如今訓(xùn)練大模型,常基于成百上千張GPU卡完成。這是因為,理論上,卡越多需要的訓(xùn)練時間越少,大模型的落地也更具效率。但實際情況中,卡越多意味著承載計算功能的機(jī)器越多,而在最終匯總各機(jī)器結(jié)果時,通信又會造成新的效率損耗。針對這一痛點,潞晨打造了高效N維并行系統(tǒng)。尤洋表示,在這一系統(tǒng)中公司采用了高維張量并行等方式提升效率。尤洋表示,這背后的原理主要是用二維的方式設(shè)計張量并行。張量并行可以讓計算任務(wù)被分解后同步進(jìn)行。二維切片的方式,則讓每個機(jī)器只需要和同行或者同列的機(jī)器打交道,不需要和所有機(jī)器打交道。“假如我們要1萬個機(jī)器計算、傳統(tǒng)方法(一維)一個機(jī)器需要跟9999個剩下機(jī)器打交道,我們只需要和99個機(jī)器打交道就可以。”他說。第三是低延時推理系統(tǒng),作用是減少模型推理速度慢帶來的延時感。尤洋表示,解決這一問題,整體的部署方式和模型本身的優(yōu)化都很重要。在優(yōu)化方面,潞晨的內(nèi)存管理、張量并行技術(shù),以及剪枝蒸餾等方案均能發(fā)揮作用。可以看出,異構(gòu)內(nèi)存管理系統(tǒng)、高效N維并行系統(tǒng)主要在訓(xùn)練步驟中發(fā)揮效力,低延時推理系統(tǒng)則提升推理部分的速度。若再細(xì)分,異構(gòu)內(nèi)存管理系統(tǒng)更能幫助客戶節(jié)省資源成本,高效N維并行系統(tǒng)更能提升計算速度。尤洋表示,目前這三大系統(tǒng)均匯聚在公司的PaaS平臺中,開源版本Colossal-AI目前也已獲得約3萬顆GitHub星星。在具體服務(wù)方式上,尤洋表示,目前客戶可以通過潞晨的PaaS平臺直接訓(xùn)練自己的模型,潞晨也可以幫助客戶訓(xùn)練模型。據(jù)介紹,目前潞晨的方案已在自動駕駛、云計算、零售、醫(yī)藥、芯片、金融等行業(yè)落地。
在2023年的整體規(guī)劃上,尤洋說到,今年以來公司的業(yè)務(wù)量隨著各行業(yè)客戶的模型訓(xùn)練需求激增,預(yù)計收入整體相比去年會增長3-5倍。據(jù)了解,本輪融資后潞晨將加速擴(kuò)張,并希望吸引招募更多的MLOps、AI大模型、AI框架等領(lǐng)域優(yōu)秀人才加入,以更好服務(wù)客戶。