潞晨科技完成數億元A輪融資

2023-05-22 15:29:17 來源：藍馳創投作者：　

摘要：近日，潞晨科技宣布完成數億元的A輪融資。

近日，潞晨科技宣布完成數億元的A輪融資。本輪融資是潞晨科技成立18個月內完成的第三輪融資，此次融資資金將主要用于團隊擴張和業務拓展。

藍馳創投是潞晨科技的天使輪領投方。

眾所周知，如今生成式AI的“涌現”能力來自于底層大模型的成熟，但訓練大模型需要的算力、網絡、數據成本非尋常公司能承受。而潞晨科技希望為這一難題提供解法。

潞晨科技成立于2021年，主要業務是通過打造分布式AI開發和部署平臺，幫助企業降低大模型的落地成本，提升訓練、推理效率。公司創始人尤洋此前在伯克利、新加坡國立大學均從事分布式計算、機器學習、高性能計算相關研究，曾創造ImageNet以及BERT訓練速度的世界紀錄。而在2021年左右，他更加篤信大模型的趨勢，所以在當年創立潞晨科技，希望降低大模型的落地門檻。

潞晨科技當前的產品包括開源高效深度學習系統Colossal-AI和對應的企業版PaaS平臺。平臺主要由異構內存管理系統、高效N維并行系統、低延時推理系統組成，整體希望幫客戶達成最小化模型部署成本、最大化計算效率的效果。

針對內存管理，尤洋表示，模型參數、層數越大，計算量相應也越大。GPT3的1750億參數，可能需要占據800G內存。再加上訓練神經網絡時還需要存梯度、優化器狀態，“GPT3在什么都沒干的情況下，就要消耗3200G內存。”尤洋舉例。再加上內存資源其實較為稀缺，所以科學管理內存資源在訓練大模型的場景下變得異常重要。當GPU內存放不下這些數據，還需要把部分數據遷移到CPU、NVMe硬盤上。

尤洋表示，管理GPU、CPU、NVMe硬盤被稱為異構管理。過去，異構管理主要延續靜態思路，一開始就預估好參數、梯度、優化器等所需的資源。在尤洋看來，這種方式由于比較固化，沒辦法隨著實際訓練過程調配，很可能存在浪費資源。但潞晨采取的動態管理方式，可以更加靈活的平衡資源，“我們希望數據都能放到GPU里。但是如果GPU放不下了就放CPU里，CPU放不下就放NVMe里，但同時我們需要最小化CPU、GPU、NVMe之間的數據移動，這是最重要的。”尤洋表示，潞晨的異構內存管理系統可以幫助達成這一目標。

另一方面，企業如今訓練大模型，常基于成百上千張GPU卡完成。這是因為，理論上，卡越多需要的訓練時間越少，大模型的落地也更具效率。但實際情況中，卡越多意味著承載計算功能的機器越多，而在最終匯總各機器結果時，通信又會造成新的效率損耗。

針對這一痛點，潞晨打造了高效N維并行系統。尤洋表示，在這一系統中公司采用了高維張量并行等方式提升效率。尤洋表示，這背后的原理主要是用二維的方式設計張量并行。張量并行可以讓計算任務被分解后同步進行。二維切片的方式，則讓每個機器只需要和同行或者同列的機器打交道，不需要和所有機器打交道。“假如我們要1萬個機器計算、傳統方法（一維）一個機器需要跟9999個剩下機器打交道，我們只需要和99個機器打交道就可以。”他說。

第三是低延時推理系統，作用是減少模型推理速度慢帶來的延時感。尤洋表示，解決這一問題，整體的部署方式和模型本身的優化都很重要。在優化方面，潞晨的內存管理、張量并行技術，以及剪枝蒸餾等方案均能發揮作用。

可以看出，異構內存管理系統、高效N維并行系統主要在訓練步驟中發揮效力，低延時推理系統則提升推理部分的速度。若再細分，異構內存管理系統更能幫助客戶節省資源成本，高效N維并行系統更能提升計算速度。尤洋表示，目前這三大系統均匯聚在公司的PaaS平臺中，開源版本Colossal-AI目前也已獲得約3萬顆GitHub星星。在具體服務方式上，尤洋表示，目前客戶可以通過潞晨的PaaS平臺直接訓練自己的模型，潞晨也可以幫助客戶訓練模型。據介紹，目前潞晨的方案已在自動駕駛、云計算、零售、醫藥、芯片、金融等行業落地。

在2023年的整體規劃上，尤洋說到，今年以來公司的業務量隨著各行業客戶的模型訓練需求激增，預計收入整體相比去年會增長3-5倍。據了解，本輪融資后潞晨將加速擴張，并希望吸引招募更多的MLOps、AI大模型、AI框架等領域優秀人才加入，以更好服務客戶。

上一篇： 賣掉“親兒子”，順豐敗了！
下一篇： 裁員50%！中國最神奇的網站不再神奇？