趨境科技發布，首創“以存換算”和“全系統推理架構”，助力企業高趨境科技

2024-10-12 16:02:54 來源：投資家網作者：　

摘要：隨著大模型，尤其是開源大模型的持續進化，具備復雜推理能力的模型正在逐步應用于各行各業，并展現出超越人類專家的潛力。

隨著大模型，尤其是開源大模型的持續進化，具備復雜推理能力的模型正在逐步應用于各行各業，并展現出超越人類專家的潛力。得益于此，未來的算力建設將更加聚焦于推理場景，而不僅僅是訓練算力。

華福證券的研究指出，到2027年，推理端的人工智能服務器預計將占整體工作負載的72.6%。同時，OpenAI o1 所代表的大模型推理場景的 Scaling Law 也進一步助推了這一趨勢的加速發展。

然而，盡管模型的效果有了顯著的提升，數百億參數、上百萬上下文的一線模型在實際部署中仍面臨高成本和低效率的挑戰。這一現象導致了難以破解的“不可能三角”。

為了應對這一困境，亟需新型推理架構，打破傳統主要為訓練場景設計，以高端 GPU 為中心的算力架構設計思路。

在此背景下，趨境科技推出了“大模型知識推理一體機”，其搭載的業界首創的全系統推理架構能夠通過協同存儲、CPU、GPU、NPU等多種設備，充分釋放異構算力，將推理成本降低10倍以上。

這一創新為企業實現大模型的高效落地提供了全新選擇，開啟了通向“推理自由”的新途徑。

趨境大模型知識推理一體機不僅支持本地部署數百億級別的一線大模型，還提供開放的API接口，便于第三方靈活調用。同時，用戶可根據需求定制企業智能助手（assistant/copilot），實現真正的“開箱即用”。

協同 HBM/DRAM/SSD 和 CPU/GPU/NPU 全系統異構設備，充分釋放異構存力和算力資源

與當前行業主要針對 GPU 算力利用率進行單點優化的傳統方案相比，趨境科技大模型知識推理一體機采用了業界首創的全系統推理架構。

其通過“以存換算”技術釋放存力作為算力的補充，降低對算力的需求；同時采用“異構協同”的思路，緊密聯動 HBM/DRAM/SSD 和 CPU/GPU/NPU 全系統異構設備，突破顯存容量的限制，充分釋放全系統的存力和算力。

這一創新方案突破了以往方案的理論優化極限，實現了整合機器所有異構算力資源的目標，使得推理吞吐量提升超過10倍，大幅降低了大模型的落地成本。

此外，據財通證券發布的行業深度分析報告統計顯示，國產GPU產品在單精度/半精度浮點算力、制程及顯存容量上都與英偉達有2-4倍的顯著差距。因此，僅依靠GPU單點優化，短時間內很難趕超英偉達GPU方案。

而采用全系統推理架構可以大幅降低GPU性能差距的影響，顯著提升國產替代解決方案的競爭力，打破在大模型推理場景下國產GPU“卡脖子”的困境。

以存換算新范式，從“死記硬背”到“融合推理”

早期的大模型推理架構將每次推理視為獨立請求，缺乏高效處理所需的“記憶”能力。盡管后續引入了近似問題緩存（Semantic Query Cache）和前綴緩存（Prefix KVCache Cache），但仍主要依賴于“死記硬背”。這些方案要求新問題與已處理問題高度一致才能利用緩存去降低算力需求。

針對這一問題，趨境科技創新性地設計了“融合推理（Fusion Attention）”技術，即便是面對全新的問題也可以從歷史相關信息中提取可復用的部分內容，與現場信息進行在線融合計算。這一技術顯著提升了可復用的歷史計算結果，進而降低了計算量。

通過這一新思路，趨境大模型知識推理一體機充分利用了存儲資源。采用“以存換算”的方式釋放存力作為對于算力的補充，在RAG場景中，響應延遲降低20倍，性能提升達10倍。

全系統異構協同新架構，從GPU單點優化到全系統協同優化

除了通過“以存換算”降低算力需求外，趨境大模型知識推理一體機還進一步通過全系統異構協同架構設計，將來自存儲、CPU、GPU、NPU的算力高效融合，進一步提升大模型推理性能，降低成本。

此前，趨境科技與清華 KVCache.AI 團隊合作，開源了一部分異構推理框架，項目名為“KTransformers”（GitHub鏈接：https://github.com/kvcache-ai/ktransformers），該開源框架僅需單個消費級 GPU 即可在本地運行 Mixtral 8x22B 和DeepSeek-Coder-V2 等千億級大模型，性能數倍于 Llama.cpp。

在長達 1M 的超長上下文推理任務中，成為業界首個僅需單 GPU 卡的高性能推理框架，生成速度達到 16.91 token/s，比 Llama.cpp 快10倍以上，同時維持接近滿分的“大海撈針”能力。