NeuKompression™ IP
突破推論瓶頸:NeuKompression™ 引領 4-bit 模型 壓縮新紀元
美國專利編號:U.S. Patent No. 11,615,286 B2
兼顧精度與效率,極大化 AI 加速器的運算產值
隨著大型語言模型(LLMs)與生成式 AI 的飛速發展,記憶體子系統已成為推論效能與功耗效率的主要瓶頸。為了解決這項挑戰,NeuKompression 提供了關鍵的壓縮技術,能將訓練好的 FP32/16/8b 高精度模型轉化為 4-bit 表示法。
這項技術的核心優勢在於能在不犧牲精度的前提下,顯著縮減模型體積,將記憶體占用降低 2 至 8 倍。透過減輕資料傳輸對頻寬的依賴,NeuKompression 不僅大幅優化了功耗需求,更有效提升了 AI 加速器的吞吐量與整體成本效益,讓高效能推論更具市場競爭力。
核心特性
- 離線軟體壓縮(Offline software compression):將模型壓縮 2 至 8 倍,轉化為高效的位元流(bitstream)。
- 即時硬體解壓縮(On-the-fly hardware decompression):在運算時即時還原為 FP8 權重(weights)。
- 廣泛的適用性(Broad Applicability):支援語言模型(已於 Llama 系列驗證)與視覺模型(已於 Stable Diffusion 系列及 Flux 驗證)。
Stable Diffusion 範例:一隻坐在筆電前、從螢幕抬頭向上看的貓。
優勢
無縫整合與靈活性
作為一款獨立 IP(Standalone IP),NeuKompression 設計便於快速授權並整合至客戶的各種晶片與平台中,大幅縮短產品上市時間
全場景覆蓋
兼具高效能與低功耗特性,完美適配從高吞吐量的雲端到資源受限的邊緣端AI 推論應用
卓越的成本效益與差異化
助力客戶在降低硬體成本與功耗的同時,顯著提升運算效率,打造具備強大市場競爭力的差異化 AI 解決方案