NeuKompression™ IP

NeuKompression™ - 突破推論瓶頸，引領 4-bit 模型壓縮新紀元

美國專利編號：U.S. Patent No. 11,615,286 B2

兼顧精度與效率，極大化 AI 加速器的運算產值

隨著大型語言模型（LLMs）與生成式 AI 的飛速發展，記憶體子系統已成為推論效能與功耗效率的主要瓶頸。為了解決這項挑戰，NeuKompression 提供了關鍵的壓縮技術，能將訓練好的 FP32/16/8b 高精度模型轉化為 4-bit 表示法。

這項技術的核心優勢在於能在不犧牲精度的前提下，顯著縮減模型體積，將記憶體占用降低 2 至 8 倍。透過減輕資料傳輸對頻寬的依賴，NeuKompression 不僅大幅優化了功耗需求，更有效提升了 AI 加速器的吞吐量與整體成本效益，讓高效能推論更具市場競爭力。

核心特性

離線軟體壓縮（Offline software compression）：將模型壓縮 2 至 8 倍，轉化為高效的位元流（bitstream）。
即時硬體解壓縮（On-the-fly hardware decompression）：在運算時即時還原為 FP8 權重（weights）。
廣泛的適用性（Broad Applicability）：支援語言模型（已於 Llama 系列驗證）與視覺模型（已於 Stable Diffusion 系列及 Flux 驗證）。

Stable Diffusion 範例：一隻坐在筆電前、從螢幕抬頭向上看的貓。