Neural Processing Unit IP
Neural Processing Unit IP-Blue Magpie
專為生成式 AI 時代誕生的邊緣運算核心|打破算力邊界,定義生成式 AI 的新高度
在生成式 AI 時代,無論是大型語言模型(LLM)與多模態應用(VLM、CNN),傳統 NPU 已無法滿足複雜的矩陣運算需求。 Neuchips NPU 是一款經過先進製程矽驗證(Silicon-Proven)的高性能類神經處理單元,專為解決生成式 AI 的運算瓶頸而生。 透過獨家的 MVP(Matrix-Vector Processors)架構與可彈性配置的 NeuKompression 壓縮技術,我們在提供極致算力的同時, 更大幅優化 Prompt 處理速度與數據傳輸效率。
核心特色
全方位的推論運算加速引擎
Neuchips NPU 的 MVP 核心不僅是運算引擎,更是針對現代 AI 模型底層邏輯重構的加速器
- 矩陣運算核心(Matrix Kernels)— LLM 的運算靈魂:針對 Transformer 架構中佔比最高的任務進行深度硬體優化
- GEMM(General Matrix Multiplication):應用於預填階段(Prefill Phase)的大規模平行計算;支援 2–64 TFLOPS 彈性算力,並針對 FP8/6/4b 與 INT8/4b 極低精度提供硬體加速,完美平衡精度與吞吐量
- GEMV(General Matrix-Vector Multiplication):應用於自回歸解碼階段(Decoding Phase)的逐字生成;提供最高 2 TFLOPS(FP32/16b),專為「記憶體受限(Memory-bound)」特性設計,確保 Token 生成流暢不卡頓
卷積運算內核(Convolutional Kernels)
- 多模態視覺之源:確保 VLM(視覺語言模型)影像編碼的高效能
- 標準卷積(Standard Convolution):透過影像矩陣化(im2col)與 MVP 結合,將 2D/3D 卷積轉化為極速矩陣運算
- 特殊卷積支援:優化深度可分離卷積(Depthwise Separable)與擴張卷積(Dilated Conv),大幅降低運算參數量並增大感受野,適用於高解析度影像識別
激活函數與向量內核(Activation & Vector Kernels)
- 激活函數與非線性映射(Activation Functions):搭配自有專利演算法的專用硬體電路,達成高精度且幾乎零延遲處理
- 常見算子(Operator):支援 ReLU、Sigmoid、Tanh
- GenAI 專用算子(Operator):支援 Softmax、GeLU、SiLU(Swish)
- Normalization(正規化):硬體加速 LayerNorm 與 RMSNorm,有效解決權重分佈偏移
- 向量運算:支援 Pooling(Max/Average)與 Element-wise 加減乘算,對殘差連接(Residual Connection)至關重要
數據移動引擎(Data-Movement Engine)
- 內建 Master/Slave 模式的 2D/3D Gather/Scatter 與 Remapping 引擎,極小化記憶體流量,突破「記憶體牆」瓶頸
產品優勢
領先業界的 Prompt 處理效益
- 不同於多數針對卷積(CNN)設計的邊緣 NPU,Neuchips 針對 Matrix-to-Matrix(矩陣對矩陣) 運算效率進行深度重構
- TTFT(Time To First Token):讓 Prompt 預填反應更迅速,消除使用者等待感
- 超大 Context Length 處理:搭配彈性運算核心配置,輕鬆應對海量文本分析應用
NeuKompression:獨家硬體壓縮技術
- 專有 NeuKompression 技術在縮小資料量的同時維持高精度效益
- 顯著降低存儲空間與能耗
極致的靈活性與可擴展性(Scalability)
- 模組化設計:可根據應用場景靈活配置運算核心數量
- 低功耗模式:適用於電池供電的邊緣偵測
- 高性能模式:支援數據中心邊緣節點,輕鬆處理多模態大模型
- 低延遲互連:專有 Local Interconnect Bus 無縫連接 MVP、CPU 與 DSP,確保工作負載調度(Workload Dispatch)零遲滯
矽驗證保障,加速產品上市
- 作為一款受過先進製程矽驗證(Silicon-Proven)的 IP,Neuchips 協助客戶降低 SoC 開發風險,縮短整合週期,在競爭激烈的市場中搶佔先機
應用場景
智慧座艙
即時語音助理(LLM)與駕駛行為視覺分析(VLM)的完美結合
企業邊緣伺服器
處理大量 Context Length 的文件摘要、私人知識庫(RAG)與長文本檢索
智慧監控
利用擴張卷積與 FP8 算力實現極低延遲的影像特徵提取與自動化預警
智慧工廠
在嚴格功耗限制下,運行複雜的多模態預測性維護與高精度缺陷檢測