123,123

NPU芯片有什么用，算力是怎么評估的？

2023-03-08 2873次

NPU芯片有什么用，算力是怎么評估的?

算力簡單說就是計算能力，按《中國算力發(fā)展指數(shù)白皮書》中的定義算力是設(shè)備通過處理數(shù)據(jù)，實現(xiàn)特定結(jié)果輸出的計算能力。2018年諾貝爾經(jīng)濟學(xué)獎獲得者William D. Nordhau濾《計算過程》一文中提出：“算力是設(shè)備根據(jù)內(nèi)部每秒可處理的信息數(shù)據(jù)量"。算力實現(xiàn)的核心是CPU、GPU等各類計算芯片，并由計算機、服務(wù)器、高性能計多集群和各類智能終端等承載，海量數(shù)據(jù)處理和各種數(shù)字化應(yīng)用都離不開算力的加工和計算。

以AI為例，CPU、GPU、DSP等都可以運行，但是還是有專用的AI芯片，為什么呢?也跟算力有關(guān)。

CPU(central processing unit)是通用處理器，可以處理一切事物，就像一把瑞士軍刀，哪方面都能做但都不是專業(yè)高效的。

GPU(Graphics Processing Unit)是專門用來處理圖形圖像相關(guān)的處理器，與CPU相比GPU處理的數(shù)據(jù)類型單一，因為運算與AI相似以及容易組成大的集群，所以進(jìn)行AI運算時在性能、功耗等很多方面遠(yuǎn)遠(yuǎn)優(yōu)于CPU，經(jīng)常被拿來處理AI運算。

DSP(digital signal processor)，是專門用來處理數(shù)字信號的，DSP與GPU情況相似，也會被拿來做AI運算，比如高通的手機SoC。

AI芯片是專門用來處理AI相關(guān)運算的芯片，這與CPU、GPU、DSP的“兼職”做AI運算不同，即便是最高效的GPU與AI芯片相比也是有差距的，AI芯片在時延、性能、功耗、能效比等方面全面的超過上面提到的各種處理器。以知名的谷歌的TPU為例，如下圖所示，TPU的主要計算資源為：

Matrix Multiply Unit：矩陣乘單元

Accumulators：存儲矩陣乘加輸出的中間結(jié)果

Activation：激活單元

Unified Buffer：統(tǒng)一緩存

當(dāng)時谷歌資深硬件工程師Norman Jouppi表示，谷歌的專用機器學(xué)習(xí)芯片TPU處理速度要比GPU和CPU快15-30倍(和TPU對比的是英特爾Haswell CPU以及Nvidia Tesla K80 GPU)，而在能效上，TPU更是提升了30到80倍，這并不意外，因為TPU運行的CNN運算主要就是矩陣乘，專用芯片好處就是這樣。其實對于對于AI來說，又分為訓(xùn)練和推理，訓(xùn)練就像AlphaGo一樣需要學(xué)很多的棋譜(數(shù)據(jù))，通常采用數(shù)據(jù)精度為FP32。

FP32(Full Precise Float 32，單精度)占用4個字節(jié)，共32bit，

FP16(float，半精度)占用2個字節(jié)，共16bit，

INT8，占用1個字節(jié)，也就是8bit，精度更低，因此數(shù)據(jù)量小、能耗低，計算速度相對更快，更符合端側(cè)運算的特點。

不同精度計算消耗的Bill Dally 在ACMMM 2017 上的《Efficient Methods and Hardware for Deep Learning》演講中曾經(jīng)列過一個不同精度計算的消耗能量和硅片面積對比，可以看出一個FP32精度的乘法運算消耗是INT8精度的18.5倍。因此同樣一塊芯片運算INT8的數(shù)據(jù)與運算FP32的數(shù)據(jù)在同一時間內(nèi)運算次數(shù)相差很多，也就是說不同精度OPS不同，算力不同。

這樣的精度如果運行在手機等終端上是不行的，所以在在手機、汽車、安防等終端領(lǐng)域，都是執(zhí)行模型的推理，現(xiàn)有的推理芯片有很多，比如特斯拉FSD、寒武紀(jì)NPU、地平線BPU、OPPO的馬里亞納、榮耀使用的AI-ISP等。與訓(xùn)練階段不同，在推理的時候，精度要求并不高，以知名的對象監(jiān)測算法YOLO(You Only Look Once)為例，F(xiàn)P32的精度與INT8的精度相差甚小，但是因為模型更小，神經(jīng)網(wǎng)絡(luò)模型的推理速度卻大幅加快。這在終端上很重要，比如在汽車的自動駕駛上，如果推理計算的數(shù)據(jù)慢了會造成巨大的影響。

當(dāng)然在安防等對精度要求更低的地方，還有很多采用的是INT4精度的，比如愛芯科技的AX630A在INT4精度下的算力達(dá)到了28.8TOPS，可應(yīng)用于智能盒子，運動相機，智能加速卡，工業(yè)攝像頭等領(lǐng)域，如果是INT8精度就是7.2TOPS(這里要注意的是并不是所有的AI芯片支持不同精度下的算力轉(zhuǎn)換，這需要硬件實現(xiàn)上的支持)

在終端芯片上，廠商宣稱的算力有時候甚至不是AI芯片的算力，因為CPU、GPU、DSP都可以進(jìn)行AI的運算，所以在宣傳算力的時候采用的是CPU算力 + GPU算力 + DSP算力的算法，雖然這些處理單元都在一顆芯片上但是在實際使用上不可能同時進(jìn)行AI運算。

因為一些手機芯片的AI處理能力不足，以及處理流程在YUV域較為靠后，所以像OPPO等廠商開始推出馬里亞納這樣的AI芯片，18TOPS并前置在手機SOC之前在RAW域進(jìn)行 AI降噪的處理，可以大幅的提升夜景拍攝能力，保留更多細(xì)節(jié)。

榮耀采用的AI-ISP也是一樣的道理，其實這類芯片本質(zhì)上是一個處理AI運算的NPU，從業(yè)務(wù)上來說更好的叫法是Pre-ISP，并不是真正的ISP芯片。

RS-485 CAN總線芯片選型和應(yīng)用上一篇下一篇 LM358雙路運放電路

最新文章

一文讀懂什么是光模塊、內(nèi)部結(jié)構(gòu)、所用器件、用途？

光模塊，全稱光收發(fā)一體模塊，是光纖通信系統(tǒng)中的核心器件。它的作用簡單來說就是完成光電轉(zhuǎn)換。在發(fā)送端：將設(shè)備（如交換機、路由器）產(chǎn)生的電信號轉(zhuǎn)換為光信號，通過光纖傳輸出去。在接收端：將光纖傳輸過來的光信號轉(zhuǎn)換為電信號，提供給設(shè)備處理。

2025-12-09 1675次

一文讀懂衛(wèi)星通信器件種類、功能、廠商、發(fā)展趨勢

衛(wèi)星通信是一個復(fù)雜的系統(tǒng)，它通過人造地球衛(wèi)星作為中繼站，來轉(zhuǎn)發(fā)無線電信號，實現(xiàn)兩個或多個地球站之間的通信。這個系統(tǒng)可以大致分為三部分：空間段（衛(wèi)星本身）、地面段（用戶終端和信關(guān)站）和連接它們的無線電波。

2025-10-10 1062次

國產(chǎn)FPGA公司、核心產(chǎn)品、應(yīng)用介紹

近年來，國產(chǎn)FPGA發(fā)展迅速，在技術(shù)、生態(tài)和應(yīng)用方面都取得了長足進(jìn)步，成為實現(xiàn)芯片國產(chǎn)替代的關(guān)鍵力量。以下是對主要國產(chǎn)FPGA公司的詳細(xì)介紹：

2025-09-28 2276次

一文讀懂?dāng)?shù)字隔離器芯片的原理、運用、品牌、選型要點

隔離器芯片的核心目的是在兩個電氣系統(tǒng)之間提供電氣隔離，同時允許數(shù)字信號或數(shù)據(jù)（有時甚至是電源）穿越這個隔離屏障。隔離意味著兩側(cè)電路沒有直接的電氣連接（沒有共用的地線或電源），從而防止危險的電壓、電流浪涌、地線環(huán)路干擾或噪聲從一側(cè)傳遞到另一側(cè)，保護人員和設(shè)備安全，并確保信號的完整性。

2025-08-21 265次

一文讀懂DRAM（動態(tài)隨機存取存儲器）工作原理、分類、主要廠商

DRAM是一種易失性半導(dǎo)體存儲器，用于計算機和其他數(shù)字設(shè)備作為主內(nèi)存。它的名字“動態(tài)”源于需要周期性刷新存儲的數(shù)據(jù)。

2025-06-19 1153次

更多資訊

熱門資訊

萬聯(lián)芯微信公眾號

元器件現(xiàn)貨+BOM配單+PCBA制造平臺

關(guān)注公眾號，優(yōu)惠活動早知道！

* 我的問題/建議：
* 聯(lián)系電話：
上傳圖片（選填）：	請您提交2M以內(nèi)的jpg,gif,png格式文件
投訴訂單號（選填）：

h1_key

萬聯(lián)芯微信公眾號

4000-306-326