中文字幕视频在线免费_日韩在线精品_日韩视频免费看_中文字幕在线三区_午夜免费视频_日韩在线大片

Arm的NPU究竟有和高深之處

來源:智匯工業

點擊:1353

A+ A-

所屬頻道:新聞中心

關鍵詞:Arm Ethos NPU系列

    領先的移動SoC設計人員多年來一直在其SoC中集成專用NPU。去年底,Arm也帶來了Ethos NPU系列。此舉是Arm拓展AI市場的最新舉措。該公司在新的Ethos NPU系列下推出了三個初始IPEthos-N37,Ethos-N57和Ethos-N77。這三個初始IP旨在覆蓋相當多的設備。顧名思義,每個功能都比前一個功能越來越強大。



    三個NPU使用相同的微體系結構構建,但配置稍有不同,您將在稍后看到。下面的Arm可視化圖描繪了NPU正在工作的各種市場和約束。


    在低端是Ethos-N37,其目標是工作負載最輕的設備,其峰值計算性能高達大約1 TOPS,而需要很少的DRAM帶寬(約為3 GB / s或更低);


    Ethos-N57涵蓋了更復雜的設備,例如大多數智能家居設備以及一些主流智能手機SoC。N57設計為具有更高的內存帶寬,并可以提供大約2 TOPS的性能;


    最后是Ethos-N77。這是系列中最強的產品,目標是性能高達4 TOPS的市場,并且具有約5 TOPS / W的較高功率效率。N77專為高級和中端AR / VR設備而設計,盡管它具有性能增強功能,但您仍需要更強大的功能。為了獲得更高的性能,需要更高的內存帶寬(內存帶寬需要高達8 GB / s甚至更高)。


    值得指出的是,這三個IP之間有很多重疊。N57可以覆蓋N37范圍的上部以及N77范圍的下半部分。與N77相同。這為SoC設計人員提供了一些擺動空間,使其可以進行自己的設計。值得指出的是,這三個IP之間有很多重疊。N57可以覆蓋N37范圍的上部以及N77范圍的下半部分。與N77相同。這為SoC設計人員提供了一些空間,使其可以進行自己的設計。



    Ethos系列的核心是Arm的ML處理器(MLP)。MLP是一種干凈的(clean-sheet ),底層(ground-up)的微體系結構,用于加速機器學習,重點是CNN和RNN。MLP實際上使用了相當簡單的設計,這正是我們期望將出售給設計人員的IP中所期望的。MLP的主要組件是控制單元,DMA,廣播網絡和計算引擎。您可能已經猜到了,主要動作發生在計算引擎中。四個計算引擎的每個群集都分組為一個“四元組”??刂茊卧獏f調整個計算引擎以及DMA引擎的整個神經網絡執行,該DMA引擎了解神經網絡映射并可以確保數據在需要時到達。



    我們可以以多種配置來實現MLP。兩個主要控制是每個計算引擎中的SRAM庫大小和計算引擎的數量。對于他們當前的設計,MLP可以具有從 從單個四核中的單個計算引擎到帶有十六個計算引擎的四個四核等多個選擇。在每個計算引擎中,您都有一塊SRAM,用于存儲輸入和輸出特征圖以及權重??梢詮?4 KiB一直配置到256 KiB。無論配置如何,控制單元和DMA始終相同。



    Ethos-N77本質上是完整的MLP配置。它具有四個quads 和16個計算引擎,并具有兩種可能的SRAM配置–:64 KiB或256 KiB。同樣,Ethos-N53包含四個quads ,總共八個計算引擎。N53每個CE帶有固定的64 KiB SRAM存儲區。Ethos-N37是性能最低的SKU,只有一個quad,總共只能容納四個具有固定的128 KiB容量SRAM庫的計算引擎。



    計算引擎中的兩個有趣的組件是MAC計算引擎(MCE)和可編程層引擎(PLE)。MCE包含高效的固定功能MAC單元,而PLE包含靈活的可編程矢量引擎。流程相對簡單。輸入activation tensor 和權重一起傳遞到MCE。計算之后,將結果傳遞到PLE進行后處理和可能需要的其他各種操作。沒有復雜的控制,因為其中很多控制權交給了編譯器,該編譯器執行靜態調度,對SRAM庫進行預分區并壓縮功能圖和權重。


    在MCE內則是一組八個MAC單元。每個MAC單元為16位寬。換句話說,每個MAC單元每個周期可以執行16個8位點積運算(dot product operations )??傮w而言,每個計算引擎有256個OP /峰值性能周期。順便說一下,這里的操作都是8位寬的,累加了32b。MLP確實支持16位操作,但著將使您的吞吐量減少4倍(即,每個周期64個OP)。下表列出了每個Ethos SKU的最高理論性能。當然,實際的工作負載性能將取決于這些MAC的利用率。需要指出的是,所有三個SKU都可以達到相同的1 GHz最大頻率。



    雖然N77的最高TOPS為4.1 TOPS,但實際的SoC并不需要達到該性能水平。相反,可以將MLP的多個實例集成到SoC中,以進一步提高性能。因此,例如,至少在理論上支持使用CCN-500互連最多擴展到八個MLP,而使用更新的CMN-600網格互連最多擴展到100個MLP。


    除了MCE,計算引擎內的其他主要組件是可編程層引擎(PLE)。PLE實際上比MCE更強大,并且因為它是可編程的而具有更大的靈活性,盡管它在處理數百萬次重復的MAC操作時在原始的功率效率競爭中有所損失。PLE是成熟的Cortex-M處理器,在其中還包含了向量和NN擴展。那意味著Ethos-N77在內部合并了16種Cortex-M向量處理器。


    它采用專用的16通道矢量引擎協處理器模型進行設計。PLE主要設計用于MCE后處理,實現一些不太常見的功能。但是由于這本身就是一個功能強大的矢量引擎,因此在有或沒有MCE的幫助下,它實際上都可以直接對SRAM數據進行操作。PLE的可編程性使Arm軟件團隊能夠快速適應新的AI模型和功能。編譯器工具鏈還提供了我們期望現代NPU能做的許多其他優化。由于編譯器會提前對SRAM進行分區,因此它會執行激活和權重壓縮,這有助于在整個設計中稍微減少帶寬。此外,還有針對稀疏性的輕量優化。數據路徑將選通為零,從而節省了一點功耗。


    (審核編輯: 智匯婷婷)

    聲明:除特別說明之外,新聞內容及圖片均來自網絡及各大主流媒體。版權歸原作者所有。如認為內容侵權,請聯系我們刪除。

    主站蜘蛛池模板: 国产精品无码久久久久 | 亚洲国产精品一区二区三区 | 国产91久久久久蜜臀青青天草二 | 国产黄色91视频 | 国产一区中文字幕 | 黄色在线 | 91精品国产乱码久久久久久久久 | 国产精品99久久久久久www | 在线日本视频 | 一区二区视频在线观看 | 亚洲人人看 | 久久久精品在线观看 | 99精品一区| 亚洲精品视频大全 | 成人av免费 | 婷婷综合五月天 | 黄色小网站免费观看 | jizzz日本 | 久久中文免费 | 欧美视频精品 | 中文字幕在线免费视频 | 欧美另类视频在线 | av中文字幕在线播放 | 91精品国产综合久久久久 | 国产一区久久 | 国产三级一区二区三区 | 国内精品一级毛片 | 亚洲色图 偷拍自拍 | 国产一级久久久久 | 精品天堂 | 久久久999精品视频 午夜精品久久久久久久久久久久 | 中国女人真人一级毛片 | 久草成人网 | 亚洲a网 | 国产精品久久久久久久久久免费动 | 久久精品日产第一区二区三区 | 午夜视频在线播放 | 日韩一区二区三区在线 | 中文字幕一级 | 一区二区三区在线观看视频 | 国产高清免费 |