免费精品在线视频-免费久-免费久草-免费久草视频-免费久福利视频在线观看

最強(qiáng)AI芯片H200?黃仁勛又在擠牙膏了

2023-11-16 10:52 | 來源:虎嗅APP | 作者:俠名 | [科技] 字號(hào)變大| 字號(hào)變小


雖然算力沒有提升,但更高速的推理就意味著大量時(shí)間和金錢成本的節(jié)約,雖然還沒有公布定價(jià),新卡的"單美元效率"有了顯著的提升...

        11 月 13 日晚,英偉達(dá)在國(guó)際超算大會(huì)上推出新一代 GPU,NVIDIA HGX H200。

只看算力 H200 和 H100 基本相同,但為了加速 AI 推理速度,我們優(yōu)化了顯存和帶寬。

對(duì)這塊 GPU,黃仁勛給的學(xué)術(shù)名稱是 " 新一代 AI 計(jì)算平臺(tái) ",專為大模型與生成式 AI 而設(shè)計(jì),翻譯一下:

        又一塊史上最強(qiáng)芯片

        先看具體的參數(shù)升級(jí),官方新聞稿是說相比 H100 而言性能提升了 60%-90%,具體來看則是四個(gè)方面:

        1. 跑 70B Llama2,推理速度比 H100 快 90%;

        2. 跑 175B GPT-3,推理速度比 H100 快 60%;

        3. 顯存容量達(dá)到 141GB,是 H100 的近 1.8 倍;

        4. 帶寬達(dá)到 4.8TB,是 H100 的 1.4 倍。

        換句話說,雖然算力沒有提升,但更高速的推理就意味著大量時(shí)間和金錢成本的節(jié)約,雖然還沒有公布定價(jià),新卡的 " 單美元效率 " 有了顯著的提升。

邏輯芯片應(yīng)該還是臺(tái)積電的 4N 工藝,CoWoS 封裝也沒有變化,但 HBM 存儲(chǔ)芯片卻由原先的 HBM3 升級(jí)到了 HBM3e。

雖然當(dāng)下 H200 的具體架構(gòu)還沒有曝光,根據(jù)已有信息我們推測(cè),最重要的三個(gè)部分中,

        H100 拆機(jī)圖

        原先的 6 顆 HBM3 芯片由 SK 海力士獨(dú)供,內(nèi)存帶寬為 3.35TB/s,內(nèi)存為 80GB,而全球首款搭載 HBM3e 內(nèi)存的 H200,內(nèi)存帶寬達(dá)到 4.8TB/s,內(nèi)存達(dá)到 141GB。

        141GB 內(nèi)存這個(gè)數(shù)字還挺奇怪,但這也是慣例。之前的 HBM3 芯片單顆內(nèi)存為 16GB,堆疊 6 顆理論上應(yīng)該是 96GB,但實(shí)際只有 80GB,就是英偉達(dá)為了保證良率,保留了一部分冗余空間。

        而這次的 HBM3e 單顆容量為 24GB,6 顆算下來是 144GB,等于說這次英偉達(dá)只保留了 3GB 冗余,更大程度壓榨了內(nèi)存的空間,以實(shí)現(xiàn)性能上的突破。

這或許帶來產(chǎn)能爬坡速度較慢的問題。

        至于供應(yīng)商方面,英偉達(dá)暫時(shí)沒有公布,SK 海力士和美光今年都公布了這一技術(shù),但美光在今年 9 月份表示,它正在努力成為英偉達(dá)的供應(yīng)商,不知道 H200 有沒有選上它。

        這塊最強(qiáng) GPU 要到 2024 年二季度才正式發(fā)售,現(xiàn)在大家依然得搶 H100。

        今年 8 月英偉達(dá)發(fā)布的 GH200 超級(jí)芯片,實(shí)際上是由 Grace CPU 與 H100 GPU 組合而成的。

        這套組合在 NVLink 的加持下與 H200 完全兼容,也就是說原先用 H100 的數(shù)據(jù)中心既可以直接升級(jí) H200,也可以再堆幾塊 H200 進(jìn)去增加算力。

        另一方面,根據(jù)此前英偉達(dá)公布的更新路徑圖,在 2024 年的四季度就將發(fā)布下一代 Blackwell 架構(gòu)的 B100,性能將再次突破。

        再結(jié)合我們上文提到的,相比于 H100,H200 只是在推理能力上有所提升,更接近老黃一貫以來的擠牙膏產(chǎn)品,真正的大招還得看明年的 B100。

        問題是,英偉達(dá)為什么要出一款這樣的產(chǎn)品?

        H200 稱不上傳奇

        顯卡玩家都知道,老黃的刀法是出了名的精湛。

        所謂刀工,就是你去買肉的時(shí)候說要一斤肉,老板一刀下去剛好一斤。放到顯卡這里,則是廠商通過分割性能設(shè)計(jì)出不同價(jià)位的產(chǎn)品,以滿足各類不同需求的消費(fèi)者。

        比如下圖所示的五款同一年發(fā)售的顯卡,采用相同制程和架構(gòu),但通過屏蔽不同量的流處理器以誕生性能有所差異的五款顯卡。

        發(fā)售價(jià)基本呈等差數(shù)列,如果把他們變成性能差異的話,則會(huì)出現(xiàn)下面這張層層遞進(jìn)的得分圖。

        很明顯,消費(fèi)者多花一分錢,就能多得到一點(diǎn)性能,號(hào)稱 " 每 500 元一檔,每 5% 性能一級(jí) "。

        畢竟打游戲這事,有人只玩熱血傳奇,也有人就喜歡 4K 光追 120FPS 玩《賽博朋克 2077》,不同人群的需求千差萬(wàn)別,不同價(jià)位都有市場(chǎng)。

        圖片來源:極客灣

至于這么操作有什么好處——搶占市場(chǎng),節(jié)約成本。

        搶占市場(chǎng)比較好理解,在所有價(jià)格帶和各種性能檔次上鋪滿自家產(chǎn)品以擠壓對(duì)手生存空間,這套做法各行各業(yè)都有,看看白酒和車企就知道了。

        成本這邊,一片晶圓能夠切割出若干塊 "die"(也就是芯片封裝前的晶粒),而這切割出來的 die 質(zhì)量參差不齊,也就有了良品率的概念。

        因此簡(jiǎn)單來說,以 16xx 系顯卡為例,英偉達(dá)就會(huì)把質(zhì)量最高的芯片做成性能最強(qiáng)的 1660Ti,差一點(diǎn)的做成 1660Super 和 1660,再差一點(diǎn)的繼續(xù)降級(jí)。

        這樣就能夠保證在芯片制造過程中的損耗盡可能降低。

        同時(shí)這種刀法還能用來清庫(kù)存,比如 22 年礦機(jī)市場(chǎng)崩盤,英偉達(dá) 30xx 系列芯片堆在倉(cāng)庫(kù)里賣不動(dòng),老黃就把用在高端顯卡上的芯片放進(jìn)低端顯卡系列里,降價(jià)出售。

        比如說原先放在 3090 上的 ga102 核心,22 年 3 月首發(fā)價(jià) 11999 元,到了 11 月就搭載到新版的 3070Ti V2 上,價(jià)格直接打到了 3500 左右。

        回到 H200 這里,H100 已經(jīng)是最強(qiáng)的 AI 芯片了,但英偉達(dá)就是要在 B100 和 H100 之間再切出一個(gè) H200,同樣也是上述的兩個(gè)原因。

        這里需要科普一下內(nèi)存帶寬的意義,一套服務(wù)器的真實(shí)計(jì)算速度(FLOPs/s),是在 " 計(jì)算密度 x 帶寬 " 與 " 峰值計(jì)算速度 " 這兩個(gè)指標(biāo)間取最小值。

而計(jì)算密度和帶寬的上限都是受到內(nèi)存技術(shù)影響的。(這里劃個(gè)線,后面討論中國(guó)特供 H20 還會(huì)提到。)

        通俗來說,就是如果芯片內(nèi)部計(jì)算已經(jīng)結(jié)束,但新的數(shù)據(jù)沒傳過來,下一次計(jì)算也就不能開始,這部分算力實(shí)際上是被浪費(fèi)的。

        這也是為什么我們看到一些服務(wù)器的算力(FLOPs)相對(duì)較低,但計(jì)算速度卻更高的原因。

        因此對(duì)于一款高性能芯片來說,算力和帶寬應(yīng)當(dāng)同步提升才能使計(jì)算速度最大化。

        對(duì)于 H 系列 GPU 來說,在不改架構(gòu)和所用制程的情況下,可能算力上的突破已經(jīng)比較困難,但在 HBM3e 的加持下,內(nèi)存和內(nèi)存帶寬得以繼續(xù)提升。

        另一方面,相較于此前訓(xùn)練大模型所強(qiáng)調(diào)的龐大算力,在當(dāng)下 AI 應(yīng)用大量落地的時(shí)代廠商開始重視推理速度。

        推理速度和計(jì)算速度可以劃上約等號(hào),即是將用戶輸入的數(shù)據(jù),通過訓(xùn)練好的大模型,再輸出給用戶有價(jià)值的信息的過程,也就是你等 ChatGPT 回復(fù)你的那段時(shí)間。

        推理速度越快,回復(fù)速度越快,用戶體驗(yàn)自然越好,但對(duì)于 AI 應(yīng)用而言,不同難度等級(jí)的推理所需要的運(yùn)算量天差地別。

        打個(gè)比方,假設(shè)現(xiàn)在有一款和 GPT-4 同樣強(qiáng)大的模型,但問他附近有什么好吃的足足花一分鐘才能給出答案,但 GPT-4 只要一秒,這就是推理速度帶來的差異。

        這種推理速度上的差異延伸到應(yīng)用生態(tài)上,則會(huì)影響應(yīng)用的廣度與深度,比如即時(shí)性要求更強(qiáng)的 AI 就必須擁有更高的帶寬,最典型的案例就是自動(dòng)駕駛技術(shù)。

        在這一邏輯下,頭部大廠自然會(huì)愿意為更高的內(nèi)存買單。

        而成本這一塊,英偉達(dá)就更雞賊了,咱們來看看中國(guó)特供版 GPU:H20。

        深厚刀工下的產(chǎn)物:H20

        日前有消息稱,英偉達(dá)現(xiàn)已開發(fā)出針對(duì)中國(guó)區(qū)的最新改良版系列芯片:HGX H20、L20 PCle 和 L2 PCle,知情人士稱,最新三款芯片是由 H100 改良而來,預(yù)計(jì)會(huì)在 16 號(hào)正式公布。

        這有三款芯片,但 L20 和 L2 是基于 Intel 的第三代平臺(tái),這里暫且不表,重點(diǎn)是采用 H100/H800 架構(gòu)的 H20。

        H20 的誕生背景這里就不再贅述,單看這名字,足足落后 H200 十倍,拜登看了直點(diǎn)頭。

        先看參數(shù),H20 在內(nèi)存上用的還是 H100 相同的 HBM3,6 個(gè) 16G 堆疊完完整整 96GB,完全沒有任何留存部分,意味著該技術(shù)良率早已不是問題,明顯的成熟制程。

        但為了規(guī)避禁令限制,計(jì)算密度(下圖中的 TPP/Die size)被大幅閹割,根據(jù)上文所述,計(jì)算速度也就是推理速度差了不止一星半點(diǎn)。

        然后再看這張表,計(jì)算能力的核心參數(shù) FP32 為 44TFLOPS,相較于 H100/200 并沒有下降多少。

        但在張量核心(Tensor Core)的部分則是大砍特砍,BF16、TF32 都被砍到只剩一個(gè)零頭。

張量核心被砍,基本意味著這塊 GPU 當(dāng)下訓(xùn)練不出比 GPT-3 更高級(jí)的模型。

簡(jiǎn)單來說就是生成比 GPT-3 更高級(jí)的大模型所必備的,專為深度學(xué)習(xí)而設(shè)計(jì)的計(jì)算核心,

        張量核心被砍,同樣意味著生產(chǎn)這卡可以用成熟制程,品相差一點(diǎn)的晶粒,也就意味著更低的成本。

        想想這是不是和顯卡玩法差不多?

        看到這里感覺就是個(gè)全面閹割版,用國(guó)產(chǎn)替代不行嗎?

        老黃刀法厲害就厲害在這:4.0TB 的內(nèi)存帶寬比 H100 還高,卡間、服務(wù)器間帶寬 NVlink 速度 900GB/s 和 H100 持平。

        也就是說,即便禁令影響不能出售高端 GPU,但中國(guó)客戶可以多買幾張堆一起,用來彌補(bǔ)單卡算力不足的問題,粗略算算 2.5 張 H20 可以等效于一張 A100。

        NVlink 再加上 CUDA 生態(tài),再算上成熟制程帶來的低成本優(yōu)勢(shì),即便國(guó)內(nèi)廠商不得不給英偉達(dá)繳更多的 " 稅 ",H20 依舊是國(guó)內(nèi)廠商最好的選擇。

        還是那句話,老黃這么多年積淀下的刀功確實(shí)能給蚊子腿做手術(shù),這一刀下來,既規(guī)避了禁令限制,又讓國(guó)內(nèi)廠商繼續(xù)買他們家的產(chǎn)品。

        英偉達(dá)又贏麻了。

電鰻快報(bào)


1.本站遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來源;2.本站的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和來源,不尊重原創(chuàng)的行為我們將追究責(zé)任;3.作者投稿可能會(huì)經(jīng)我們編輯修改或補(bǔ)充。

相關(guān)新聞

信息產(chǎn)業(yè)部備案/許可證編號(hào): 京ICP備17002173號(hào)-2  電鰻快報(bào)2013-2023 m.dzqtr.cn

  

電話咨詢

關(guān)于電鰻快報(bào)

關(guān)注我們

主站蜘蛛池模板: 杨幂国产精品福利在线观看 | 在线精品免费观看综合 | 黄色网址免费 | 澳门一级毛片免费播放 | 久久精品乱子伦免费 | 日韩大尺度无遮挡理论片 | 黄色在线免费观看视频 | 亚洲欧美另类日本久久影院 | 久久99国产亚洲高清 | 曰韩欧美 | 国产青草视频免费观看97 | 日韩大尺度无遮挡理论片 | 亚洲国产成人超福利久久精品 | 亚洲精品视频在线观看免费 | 欧美亚洲在线视频 | 欧美成人免费tv在线播放 | 日操夜操天天操 | 麻豆麻豆必出精品入口 | 国产成人免费高清视频 | 亚洲日本高清影院毛片 | 国产不卡视频 | 欧美黄色免费在线观看 | 黄色影院在线 | 一级香蕉免费毛片 | 丁香六月婷婷精品免费观看 | 41sao.can在线观看国产 | 青草91视频免费观看 | 91精品国产高清在线入口 | 91香蕉视频在线播放 | 欧美成人三级一区二区在线观看 | 国产一级淫片a免费播放口欧美 | 欧美人成网站免费大全 | 最近免费中文在线视频 | 成人网视频免费播放 | 国产剧情第一页 | 亚洲精品区 | 亚洲第一视频 | wwww欧美| 色久影院 | 成年视频在线播放 | 日韩精品一区二区三区 在线观看 |