去年10月份以來,有人開始在垂直社群中喊話出售面臨美國出口管制的英偉達高端芯片,聲稱A100、H100等都有辦法搞到。
這些人往往備注直接——“英偉達芯片貨源”,不論是八九十人的小群還是幾百人的大群,他們都會冒個泡,不少芯片行業(yè)群中都收到了類似的消息。
按照這些賣家的說法,可以提供現(xiàn)貨,但無法穩(wěn)定供應量,期貨一般8-14周交付,“40%定金,貨到驗貨付尾款交付!笨倳腥私硬鐔枂杻r格、貨源,能拿多少片,但成交與否不得而知,更多人只是觀望。
知情人士稱,這些賣家大多來自南方,拿貨渠道隱秘,能把貨從海外送到大陸的指定地點,但并不包售后。行業(yè)社群之外,拼多多、小紅書甚至是閑魚等平臺上,也偶有“貨源”出現(xiàn)。
今年10月17日,美國更新出口管制條例后,英偉達A800、H800、L40S等更多芯片面臨禁售,地下市場的“尖兒貨”開始洗牌,這些隱秘的賣家又開始在社交、電商平臺現(xiàn)身,以二手的形式轉(zhuǎn)售被禁的先進芯片。
“整機現(xiàn)貨,欲購從速”。4萬、13萬、25萬......不斷變動并走高的價格,也引發(fā)從業(yè)者調(diào)侃:大概這是自去年10月禁售以來,我離天價芯片最近的一次。
去年10月,美國商務部發(fā)布出口管制條例,限制算力上限為4800以及帶寬上限600 GB/s的AI芯片向中國出口,英偉達A100面臨禁售,彼時正值全球人工智能行業(yè)發(fā)展的高峰時期。
A100是基于Ampere架構的GPU計算加速器,專為高性能計算、人工智能和機器學習等領域設計,擁有高達 6912 個 CUDA 核心和 40GB 的高速 HBM2 顯存,是目前最強大的數(shù)據(jù)中心GPU之一。
Lambda網(wǎng)站將A100與V100進行對比測試,結果顯示,在卷積神經(jīng)網(wǎng)絡訓練中,1塊A100的訓練速度是1塊V100的2.2倍,使用混合精度時,前者則是后者的1.6倍;在語言模型訓練中,1塊A100的訓練速度是1塊V100的3.4倍;使用混合精度時,前者則是后者的2.6倍。
左圖:A100與V100卷積神經(jīng)網(wǎng)絡訓練速度對比,右圖:A100與V100語言模型訓練速度對比
這還只是用了A100 40GB版本,80GB版本的A100 HBM2位寬達5120bit,顯存帶寬達1935 GB/s,能支持更快的訓練速度和更大模型容量,處理大規(guī)模并行計算的應用程序不在話下。
有從業(yè)者直白表示:“你做出來的是人工智能,還是人工智障,全靠背后的算力支持,直接決定勝負!
此次切斷供應直接影響到大數(shù)據(jù)、云計算、自動駕駛、計算機等多個領域,很多企業(yè)被迫延遲甚至砍掉了開發(fā)計劃。
為了規(guī)避出口管制,英偉達針對性地向中國市場推出A800和H800芯片,以滿足中概互聯(lián)企業(yè)的算力需求,但如果需要采購A100和H100這種在管制清單上的產(chǎn)品,就只能通過非官方渠道。
今年4月以來,社交、電商甚至二手電商平臺上,開始有人報價A100芯片,也有一些帖子暗示自己有少量A100貨源,價值不低于一臺寶馬。
根據(jù)芯潮IC的跟蹤觀察,今年2月份,A100即開始在國內(nèi)以非官方渠道的形式流通,價格大概在4萬人民幣左右,最低還賣過2萬多,隨著5月份中概互聯(lián)網(wǎng)企業(yè)卷起大模型熱潮,A100價格一路走高,最高成交價接近25萬元,浮動范圍極大。
有業(yè)內(nèi)人士透露:“一般一臺服務器上需要裝配8張顯卡”,按最高成交價25萬元來算,一臺服務器整機價格接近200萬元。
人工智能產(chǎn)業(yè)對算力渴望,讓更高端的芯片也加入了非官方流通之列,到6月份,H100的報價在上述渠道也多了起來。不少芯片社群里頭頂“貨源”的潛水銷售們,也將自己的昵稱悄悄改為“H100芯片貨源”。
公開資料顯示,H100相較于A100,16位推理速度上提升3.5倍,訓練速度上提升2.3倍,如果用服務器集群運算的方式,訓練速度更是能提高到9倍,自發(fā)布起就受到追捧。
亞馬遜CEO Adam Selipsky就曾表示:“H100是最先進的……即使對于AWS來說也很難獲得。”而這話,就連OpenAI、Meta、微軟這些科技巨鱷也非常想說。據(jù)江湖流傳的小道消息,H100甚至可以作為一種“敲門磚”,初創(chuàng)公司以此找基金拿抵押貸款。
據(jù)外媒報道,9月份,英偉達在日本的銷售合作公司把H100價格調(diào)漲16%,達544萬日元(26.5萬元人民幣)。
有價無市,一哄而上,作為市場主流,這兩款芯片儼然是AI算力“硬通貨”,但因為出口管制,只能在社交、電商平臺等非官方渠道流通。
在具體的詢價過程中,有的店主表示“有單卡,模組和整機”,但更多的手上只有少量的單片散貨:“現(xiàn)貨32張,就看誰手快了”,更有店主大方表示,這些產(chǎn)品沒有保修或支持服務,但被問及發(fā)貨地和貨源時,回答會含糊一些,“海外發(fā)貨,大陸交付,但可以送到指定地點!
有購買者向芯潮IC透露,“確有不少人在銷售英偉達 GPU,但能否獲得線,在收到貨之前還是難以確認,畢竟也曾有人花了兩萬美金,卻買到了翻新貨。”
一般認為:火爆程度上H100>A100>A800,A800主要面向中國市場,是A100的“閹割版”,H100比A100還要更高階一點。此外還有一款號稱是“H100閹割版”的H800。
A100上文已介紹過,這里不再贅述。A800是英偉達在遵守2022年出口管制標準的前提下,為中國地區(qū)開發(fā)的A100“平替”。從官方公布的參數(shù)來看,A800主要是將NVLink的互聯(lián)帶寬由A100的600GB/s降至了400GB/s,其他參數(shù)與A100基本一致;ヂ(lián)帶寬也就是我們常說的傳輸速率,直接影響著芯片輸入和輸出的能力,對訓練大模型十分重要。
Jefferies全球證券首席策略官Christopher Wood在研報中指出,英偉達為避開美國2022年9月輸中禁令所打造的“A800”系列芯片,最近幾月對中國的銷量非常龐大。
H100發(fā)布于今年3月,是一款基于4nm工藝,擁有800億個晶體管、18432個核心的 GPU芯片。針對中國市場,英偉達也推出了特供版H800,據(jù)外媒報道,H800 的芯片間數(shù)據(jù)傳輸速度大概是 H100 的一半,阿里巴巴、百度的云部門已采用H800芯片。
一位不愿透露姓名的渠道商表示:“現(xiàn)在整個市場主流就是H100,很多公司報價高達50萬,但實際成交價格在32萬左右,不過確實很難拿到貨,9月份的出貨量也只有3000片左右!
至于支付定金,在這位渠道商看來,“市面上傳訂貨要付50%定金,比正規(guī)渠道高出了差不多30%,真實貨源面前,支付多少定金已經(jīng)不重要了!
而與H100的火熱形成對比,年初嶄露頭角,年中走向高點的A100已基本“退燒”。電子元器件渠道商覺S向芯潮IC透露,“A100最熱的時候,哪怕你手里只有三五片,人家都會拿過去拼湊,但采購潮在6月份就基本結束了,現(xiàn)在需求基本飽和,至于A800芯片,現(xiàn)在誰拿到基本都會砸在手里!
10月17日,美國商務部頒布新一輪出口管制條款,針對中國市場的平替版本英偉達 A800 和 H800面臨禁售,L40S甚至RTX 4090都被推上了風口浪尖,黑市“尖貨”價格又一次戲劇性上漲。有消息稱,當日晚間預定的H800 GPU整機單價已高達245萬元,較一個月前的期貨預訂價195萬元已高出25%。
不過這次,很多國內(nèi)廠商都提前接到了消息,預先完成了囤貨。國內(nèi)一家服務器廠商的內(nèi)部人士表示,他們十月初就接到了這個(禁售)消息,目前已經(jīng)囤了足夠量,不過未來還是有很大壓力。
綜合市場的信息,應用軟件開發(fā)商、初創(chuàng)公司、研究機構和游戲玩家是這些芯片的主要采購者,也可能涉及一些敏感機構和實體 。
有需求就會有供給,一條隱秘的地下交易鏈條也逐漸成型——供應商們采購芯片的方式主要有二:一是在英偉達向美國大型企業(yè)大量發(fā)貨后,搶購市場上的剩余庫存;二是通過在印度、中國臺灣、新加坡等地本地注冊的公司進行進口。
知情人士表示:“對于大型企業(yè)來說,拿貨一般有固定的渠道,而且消息都是高層間直接勾兌,走貨量大,中間商作用較弱!
有渠道商透露,其實顯卡大概是兩個巴掌大小,由于每個國家把控嚴格度不一,如果揣在包里,報關時把它報成普通電子設備,流通就成為可能,好比當年水客運輸iPhone。也有人從服務器上下功夫,“一般服務器都是類似于茶海大小,海外發(fā)到我們這邊都會拆散,但里面的東西基本上不會損壞!辈贿^大家心里也清楚,走中小型中間商渠道,風險會很高,雖然買個幾片、定金也交了,一旦被查基本只能認栽。
總的來說,國內(nèi)真正能勾兌這類交易的人屈指可數(shù),就連坊間傳得神乎其神的華強北,也有很多辦不到的事。中間商就算想分一杯羹,也多會因為繁瑣復雜的過程驗證而退出——客戶會質(zhì)疑貨物真假,是不是拆機件,能不能確保100%原廠出貨;供貨端更是會仔細盤問買家、用途、是不是真的有能力付錢。
也有渠道商曾試圖在這種產(chǎn)品上賺一筆,但最終嘗盡苦頭,有感而發(fā):“做一單幾萬美金,或者二十萬美金的生意尚且很復雜很小心,更何況這是一筆上千萬美金的訂單,是很難做到的!
風險因素眾多,除了產(chǎn)品來源非官方、去向不確認,市面上還會有不少翻新貨,運氣夠差的話,你手里拿到的根本就不是A100。知情人士稱,“拿到芯片后必須得組裝起來才知道真假好壞,有點兒像開盲盒”,“如果向某些比較正規(guī)的公司簽合同購買,都至少有1-3年的質(zhì)保,單從外面的渠道購買是基本不靠譜的,保修售后也不要想了!
據(jù)介紹,運輸過程中磕碰、泡水比較常見,還有賣家把已經(jīng)不流通的 A100 40GB芯片,改成80GB來賣,上當?shù)囊泊笥腥嗽凇?/p>
H100還沒成為歷史,搶卡又開始了新的輪回,甚至消費級的RTX 4090一下成為風暴中心。10月17日之后的短短三日,RTX 4090的價格像坐了火箭,沖上4萬不說,在華強北線下和淘寶第三方店鋪均已斷貨。
“4090是被性能密度拖下水的,實際上4090目前也沒有人真的拿來做AI!庇袠I(yè)內(nèi)人士向芯潮IC表示,RTX 4090是目前游戲玩家能夠買到的最頂尖的游戲顯卡,AI大模型訓練等商業(yè)需求,RTX 4090雖在理論上可以串聯(lián)滿足(很少有人會這么做),更多還是滿足個人需求當個游戲卡。
令所有人都沒想到的是,本來有30天窗口期的禁令竟提前生效——24日晚間,英偉達發(fā)布公告稱新出口限制改為立即生效,但炒得正熱的RTX 4090卻不在禁售名單中。
根據(jù)英偉達周二提交給SEC的文件,美國商務部10月23日通知該公司,上周(10月17日)公布的出口限制改為立即生效,影響適用于“總處理性能”為4800或更高,并為數(shù)據(jù)中心設計或銷售的產(chǎn)品,即A100、A800、H100、H800和 L40S的出貨。
日前,又有消息稱,多家英偉達合作顯卡品牌確認RTX 4090系列將于11月17日之后在中國大陸全面禁售。盡管線似乎有著自己的“線S......歷史宛若一個輪回,套住了深扎其中的玩家,不論是身為制造商的臺積電、聯(lián)電,還是像英偉達、AMD等人工智能計算公司,更不必說華為、寒武紀、摩爾線程、壁仞等諸多被禁令“點名高掛”的中國大陸企業(yè),都隨這一場場的風波浮浮沉沉。
。CoWoS 是臺積電的一種“2.5D”封裝技術,其中多個有源硅芯片集成在無源硅中介層上,是最流行的 GPU 和 AI 加速器封裝技術,英偉達 A100、H100芯片均用臺積電CoWoS 先進封裝。2023年,ChatGPT風靡全球,AI芯片需求應聲大漲,這大大超過了英偉達的預估。一位有豐富半導體制造經(jīng)驗的知情人士表示,“原本英偉達 2022年在臺積電預訂的產(chǎn)能是3萬片,今年3月ChatGPT爆火后,又緊急追加了5000片,再后來又追加了1萬片,最終在臺積電的訂單共有4.5萬片!
。對英偉達來說,臺積電出多少就買多少,但同時還有AMD也要出貨,谷歌自研的TPU也在翹首盼望,這14萬片的產(chǎn)能早就被瓜分了個精光。據(jù)業(yè)內(nèi)人士介紹,CoWoS 所需中介層因關鍵制程復雜、高精度設備交期拉長而供不應求,目前產(chǎn)能嚴重受限,正處在艱難爬坡過程中。這也意味著哪怕是英偉達這樣的大客戶,想追加更多都是不可能的。
,這個問題有望在明年第二季度解決,那時產(chǎn)能大量釋放,明年臺積電CoWoS有望達到30萬片。想象一個場景,如果明年產(chǎn)能不再緊缺,在美國、日本、新加坡,這幾款芯片要多少有多少,需求飽和,流入中國市場只是時間早晚,F(xiàn)在全球缺貨加上中國被限,芯片的價差特別高,但產(chǎn)能跟上后,價差自然會變小,千金囤貨的故事終會告一段落。
!睂脮r,H100在訓練端的需求可能會到頂,但推理端場景有很多,需求增長無窮無盡,F(xiàn)如今,Meta、Microsoft等國外大廠做訓練和推理基本都用H100,部分小廠可能為了性價比選擇訓練用H100,推理用A100。但其實,推理端并不是非高端芯片不可,今年8月,
。這是一款專為搭建數(shù)據(jù)中心設計的 GPU芯片,在具有數(shù)十億參數(shù)和多種模態(tài)的生成式AI工作負載下,L40S的18176個CUDA核心可提供近5倍于A100的單精度浮點(FP32)性能,相較于A100推理性能提升1.2倍,訓練性能提升1.7倍,從而加速復雜計算和數(shù)據(jù)密集型分析。對于全球而言,在CoWoS封裝產(chǎn)能有限, H100供給不足的當下,L40S 可謂一場及時雨,但現(xiàn)在也遭遇了“一紙禁令”。
禁令的波及不僅體現(xiàn)在先進芯片產(chǎn)品的直接銷售上,也體現(xiàn)在先進工藝的制造代工上,寒武紀,摩爾線程、壁仞已經(jīng)無法在臺積電流片,而只能轉(zhuǎn)向大陸晶圓廠。據(jù)了解,目前中芯南方廠今年、甚至明年上半年的產(chǎn)能已經(jīng)排滿,相關需求大概明年下半年才能做。
“GPU現(xiàn)在良率很低,必須要有足夠的產(chǎn)能才會去跑GPU,但等到明年下半年中芯南方產(chǎn)能釋放,其實一定程度上已經(jīng)失去了先機。”