×
×

大有可為or缺點太大?史上最大芯片及系統技術細節最新披露

2019-11-17 12:57:23 來源:EETOP

幾個月前,初創公司Cerebras推出了史上最大芯片,參見:一片晶圓僅做一顆芯片!史上最大芯片誕生!1.2萬億個晶體管。近日,Cerebras透露了關于此款芯片以及基于此款芯片所設計的系統的更多技術細節,讓我們看一下是如何克服超大芯片所面臨的諸多技術問題的。

摩爾定律的主要驅動力之一是對不斷提高的電路集成水平的需求。通常,有兩種增加密度的方法-利用較小的特征尺寸(和布局)或使用較大的基板。英特爾(Intel)、IBM和英偉達(Nvidia)等公司最近推出的芯片,在最近的前沿節點上,往往接近最大的芯片尺寸。現代的EUV光刻步進器的最大場尺寸為26 mm x 33 mm或858mm²。

摩爾定律的主要驅動力之一是對不斷提高的電路集成水平的需求。通常有兩種增加密度的方法——利用更小的特征尺寸(和布局)或者使用更大的基底。英特爾(Intel)、IBM和英偉達(Nvidia)等公司最近推出的芯片,在最近的前沿節點上,往往接近最大的芯片尺寸。現在最新的EUV光刻步進器的最大場尺寸為26 mm x 33 mm或858mm²。

 

以整體的方式(即非拼接)制造更大的常規裸片需要新的工具。但是,有兩種替代方法。晶圓級集成(WSI)是指單片芯片的制造,該單片芯片的尺寸與晶圓本身的最大直徑相同或接近。WSI不是一個新概念。這個想法可以追溯到近半個世紀。也許最引人注目的嘗試是Trilogy Systems,這是Gene Amdahl共同創立的1980年代初創業公司,試圖使用基于ECL的晶圓級模塊設計高速計算機。他們在100毫米晶圓上設計了一個晶圓級的“超級計算機”,用于處理6平方厘米的芯片。Trilogy Systems最終屈服于當時的晶圓級光刻技術的經濟現實,到1984年,該公司放棄了自己的努力。1989年,Anamartic,晶片疊層具有20到160Mb的存儲器,使用多達8組150mm晶片,每個晶片集成了202個1Mb存儲器。

自從Trilogy公司放棄努力以來,已經過去了35年了,半導體行業已經經歷了幾十次節點轉換、四次晶圓尺寸轉換,以及在工藝技術方面的知識和經驗上的重大進步,使數百萬個晶體管能夠在每一毫米的硅上制造出來,其產量是幾十年以前所無法想象的。所以也許是時候給它第二次機會了?

Cerebras晶圓級引擎(WSE)

Cerebras Systems在Hot Chips 31上展示了他們的新芯片– Wafer Scale Engine(WSE)-巨大。WSE是一塊單片的半平方英尺的硅片!

Cerebras提出的最大的方形芯片可以用標準的300毫米晶圓雕刻而成。這很重要,因為Cerebras已與TSMC合作,并使用其標準的16納米工藝來制造這些芯片

WSE為215mm²,300毫米/√2等于212.1毫米。晶圓片外面超過2.9毫米的部分導致芯片有圓角。

芯片包括84個相同的管芯,它們以7乘12的網格排列。每個管芯約為510平方毫米,帶有略微超過4,774個集成的微型AI內核。Cerebras表示,出于冗余原因,還有1-1.5%的額外AI內核,我們將在稍后詳細介紹。擁有84個管芯,每個芯片將擁有超過40萬個AI內核。

這里有很多內容,我們來總結一下重點。第一部分是內核(core)——一個芯片上大約有50萬個內核。這些內核完全是由Cerebras為AI工作負載設計的。內核是完全獨立的,是完全可編程的——它們被設計成獨立地執行自己的指令流,不管周圍發生了什么。由于該領域正在發展,據說內核設計具有足夠的靈活性,以適應未來可能需要的新功能和新操作。因此,由Cerebras設計的ISA包括通用操作,如加載/存儲、分支和算術,以及一組張量操作。通用操作是標準的CPU操作。除此之外,Cerebras增加了對張量操作數的固有張量運算。換句話說,張量操作碼直接接受2D和3D張量,就像你在傳統CPU上指定寄存器一樣。

作為一種降低功耗的機制,內核還支持硬件內部的稀疏處理。內核執行數據流調度,所有計算都由數據單獨觸發。當它們等待有用的數據時,內核會停止工作,這使得它們可以通過過濾掉稀疏的零數據來消除不必要的處理。在某種程度上,這也是一種性能特性,只要他們能夠跳過數據并繼續進行任何可用的工作。

“大”有可為

由于相當于84個裸片,所以這個數字簡直令人難以置信。這正是Cerebras所希望的——僅僅由于集成的數量,一個巨大的性能提升。看看Nvidia最大的GPU和Cerebras WSE之間的比較,數字是非常令人印象深刻的。

Cerebras提供的完整解決方案

由于涉及的復雜性,Cerebras不僅要設計芯片,而且還必須設計整個系統。這使他們可以將其調整到正確的公差。Cerebras尚未透露完整產品的太多信息,目前知道WSE將有一個15U的機箱用于WSE,另一個機箱用于電源和其他部件。最終產品旨在像100 GbE上的任何其他網絡連接的加速器一樣工作。

WSE比全球最大的GPU Nvidia V100大近57倍。這令人印象深刻,但我們需要退后一步,看看Cerebras實際提供了什么:一個大型加速器。您不是將單個WSE固定在單個V100上。WSE正在與諸如Nvidia DGX-2等展開競爭。。如果沒有實際的基準測試,就很難判斷WSE與DGX-2的表現如何,但這種比較要現實得多。

芯片結構

在WSE上,所有內核都使用統一的2D網狀結構互連,并強調本地通信的低延遲。Cerebras使用了完全可配置的結構。該結構依賴于細粒度的單字消息傳遞(fine-grain single-word message passing)。通信完全在硬件中完成,從而消除了任何軟件開銷。

這種結構不僅用于裸片之間通信,而且具有均勻的管芯陣列,Cerebras將管芯間的連接擴展到整個劃線隔離區域上的每個相鄰管芯。單個統一的2D網格將所有核心以及裸片之間連接在一起。

Cerebras與TSMC合作,以解決芯片間的連接問題。他們重新調整了劃片槽(scribe line)的用途。在臺積電的幫助下,金屬沉積擴展到了劃片槽上,使Cerebras能夠無縫地將2D網格擴展到整個裸片上。換句話說,在裸片之間發生的相同通信在裸片之間進行了擴展。在硅片上不到一毫米的距離內驅動信號直接轉換為芯片間通信所需的功耗降低了一個數量級。

 

沒有外部存儲器

WSE與所有其他設計的顯著差異之一是內存。WSE沒有外部存儲器。整個存儲器完全分布在片上SRAM的各個內核中。這與具有大緩存的大型NPU沒什么不同。但是,僅芯片的絕對大小就意味著您可以得到很多。擁有超過400K的處理內核,內存超過18 GiB,內存帶寬為9 PiB / s。由于所有芯片都在芯片上,因此無需將其全部移入和移出芯片的節能效果非常有利。

 

Cerebras表示,它已與該體系結構共同設計了軟件堆棧。開發人員可以使用其現有的ML框架,例如PyTorch和TensorFlow。Cerebras軟件將在從框架提取的網絡上執行其自己的布局和路由例程。Cerebras說,每層都根據計算,大小和帶寬需求進行調整。然后,將每一層最佳地映射到整個芯片的一部分上,從而使整個芯片可以立即在整個神經網絡模型上運行。

 

“大” 有缺點,如何克服?

收益怎么樣?

我們知道每個人在想什么——他們是如何做出這種事情的?我們假設由于16FF+的成熟度,它在這一點上具有優秀的缺陷密度。但是仍然做不成哪怕一個完美的晶圓片,依然會有單元芯片不良。

答案是“簡單”。Cerebras設計其芯片的每個晶片具有1000個微小核心的原因就是這個原因-能夠以相對較低的成本解決產量問題。冗余內核和冗余鏈路都融入了它們的體系結構。出于冗余原因,每個晶圓都包含約1-1.5%的額外AI內核。值得注意的是,冗余核心始終保留用于冗余。換句話說,當在某個區域中沒有缺陷時,只需禁用冗余核心。在受缺陷影響的區域中,使用本地冗余核心來替換有缺陷的核心。然后使用冗余結構鏈接適當地重新連接本地結構。

熱膨脹和封裝

不幸的是,僅僅獲得良好的成品率是不夠的。對于整個晶圓而言,所涉及的熱量,功率和電流令人難以置信。Cerebras說,硅晶片和PCB之間的熱膨脹僅差增量會導致過多的機械應力,從而導致破裂。

為了解決這個問題,Cerebras設計了一個定制連接器,夾在硅晶片和PCB之間。連接器的設計使其能夠在保持操作連接性的同時吸收大部分變化。當晶圓片的邊緣發生極端變化時,需要更加小心地處理。

由于其尺寸太大,也不存在標準的封裝解決方案。最終,該公司為其產品開發了自己的定制封裝,包括PCB板,連接器,WSE和冷卻板。Cerebras表示,必須開發自己的定制封裝工具和流程,以確保對齊和特殊處理。

 

散熱和電源

晶圓級引擎很大,這也意味著需要大量電流。依靠傳統的PCB電源平面交付無法正常工作。高電流密度意味著通常的橫向分配系統無法擴展到整個晶圓。換句話說,PCB中的銅不足以充分覆蓋整個晶圓。Cerebras在散熱方面也遇到了類似的問題。高熱量集中意味著冷空氣在整個晶圓上流動不足以足夠快帶走熱量。

 

 

Cerebras提出的解決方案是采用垂直方式。電流分布垂直于晶圓完成,避免了原本需要的銅線的厚度。以類似的方式,冷卻水將來自冷板的熱量直接直接輸送到垂直于晶圓片的封裝外。兩種技術都可以使晶圓的功率和冷卻高度均勻地分布,包括在晶圓的邊緣和中間。

 

 


全部評論

X
vr赛车彩票哪里开奖的 成都麻将怎么摸 重力眩晕赚钱 内蒙古彩票十一选五开奖结果 pk10分析号码走势图 重庆时时踩走势图360 海王捕鱼 广西友乐麻将官网 时时彩毒胆十期稳赚 福建时时彩app 魔域牛牛版下载地址 重庆时时后一精准公式 股权登记日后股票涨跌