Minulý měsíc došlo na trhu FPGA k boomu. V tomto článku stručně prozkoumáme tři nedávno vydané FPGA od společností Xilinx, Intel a Lattice Semiconductors, z nichž každá se zaměřuje na zlepšení jiného aspektu výkonu – Xilinx VU57P se snaží v náročných aplikacích překonat problém se šířkou pásma paměti. . Intel Stratix 10 NX FPGA obsahuje bloky DSP optimalizované pro AI, které pomáhají implementovat velké modely AI s nízkou latencí. A Lattice Nexus FPGA se snaží předefinovat FPGA s nízkým výkonem a malým tvarem. Co nám každé z těchto zařízení může říci o směru FPGA?
Xilinx VU57P FPGA: paměť s velkou šířkou pásma
Za poslední desetiletí se výpočetní šířka pásma mnoha aplikačních oblastí exponenciálně zvýšila. Například počet DSP řezů, které Xilinx FPGA poskytuje pro aplikaci strojového učení, se zvýšil z přibližně 2 000 řezů ve větším FPGA Virtex 6 na přibližně 12 000 řezů v moderním zařízení Virtex UltraScale +. Podobný trend lze pozorovat v dalších aplikačních oblastech, jako jsou síťové technologie a video aplikace, jak je uvedeno níže.
Požadavky na šířku pásma paměti. Obrázek s laskavým svolením Xilinx
Obrázek výše ukazuje, že šířka pásma paměti technologie DDR se za poslední desetiletí zvýšila přibližně dvakrát z DDR3 na DDR4. (Stojí za zmínku, že skok z DDR4 na DDR5 může být více šokující.) Mezera v šířce pásma zobrazená na obrázku znamená, že omezená rychlost přenosu dat mezi FPGA a pamětí je v nich překážkou. Aplikace. K vyřešení tohoto problému návrháři často používají více čipů DDR paralelně ke zvýšení šířky pásma paměti, což nutně nevyžaduje kapacitu paměti. Tento přístup se však stává prohibitivní při šířce pásma paměti nad přibližně 85 GB / s kvůli vysoké spotřebě energie, problémům s tvarovými faktory a náklady, jakož i výzvám při návrhu desek plošných spojů. Efektivním řešením problému se šířkou pásma paměti je typ paměti založené na DRAM, který se nazývá paměť s velkou šířkou pásma (zkráceně HBM). V tomto případě se technologie silikonového stohování používají k implementaci paměti DRAM a FPGA vedle sebe ve stejném balíčku uvedeném níže.
Stohování křemíku pomáhá implementovat DRAM a FPGA vedle sebe. Obrázek s laskavým svolením Xilinx
Technologie HBM nám umožňuje eliminovat relativně dlouhé stopy PCB spojující čip DDR s FPGA. Použití integrovaného rozhraní HBM s velkým počtem pinů má za následek výrazně lepší šířku pásma paměti s latencí podobnou technice založené na DDR. Společnost Xilinx nedávno uvedla na trh FPU VU57P (ze série Virtex UltraScale +). Zahrnuje 16G HBM s šířkou pásma paměti až 460 GB / s. Zařízení má vestavěný přepínač portů AXI, který nám umožňuje přístup k libovolnému umístění paměti HBM z libovolného paměťového portu. Kromě výše zmíněných výpočetních schopností s nízkou spotřebou a vysoké šířky pásma paměti poskytuje VU57P vysoce výkonná rozhraní. Rychlost jako 100G Ethernet s RS-FEC, 150G Interlaken a PCIe Gen4. Transceiver 58G PAM4 v novém zařízení podporuje připojení k nejnovějším optickým standardům. To může být užitečné v různých aplikacích, jako jsou brány firewall a přepínače a směrovače nové generace s QoS.
Intel Stratix 10 NX FPGA: bloky DSP optimalizované pro AI
Mnoho tradičních aplikací pro digitální zpracování signálu (DSP) vyžaduje vysoce přesnou aritmetiku. Z tohoto důvodu mají FPGA často bloky DSP s vysoce přesnými multiplikátory a sčítači. Například XC7A50T (Xilinx) a 5CGXC4 (Intel) mají multiplikátor 120, respektive 140 18 x 18, ukazuje se, že k implementaci mnoha aplikací hlubokého učení lze použít méně bitů, aniž by to výrazně ohrozilo přesnost. Přístup s nižší přesností snižuje množství výpočetních zdrojů a požadovanou šířku pásma paměti. Další výhodou zmenšení bitové šířky je, že jak výpočty s nižší přesností šetří energii, tak i počet požadovaných bitů. lze přenést pro každou paměťovou transakci. Ve skutečnosti může podle výzkumníků UC Davis s mnoha aplikacemi pro hluboké učení vést INT8 nebo méně přesné výpočty k přijatelným výsledkům. Intel Stratix 10 NX FPGA byly prvními FPGA od společnosti Intel optimalizovanými pro AI. Tato zařízení zahrnují aritmetické bloky zvané tenzorové bloky AI, které obsahují širokou škálu multiplikátorů s nízkou přesností. Základní citlivost pro tyto bloky jsou INT8 a INT4, ale podporují numerické formáty FP16 a FP12 prostřednictvím sdíleného exponenciálního hardwaru podpory Tenzorový blok AI (používaný v Stratix 10 NX FPGA) může zvýšit výkon INT8 o faktor standardního Intel Stratix 10 FPGA. Více než 15 ve srovnání s blokem DSP. Blokové schéma vysoké úrovně bloku tenzoru AI je uvedeno níže.
Blokové schéma tenzorového bloku AI. Obrázek použit se svolením společnosti Intel
Nejvýraznějším rysem Intel Stratix 10 NX FPGA je vysoká výpočetní hustota poskytovaná výpočetními bloky optimalizovanými pro AI. Nové zařízení však také obsahuje dvě další funkce, které dále pomáhají návrhářům implementovat velké modely AI s nízkou latencí: podporuje velké množství téměř výpočetní paměti (integrovaná HBM) a sítí s velkou šířkou pásma (vysílače a přijímače PAM4). Až 57,8 G).
Lattice Nexus: FPGA s nízkou spotřebou a malé rozměry
Společnost Lattice Semiconductor nedávno spustila řadu FPGA Certus-NX využívající 28nm procesní technologii Total Depleted Insulator-on-Silicon (FD-SOI). FD-SOI, původně vyvinutý společností Samsung, je poněkud podobný tradičnímu procesu CMOS; nicméně umožňuje programovatelné zkreslení pro většinu tranzistorů, jak je koncepčně uvedeno níže.
Okruhová architektura platformy Lattice Nexus. Obrázek (upravený) s laskavým svolením Lattice Semiconductor (PDF)
Programovatelné hromadné napětí poskytuje významné snížení prostoru čipu a spotřeby energie. Spotřeba energie systému Certus-NX je snížena až čtyřikrát ve srovnání s jinými FPGA s podobným počtem logických buněk. Díky použité technologii FD-SOI může nové zařízení pojmout pakety o velikosti pouhých 6 mm x 6 mm a dva na mm2 ve srovnání s podobnými FPGA. poskytuje až o podlahu více I / O. Níže uvedená tabulka porovnává Certus-NX-40 s podobnými produkty od společností Intel a Xilinx.
Porovnání tří populárních FPGA pro návrhy PCIe. Obrázek s laskavým svolením Lattice Semiconductor (PDF)
Všimněte si, že nové zařízení podporuje AES pro hromadné šifrování a eliptickou křivku (ECDSA) pro ověřování. Ve výsledku může poskytnout větší zabezpečení pro zařízení připojená k internetu. Kromě toho vykazuje zvýšenou odolnost vůči malým chybám a činí nové zařízení vhodným pro letecké aplikace.
Jak jsou optimalizovány FPGA
Zkoumáním těchto FPGA nedávno vydaných Xilinx, Intel a Lattice Semiconductors můžeme vidět jasnější pohled na to, jak se FPGA vyvinuly s vyššími koncentracemi šířky pásma paměti, optimalizací AI, nízkou spotřebou energie a malými faktory. tak.
Pracujete přímo s FPGA? Jak jste viděli, jak se tato technologie v průběhu let vyvíjela? Sdílejte své myšlenky v komentářích níže.