ザイリンクス、Versal HBM を発売
私たちがデータに溺れていることは周知の事実です。 今日のアプリケーションとアルゴリズムは、ほとんど理解できない量のデータを必要とします。これは、帯域幅要件が、ネットワークやメモリ テクノロジが処理できる速度を超える速度で爆発的に増加していることを意味します。 FPGA で構築できる最先端のアクセラレータを使用したとしても、チップ内外でデータを取得したり、処理中に情報を保存する場所を見つけたりするのに苦労することがあります。
メモリ帯域幅は急速に増加していますが、需要はさらに速く増加しています。 ゼタバイト規模の情報を世界中に送り出すことにより、現在のテクノロジーは限界点まで負荷がかかっています。 システムのメモリ帯域幅が不足している場合、パフォーマンスが重要なタスクを FPGA に押し込んでも役に立ちません。
同時に、保護する必要があるデータはますます増えており、データがインターフェイス上で移動されるたびに脆弱になります。
必要なのは、メモリを処理の近くに移動することです。
ザイリンクスは、新しい Versal HBM シリーズの「ACAP」デバイス (FPGA と考えます) により、メモリのローカリゼーションに向けて大きな一歩を踏み出しました。 HBM (または高帯域幅メモリ) は、他の処理要素と同じパッケージ内に収まるように設計されており、スタックド シリコン インターコネクト (SSI) の高度なパッケージング テクノロジを介して通信します。 メモリをパッケージ内に保持することで、はるかに高い帯域幅の接続が可能になり、オフチップ メモリ インターフェイスを回避することで電力消費とインターフェイスの遅延が大幅に削減されます。
これはザイリンクスにとって SSI との最初のロデオとは程遠いものです。 同社は数年前に FPGA を搭載したシリコン インターポーザーのパイオニアであり、この新しいデバイスは第 4 世代 SSI 上に構築されています。 初期の SSI は主に、複数の小型 FPGA チップレットを 1 つのパッケージに詰め込んで大型の FPGA を構築することにより、実効歩留まりを向上させるために使用されていました。 しかし現在、SSI はザイリンクスのシリコンの拡張性と汎用性を高めるためにも使用されています。 たとえば、Versal HBM を構築するには、Versal Premium デバイスの 1 つの「スーパー ロジック リージョン」 (SLR) チップレットを HBM2e スタックに交換するだけで、Versal HBM を構築できます。 (OK、それよりも少し複雑ですが、アイデアは理解できたでしょう。)
外部 DDR5 と比較して、パッケージ内 HBM は 63% 低い電力で 8 倍の帯域幅を提供します。 それは大変なことです。 HBM スタックを FPGA 内に配置すると、処理に必要な電力バジェットを節約しながら、メモリ帯域幅を大幅に確保できます。
ザイリンクスが HBM を自社デバイスに搭載するのはこれが初めてではありません。 前世代の Virtex Ultrascale+ FPGA のバージョンの 1 つは、パッケージ内 HBM を備えていました。 ただし、新しい Versal HBM は、15% 低い消費電力で 1.8 倍のメモリ帯域幅 (460 Gbps から 820 Gbps) と 2 倍の HBM メモリ容量 (32 GB 対 16 GB) を備え、すべての軸でその HBM を上回っています。
ただし、Versal HBM にはメモリ帯域幅が増えるだけではありません。 また、デバイスとの間でデータをやり取りするための SerDes パイプのサイズも大幅に増加し、総帯域幅が驚異的な 5.6Tb/s に倍増しました。 SerDes は、アプリケーションの柔軟性を最大限に高めるための拡張性があり、電力が最適化された 100G インターフェイスには 32Gbps NRZ、現在の 400G ランプおよび展開には 58Gbps PAM4、そしてレーンあたり 100G 光ファイバーでの将来の 800 ギガ ネットワーク開発には超スポーティな 112Gbps PAM4 を備えています。
マルチレート: FEC 付き 400/200/100/50/40/25/10G、およびマルチ標準: FlexE を提供する 2.4Tb/s のスケーラブルなイーサネット帯域幅を含む、多くの標準インターフェイスが事前に構築され、強化されています。 Flex-O、eCPRI、FCoE、OTN。 バルク Crypto AES-GCM-256/128、MACsec、IPsec によって提供される 1.2Tb/s のライン レート暗号化スループットにより、セキュリティを迅速に実現できます。ザイリンクスによれば、これは「適応性のあるプラットフォーム上で世界で唯一強化された 400G 暗号エンジン」であると主張しています。
PCIe が好みの場合、Versal HBM は、DMA、CCIX、および CXL を備えた PCIe Gen5 経由で 1.5Tb/s の集約 PCIe リンク帯域幅をパックします (そう、今はどちらのチームでもプレーできます)。 PCIe インターフェイスには、プログラマブル ネットワーク オン チップ (NoC) 経由でメモリへの専用接続があります。
したがって、Versal HBM は、チップ上でデータを取得したり、チップからデータを取得したり、そこにある間メモリに保存したりする優れた仕事を実行できることは明らかです。 しかし、実際の仕事をする能力はどうでしょうか?
新しいデバイスには、さまざまなワークロードを実行および高速化するトリプルヘッダーの機能が備わっています。 ザイリンクスでは現在、これらを「エンジン」と呼んでおり、Versal HBM (他の ACAP デバイスと同様) には「Scalar」、「Adaptable」、および「DSP」エンジンが含まれています。より一般的な用語では、「Scalar」エンジンは Arm ベースの処理システムです。デュアルコア Arm Cortex-A72 アプリケーション プロセッサとデュアルコア Arm Cortex-R5F リアルタイム プロセッサで構成されており、「適応型」エンジンは主に FPGA LUT ファブリック (3.8 または 5.6M ロジック セル相当) と考えられるものです。 、「DSP」エンジンは 7.4K または 10.9K の DSP スライスで構成されており、これらを合計すると、ターゲット市場であるネットワーキング、データセンター、テストと測定、航空宇宙と防衛における困難な問題に取り組むための膨大な量のコンピューティング リソースとなります。バーサルHBM用。
ザイリンクスはいくつかのベンチマークを提供しました。 ヘルスケア分野では、リアルタイム レコメンデーション エンジン – コサイン類似度アルゴリズム – 臨床転帰予測で、Versal HBM は前世代の Virtex UltraScale+ の 2 倍の患者データベース サイズと、第 3 世代 Intel の 4 倍のサイズを処理できると主張しています。 x867 Xeon ゴールド/プラチナのスケーラブルなプロセッサ。 速度に関しては、Virtex の 100 倍、x86 の 200 倍の速度を主張しています。
2 番目のベンチマークは、動作/トランザクションの異常を検出するためのリアルタイム不正検出 (Louvain モジュラリティ アルゴリズム) です。 (クレジット カード会社から電話があり、イースター島でフェラーリを購入したばかりですかと尋ねられます。) この例では、同じ 2 倍と 4 倍の容量利点 (頂点の数) と、より控えめな 10 倍と 20 倍の速度を主張しています。 Virtex および x86 よりもそれぞれ優れています。
チップの山がベンチマーク スタイルである場合、ザイリンクスによれば、Versal HBM には Virtex UltraScale デバイス 14 個に相当するものと、HBM に相当する 32 個の DDR5 チップが搭載されています。
Versal HBM には 2 つの基本サイズがあり、8 GB、16 GB、または 32 GB の 3 つの異なる HBM が付属しています。 Versal Premium シリーズ (基本的に Versal HBM と同じですが、HBM がありません) を使用して、今すぐデザインを開始できます。 ドキュメントは現在入手可能で、ツールは 2021 年後半に、デバイスのサンプルは 2022 年後半に開始されます。