2024.03.25

NVIDIA GPU選定のポイント:「SXMとPCIeの違いとは?」メリットやデメリットについて徹底比較
【トゥモロー・ネット テックブログ】

近年、GPUの性能が向上しており、さまざまな種類のGPUが開発されています。

エンタープライズ向けのサーバーで利用されるGPU専用の接続方法である「SXM」と「PCIe」。その違いについて、明確に把握するためには、それぞれのメリットやデメリット、性能を理解する必要があります。この両者にはどのような違いがあるのでしょうか。

この記事では、SXMとPCIeの明確な違いや、メリット・デメリットについて詳しく紹介しています。

SXMとPCIeの違い

まずは、SXMとPCIeの違いについて解説します。

SXMとPCIeの主な違いは、データセンターやAI業界で使用されるNVIDIA GPUの接続方法です。

SXM GPUは、NVLinkおよびNVSwitch相互接続テクノロジーを使用し、完全に相互接続されたGPUを備えたスケールアップ展開に適しています。各GPUはNVLinkスイッチチップに接続され、すべてのGPUが1つの大きなGPUとして動作することが可能です。

GPU間のデータの交換は、PCIeバスの制限によって速度が低下することなく行われます。SXMは、大規模なデータセンターやAI研究施設での使用に最適化されています。

一方、PCIe接続の場合、GPU間のデータ交換はPCIeレーンを介して行われます。GPU間のデータ転送には、PCIeの制限が影響し、速度が低下する可能性があります。PCIe接続には制約があり、データ転送速度の低下やCPUリソースの利用が必要になるため、大規模な計算やAIモデルのトレーニングにおいては効率が低下する場合があります。

「H100 PCIe」では、NVLinkブリッジを介してGPUのペアのみが接続され、他のGPUとは直接接続されません。そのため、PCIe接続の場合はデータ転送速度の低下やCPUリソースの利用が必要になります。

つまり、SXMはGPU間のデータ交換にPCIeレーンをバイパスし、高速なデータ転送を実現します。PCIe接続では、PCIeレーンを介してデータ転送が行われるため、速度が低下する可能性がある点がSXMとPCIeとの違いです。

SXMとは

SXM(Scalable Link Interface Cross-Connect Module)は、NVIDIAのサーバーボードに組み込まれた高速広帯域なGPU相互間通信を可能にする、基板形状のフォームファクターです。この形式は、NVIDIAの専用ハードウェアであるDGXや、SupermicroをはじめとしたOEMベンダー向けに提供されるHGXなどのサーバーボードとセットで製造・販売されています。この後にご紹介しするPCIeのようにGPU単体で販売されていないことが特徴です。

SXMは、最大600GB/sの転送速度を実現する「NVIDIA NVLink®」や「NVIDIA NVSwitch™」といった技術を利用しており、高い性能と効率性を提供しています。

NVIDIA NVLinkは、高速でスケーラブルな相互接続ニーズに応えるため、マルチGPUシステムでの拡張性を向上させる第4世代のテクノロジーです。NVLinkを使用することで、GPU間の直接相互接続が可能となり、システムスループットが最大化されます。

NVIDIA NVSwitchは第3世代のテクノロジーで、NVLinkの高度な通信機能を活用しています。NVSwitchは64個のNVLinkポートを持ち、GPU間の完全な相互接続を実現し、計算負荷の高いワークロードに対して帯域幅を拡張して待ち時間を短縮します。

SXMのメリット

SXMアーキテクチャは、GPU間の高い帯域幅を実現するためにNVLinkを使用し、単一のGPUとして動作します。データを交換する際にPCIeやCPUを通過する必要がなくなる点がメリットです。

SXMの利用により、データの効率的な処理と高速な相互接続が実現され、NVIDIA DGX H100では、合計双方向帯域幅が7.2TB/秒を超える性能が提供されます。

また、SXMは大規模なデータセンターやAI研究施設など、高度なコンピューティング環境での利用に最適です。そのため、複数のGPUが密接に連携して高度な処理を行う場合において、SXMは効果を発揮します。

GPU間のデータ転送における速度低下を最小限に抑え、計算リソースを最大限に活用できるため、大規模なAIモデルのトレーニングや複雑な科学計算など、高度なタスクに対応することが可能です。

SXMのデメリット

SXMアーキテクチャを採用する場合、NVIDIAのDGXまたはHGXシステムに対応する必要があり、他の汎用的なPCIeフォームファクターと互換性がない点はデメリットでしょう。

また、NVLinkを使用するためには、特別なハードウェアインフラストラクチャが必要であり、導入やメンテナンスのコストが高くなる可能性があります。SXM形式のGPUは、PCIe形式のGPUに比べて利用可能なオプションが限られる場合があり、柔軟性や拡張性が制限される点もデメリットの1つです。

さらに、SXM形式のGPUを導入する際には、専用のシステムやソフトウェアに適合させる必要があるため、既存のインフラストラクチャに統合する際に一定の手間がかかる可能性があります。

PCIeとは

PCIe(Peripheral Component Interconnect-Express)とは、パソコンやサーバーなどのデバイスで使用される、高速データ通信が可能なシリアル転送方式の拡張インターフェース規格です。

従来のPCIバスの限界に挑戦し、より高速で効率的なデータ転送を実現することを目指して開発されました。PCIeは、2002年に「PCI-Express 1.0」として登場し、性能向上を繰り返して現在は6.0版となっています。

マザーボードのスロットにデバイスを直接差し込む方法で接続され、グラフィックボードなどの高速データ通信を必要とする周辺機器によく用いられます。最近では、SATA接続に代わって、M.2 SSDなどのSSD製品にも採用されるようになりました。

PCIeのメリット

PCIeのメリットは、従来の拡張スロットよりも高速なデータ転送が可能であることです。PCIeはポイントツーポイント接続方式を採用しており、複数のレーンを束ねることでさらに高速なデータ転送が行えます。

パフォーマンス向上を目的に定期的な規格の改定が行われており、新しい世代ではより高速な転送が実現されています。

また、PCIeは高い信頼性と互換性を提供します。拡張スロットを介して多様なデバイスを接続できるため、選択できるGPUの種類も多く、システムの拡張性が向上し、ユーザーは必要に応じてシステムをカスタマイズできる点はメリットでしょう。

PCIeのデメリット

PCIeは、高性能化に伴い、発熱量が増加する傾向にある点がデメリットです。

高速なデータ転送を行う際には、デバイスが発する熱量も増加し、冷却が必要となるでしょう。また、一部のマザーボードには、PCIe接続の拡張スロットが限られている場合があり、必要なデバイスを接続できない可能性があります。

PCIe接続には物理的な制約があります。デバイス間の距離が短いため、大規模なシステム構築には追加の配線やケーブル管理が必要です。

また、一部の古いデバイスや周辺機器は、PCIeに対応していない場合があり、互換性の問題が発生する可能性がある点はデメリットです。

まとめ

SXMは、高速広帯域なGPU相互間通信を可能にする基板形状のフォームファクターです。NVLinkを利用して、GPU間の高い帯域幅を実現し、GPUが単一のGPUとして動作します。

SXMはデータの効率的な処理と高速な相互接続が可能であり、NVIDIA DGX H100では合計双方向帯域幅が7.2TB/秒を超える性能が提供されます。

SXMはデータセンターやAI業界での利用に最適化され、大規模なAIモデルのトレーニングや複雑な科学計算などの高度なコンピューティング環境で活用できるでしょう。

SXMを採用する際には専用のハードウェアが必要であり、PCIe接続とは互換性がない点が課題です。

トゥモロー・ネットでご支援できること

トゥモロー・ネットは、PCIeから、SXMまで豊富なラインアップを取りそろえるSupermicro GPUサーバーを取り扱っております。SXMはパフォーマンスが良いけど、サーバー選びが大変・・・とお悩みの方もトゥモロー・ネットにご相談いただければご用途に応じた最適なGPUサーバーをご提案いたします。是非、お気軽にお問合せください。

お問合せ先

お問い合わせはこちら

関連ページ

NVIDIA GPUについてはこちら

トゥモロー・ネットはSupermicro の正規一次代理店です

この記事の筆者

株式会社トゥモロー・ネット

クラウドソリューション本部

製品のお問い合わせはこちらから

トゥモロー・ネットは「ITをもとに楽しい未来へつなごう」という経営理念のもと、感動や喜びのある、より良い社会へと導く企業を目指し、最先端のテクノロジーとサステナブルなインフラを提供しています。設立以来培ってきたハードウェア・ソフトウェア製造・販売、運用、保守などインフラに関わる豊富な実績と近年注力するAIサービスのコンサルティング、開発、運用、サポートにより、国内システムインテグレーション市場においてユニークなポジションを確立しています。
インフラからAIサービスまで包括的に提供することで、システム全体の柔軟性、ユーザビリティ、コストの最適化、パフォーマンス向上など、お客様の細かなニーズに沿った提案を行っています。

ページトップへ戻るボタン