• NVIDIA GPU

NVIDIA GPU選定のポイント:「SXMとPCIeの違いとは?」メリットやデメリットについて徹底比較
【トゥモロー・ネット テックブログ】

近年、GPUの性能が向上しており、さまざまな種類のGPUが開発されています。

エンタープライズ向けのサーバーで利用されるGPU専用の接続方法である「SXM」と「PCIe」。その違いについて、明確に把握するためには、それぞれのメリットやデメリット、性能を理解する必要があります。この両者にはどのような違いがあるのでしょうか。

この記事では、SXMとPCIeの明確な違いや、メリット・デメリットについて詳しく紹介しています。

SXMとPCIeの違い

まずは、SXMとPCIeの違いについて解説します。

SXMとPCIeの主な違いは、データセンターやAI業界で使用されるNVIDIA GPUの接続方法です。

SXM GPUは、NVLinkおよびNVSwitch相互接続テクノロジーを使用し、完全に相互接続されたGPUを備えたスケールアップ展開に適しています。各GPUはNVLinkスイッチチップに接続され、すべてのGPUが1つの大きなGPUとして動作することが可能です。

GPU間のデータの交換は、PCIeバスの制限によって速度が低下することなく行われます。SXMは、大規模なデータセンターやAI研究施設での使用に最適化されています。

一方、PCIe接続の場合、GPU間のデータ交換はPCIeレーンを介して行われます。GPU間のデータ転送には、PCIeの制限が影響し、速度が低下する可能性があります。PCIe接続には制約があり、データ転送速度の低下やCPUリソースの利用が必要になるため、大規模な計算やAIモデルのトレーニングにおいては効率が低下する場合があります。

「H100 PCIe」では、NVLinkブリッジを介してGPUのペアのみが接続され、他のGPUとは直接接続されません。そのため、PCIe接続の場合はデータ転送速度の低下やCPUリソースの利用が必要になります。

つまり、SXMはGPU間のデータ交換にPCIeレーンをバイパスし、高速なデータ転送を実現します。PCIe接続では、PCIeレーンを介してデータ転送が行われるため、速度が低下する可能性がある点がSXMとPCIeとの違いです。

SXMとは

SXM(Scalable Link Interface Cross-Connect Module)は、NVIDIA社が開発した、主に同社のサーバーボード向けに設計されたGPUのフォームファクタです。最大の特徴は、複数のGPU間を極めて高速・広帯域で直接接続する技術「NVIDIA® NVLink™」を最大限に活用できる点にあります。

SXMフォームファクタのGPUは、CPUソケットのように専用の基板(ベースボード)に直接搭載されます。これにより、PCIeスロットを介するよりも遥かに高密度なGPU実装と、GPU間のスムーズなデータ通信が可能になります。

最新のNVIDIA H200 Tensor Core GPUをはじめとする、NVIDIAのフラッグシップモデルで採用されており、大規模なAIモデルの学習やハイパフォーマンスコンピューティング(HPC)など、最高の性能が求められる用途でその真価を発揮します。

例)SupermicroGPUサーバー|GPU A+ Server AS -8125GS-TNHR

NVIDIA H200の製品詳細はこちら

SXMのメリット

SXMアーキテクチャは、GPU間の高い帯域幅を実現するためにNVLinkを使用し、単一のGPUとして動作します。データを交換する際にPCIeやCPUを通過する必要がなくなる点がメリットです。

SXMの利用により、データの効率的な処理と高速な相互接続が実現され、NVIDIA DGX H100では、合計双方向帯域幅が7.2TB/秒を超える性能が提供されます。

また、SXMは大規模なデータセンターやAI研究施設など、高度なコンピューティング環境での利用に最適です。そのため、複数のGPUが密接に連携して高度な処理を行う場合において、SXMは効果を発揮します。

GPU間のデータ転送における速度低下を最小限に抑え、計算リソースを最大限に活用できるため、大規模なAIモデルのトレーニングや複雑な科学計算など、高度なタスクに対応することが可能です。

SXMのデメリット

SXMアーキテクチャを採用する場合、NVIDIAのDGXまたはHGXシステムに対応する必要があり、他の汎用的なPCIeフォームファクターと互換性がない点はデメリットでしょう。

また、NVLinkを使用するためには、特別なハードウェアインフラストラクチャが必要であり、導入やメンテナンスのコストが高くなる可能性があります。SXM形式のGPUは、PCIe形式のGPUに比べて利用可能なオプションが限られる場合があり、柔軟性や拡張性が制限される点もデメリットの1つです。

さらに、SXM形式のGPUを導入する際には、専用のシステムやソフトウェアに適合させる必要があるため、既存のインフラストラクチャに統合する際に一定の手間がかかる可能性があります。

PCIeとは

PCIe(Peripheral Component Interconnect-Express)は、PCやサーバーで広く利用されている標準的な高速インターフェース規格です。GPUだけでなく、ネットワークカードやストレージなど、さまざまな拡張カードを接続するために使われており、私たちにとって最も馴染み深いフォームファクタと言えるでしょう。

PCIeフォームファクタのGPUは、一般的なマザーボードのPCIeスロットに挿して使用します。その汎用性の高さから、NVIDIA L40S GPUや、広く普及したNVIDIA A100 Tensor Core GPUのPCIe版など、非常に多くのGPU製品で採用されています。

サーバーの仕様に応じて搭載できる枚数に限りはありますが、その汎用性と導入のしやすさから、小規模なAI開発から推論、グラフィックス処理まで、幅広い用途で活用されています。

例)Supermicro GPUサーバー|GPU A+ Server AS -5126GS-TNRT

NVIDIA L40Sの製品詳細はこちら

PCIeのメリット

PCIeのメリットは、従来の拡張スロットよりも高速なデータ転送が可能であることです。PCIeはポイントツーポイント接続方式を採用しており、複数のレーンを束ねることでさらに高速なデータ転送が行えます。

パフォーマンス向上を目的に定期的な規格の改定が行われており、新しい世代ではより高速な転送が実現されています。

また、PCIeは高い信頼性と互換性を提供します。拡張スロットを介して多様なデバイスを接続できるため、選択できるGPUの種類も多く、システムの拡張性が向上し、ユーザーは必要に応じてシステムをカスタマイズできる点はメリットでしょう。

PCIeのデメリット

PCIeは、高性能化に伴い、発熱量が増加する傾向にある点がデメリットです。

高速なデータ転送を行う際には、デバイスが発する熱量も増加し、冷却が必要となるでしょう。また、一部のマザーボードには、PCIe接続の拡張スロットが限られている場合があり、必要なデバイスを接続できない可能性があります。

PCIe接続には物理的な制約があります。デバイス間の距離が短いため、大規模なシステム構築には追加の配線やケーブル管理が必要です。

また、一部の古いデバイスや周辺機器は、PCIeに対応していない場合があり、互換性の問題が発生する可能性がある点はデメリットです。

SXMの性能を支える「NVLink」とは?

SXMフォームファクタの圧倒的な性能を理解する上で欠かせないのが、「NVIDIA NVLink」という技術です。

NVLinkは、CPUを介さずにGPU同士を直接、超高速で接続するためのインターコネクト(相互接続)技術です。従来のPCIeバスを経由する場合と比較して、何倍もの帯域幅を実現します。

これにより、複数のGPUがまるで一つの巨大なGPUであるかのように連携し、膨大なAIモデルやデータセットをGPUメモリ上に展開して、効率的に処理することが可能になります。SXMはこのNVLinkによる高密度接続を前提に設計されているため、最高のAIパフォーマンスを発揮できるのです。

ちなみに、PCIeフォームファクタのGPUでも、2枚のカードを「NVLinkブリッジ」で接続することで、GPU間の直接通信が可能になる場合があります。しかし、SXMのように4基や8基といった大規模なGPUクラスタを構築することはできません。

NVLinkについては以下の記事もご参考ください。
NVIDIA® NVLink™ テクノロジーとは?NVSwitchとの違いも解説

まとめ

SXMとPCIe、それぞれの特徴をまとめると以下のようになります。

特徴SXMPCIe
主な用途大規模AI学習、HPCAI推論、ファインチューニング、グラフィックス、汎用的なコンピューティング
性能◎ (特にGPU間通信)
拡張性△ (専用設計)◎ (標準規格)
コスト△ (高価)◯ (比較的安価)
代表的な製品NVIDIA H200 GPUNVIDIA L40S GPU, A100 PCIe GPU

結論として、選択のポイントは「何を最優先するか」です。

  • 最高のAI学習性能を求めるなら「SXM」
    数兆パラメータ級のLLM開発など、最先端の研究開発で1秒でも早く結果を出したい場合は、NVLinkの性能を最大限に引き出せるSXMが最適な選択肢となります。
  • 汎用性とコストパフォーマンスを重視するなら「PCIe」
    AI推論サービスの提供、中規模のAIモデル開発、CADやレンダリングといったグラフィックス用途など、多様なワークロードに柔軟に対応しつつ、導入コストを抑えたい場合にはPCIeが適しています。

株式会社トゥモロー・ネットでは、Supermicro社のGPUサーバーを中心に、お客様の用途やご予算に応じて、SXMとPCIeの両方の選択肢から最適なソリューションをご提案いたします。
GPUサーバーの選定でお悩みの際は、ぜひお気軽にご相談ください。

お問合せ先

お問い合わせはこちら

関連ページ

NVIDIA GPUについてはこちら
NVIDIA データセンター GPU一覧はこちら
NVIDIA B200とは?概要からスペックまで徹底解説

この記事を書いた人

株式会社トゥモロー・ネット クラウドソリューション本部

トゥモロー・ネットは「ITをもとに楽しい未来へつなごう」という経営理念のもと、感動や喜びのある、より良い社会へと導く企業を目指し、最先端のテクノロジーとサステナブルなインフラを提供しています。設立以来培ってきたハードウェア・ソフトウェア製造・販売、運用、保守などインフラに関わる豊富な実績と近年注力するAIサービスのコンサルティング、開発、運用、サポートにより、国内システムインテグレーション市場においてユニークなポジションを確立しています。
インフラからAIサービスまで包括的に提供することで、システム全体の柔軟性、ユーザビリティ、コストの最適化、パフォーマンス向上など、お客様の細かなニーズに沿った提案を行っています。

製品に関するお問い合わせはこちら