GPUスケーリングとは?AIの生産性向上に役立つNVIDIA MIGとの関係【トゥモロー・ネット テックブログ】
AIアプリケーションや生成AIの普及が進む今日において、その中核となるディープニューラルネットワーク(DNN)のトレーニングと推論には、極めて高い水準のAIワークロードを必要とします。そのため、今日のAIデータセンターにはGPUが備える大規模な並列処理能力と、高いメモリ帯域幅が必要不可欠です。
NVIDIA A100 GPUが備えるマルチインスタンスGPU(MIG)と第3世代 Tensorコアは、GPUのスケーリング性能を数十倍に引き上げることができるため、GPUの効率的な使用が可能になります。
この記事では、GPUスケーリングについて、さらには、NVIDIA MIGがGPU性能を飛躍的に伸ばす仕組みについて解説します。
目次
GPU を利用したスケーリング
ディープニューラルネットワーク(DNN)は、ディープラーニングを活用したAIアプリケーションや生成AIの中核です。DNNが必要とする膨大な並列計算処理と大量のデータ処理能力を、高度なスケーリング性能を備えた高密度GPUベースのサーバーが提供します。
数千のレイヤー、数十万のニューロン、数百万の接続を扱う大規模なDNNのトレーニングには、膨大な反復計算と、ギガバイト・テラバイト級のデータ処理を必要とします。この高度なAIワークロードの要求に、汎用処理を意図した従来型のCPUベースのサーバーでは応えることができません。
GPUベースのサーバーは、大規模な並列処理能力を備え、高いメモリ帯域幅に最適化されたGPUを高密度に実装したラックに搭載しています。このGPUベースサーバーによって、深いインサイトをすばやく獲得可能なDNNのトレーニングと推論が実現できるのです。
高速なGPUスケーリングを可能とするマルチインスタンスGPUとは
NVIDIA MIG GPU(マルチインスタンスGPU,以下MIG)とは、1つの物理CPUを複数の独立したインスタンスに分割する技術です。各インスタンスは、それぞれ高帯域幅のメモリ、キャッシュ、コンピューティングコアを持ち、完全に独立して動作します。
これにより複数のインスタンスが、単一の物理CPU上で並列に動作できるようになります。AIワークロードをインスタンスに最適に割り当てることによって、GPUの利用効率の大幅な向上が可能となります。
この章では、マルチインスタンスGPUの特徴について、以下でさらに詳しく解説します。
MIGの仕組み
MIGを使用しない場合、単一の物理GPU上で複数のAIワークロードを実行します。しかしAIワークロードによって必要とする計算量やメモリ量、メモリ帯域幅が異なるため、リソースの取り合いが起きることがあり、処理速度の低下を招いてしまいます。
たとえば、メモリ帯域幅を大量に消費するAIワークロードがあると、他のAIワークロードに十分な帯域幅が割り当てられず、処理速度の低下が起きます。
しかしMIGを利用すれば、1つの物理GPUを複数の独立したインスタンスに分割できるため、処理速度の低下を回避できます。各インスタンスは、専用のメモリ、メモリ帯域幅、キャッシュ、コンピューティングコアを持ち、まるで独立したGPUのように動作します。
インスタンスをプロビジョニングして構成
「インスタンスをプロビジョニング」するとは、MIGによって1つの物理GPUを小さな独立した複数のインスタンスに分割し、それらのインスタンスを使用することを目的として構成することを意味します。
MIGインスタンスは、構成を動的に変更させることもでき、AIワークロードの要求変更に合わせてGPUリソースを変更できます。
たとえば、昼はスループットの低い推論を実行するために7つの MIGインスタンスを使用し、夜はディープラーニング・トレーニングのために、1つの大きなMIGインスタンスに再構成することなどが可能です。
ワークロードを並列に安全に実行可能
MIGにより、1台のGPUを複数のインスタンスに分離したのち、それぞれのインスタンス上で複数のAIワークロードを並列に安全に実行させることができます。
それぞれのインスタンスは、専用のコンピューティングコア、メモリ、メモリ帯域幅、キャッシュを持ちます。インスタンスが物理的に分離されていることにより、異なるAIワークロードは並列実行が可能になり、リソースの競合や互いに干渉することがありません。
これは、セキュリティ面でも完全に分離されていることも意味しています。あるインスタンス上のワークロードは、別のインスタンス内のデータや計算処理へのアクセスや改ざんが物理的にできません。
さらに障害の分離も行われます。仮に1つのインスタンスがクラッシュしても、同じGPU上の他のインスタンスに影響を与えることはありません。
MIGによって、1台のGPU上で複数のAIワークロードの並列で安全な実行が可能になるのです。
マルチインスタンスGPU(MIG)のメリット
MIGは、データセンター全体のGPU利用効率向上と電力削減に貢献します。ここでは、MIGのメリットについて解説します。
GPUアクセスの拡大
MIGはインスタンス上で複数のAIワークロードを並列実行させることによって、GPUリソースへのアクセスを大幅に向上させます。その理由を以下で解説します。
インスタンスを最大7つに分割できる
1つのGPUを最大7つの独立したインスタンスに分割できます。そのため、MIGを使わない場合と比較して最大7倍効率化できることを意味します。
きめ細かなGPUリソースの割り当てが可能
コンピューティングリソースを、ワークロードの要求にもとづき各インスタンスに細かく割り当てられます。
小規模AIワークロードの効率的なサポート
小規模なワークロードは、1つのGPU全体のリソースを完全に使い切らないため、GPUの利用効率が低下してしまいます。インスタンスのプロビジョニングによってワークロードを最適に割り当てることで、GPUリソースへのアクセスを向上できます。
GPU利用率の最適化
MIGによって、GPUをさまざまなインスタンスにプロビジョニングして構成することで、AIワークロードの割り当てを最適化できます。これにより、AIワークロードを効率的に実行でき、GPU利用率の最適化を図れます。
リソースを一部しか必要としないAIワークロードに、GPU全体を割り当てることは利用効率の低下を招きます。AIワークロードによって、コンピューティングコア、メモリ量、帯域幅のニーズは異なります。
MIGでは特定のワークロードに対して、さまざまなリソースの割り当てを行うことで、適切なサイズのインスタンスを割り当てられます。
ワークロードの同時実行が可能
MIGによって、1台の物理GPUで複数のAIワークロードを並列に実行でき、ワークロードの効率的かつ安全な並列実行を実現します。具体的には以下のことを可能にします。
ハードウェアレベルでの物理的なワークロードの分離
インスタンスはそれぞれ専用のコンピューティングコア、メモリ、キャッシュ、メモリ帯域幅を持ち分離されています。
GPUの効率的な利用
インスタンスに割り当てられたワークロードは並列に実行できます。1台の物理GPU上で複数のAIワークロードを実行する場合と比較して、GPU利用効率が向上します。
GPU利用効率低下の回避
特定のAIワークロードのリソース消費が、他のAIワークロードには影響を及ぼしません。これによって他のAIワークロードが遅延することがありません。
マルチインスタンスGPU(MIG)の代表例
マルチインスタンスGPU(MIG)の代表例として、NVIDIA A100を例に挙げます。
こちらのMIGは、1つのGPUを7つの独立したインスタンスに分割できます。MIG は各インスタンスを完全に分離するため、インスタンス上で動作するAIワークロードはハードウェアレベルで完全に保護されます。
専用のメモリ、メモリ帯域幅、キャッシュ、コンピューティング コアが割り当てられることにより、開発者は大小を問わずあらゆるAIワークロードの画期的な高速化とサービス品質(QoS)を保証できます。
さらにNVIDIA A100に搭載した第3世代 NVIDIA Tensorコアは、AIワークロードの劇的な高速化をもたらし、トレーニング時間を数週間から数時間に短縮し、推論を大幅に高速化します。
Tensorコアとは、DNNの中核となる行列演算を高速化するために設計された、行列乗算累積に特化した演算ユニットです。
第3世代Tensorコアは、Tensor Float 32 (TF32) と 64 ビット浮動小数点 (FP64) をサポートします。これによってコードの変更なしで、AIワークロード処理を最大20倍スピードアップできます。
参考:A100 GPUの TensorFloat-32 が AI の学習とHPC を最大 20 倍高速化|NVIDIA
まとめ
今日のAIデータセンターには、GPUが備える大規模な並列処理能力と高いメモリ帯域幅が必要不可欠です。しかしAIアプリケーションや生成AIの普及が急速に進む中で、AIワークロード需要の拡大は留まることを知りません。
そのため、昨今のデータセンターにおいてはMIGの活用が進んでいます。MIGを活用することで、GPUアクセスの拡大とGPU利用効率の最適化を同時に実現し、AI の開発と展開を加速させることができます。
トゥモロー・ネットでご支援できること
トゥモロー・ネットでは、AI開発・データセンター向けのソリューションのご提供から、社内のITインフラの構築までを幅広くサポートしています。NVIDIAのパートナーとして各種GPU製品を取り扱っています。
目的や状況を確認した上で新規購入や製品入れ替えのご提案から、構築、サポートまでを実施いたします。是非、お気軽にお問い合わせください。
どのサーバー、スペックを選んだら良いか分からないという方にも、用途にあわせてご提案から、構築、サポートまでを実施しています。是非、お気軽にお問い合わせください。
お問い合わせはこちら
関連ページ
GPUをより効率的に使用するためのGPU処理高速化ソリューションはこちら
クラウドコンピューティングとは?仕組みやメリット・デメリットを解説
この記事の筆者
株式会社トゥモロー・ネット
クラウドソリューション本部
トゥモロー・ネットは「ITをもとに楽しい未来へつなごう」という経営理念のもと、感動や喜びのある、より良い社会へと導く企業を目指し、最先端のテクノロジーとサステナブルなインフラを提供しています。設立以来培ってきたハードウェア・ソフトウェア製造・販売、運用、保守などインフラに関わる豊富な実績と近年注力するAIサービスのコンサルティング、開発、運用、サポートにより、国内システムインテグレーション市場においてユニークなポジションを確立しています。
インフラからAIサービスまで包括的に提供することで、システム全体の柔軟性、ユーザビリティ、コストの最適化、パフォーマンス向上など、お客様の細かなニーズに沿った提案を行っています。
カテゴリー
タグ
- #ストレージ(ソフト)
- #VMware
- #Veeam Backup & Replication
- #AIインフラ
- #AMD EPYC
- #スケールアウトNAS
- #NVIDIA H200
- #Ethernet
- #水冷サーバー
- #AI
- #エンタープライズ
- #NVIDIA
- #NVMe
- #画像生成AI
- #コア
- #スケールアップ
- #NVIDIA A800
- #Network
- #NVIDIA RTX 6000 Ada
- #CPU
- #GPU
- #グリーンコンピューティング
- #SSD
- #NVIDIA H100
- #スレッド
- #スケールアウト
- #NVIDIA L40
- #InfiniBand
- #NVIDIA RTX A6000
- #Supermicro
- #GPUサーバー
- #グリーンIT
- #SAS SSD
- #ソフトウェア・デファインド・ストレージ
- #クロック周波数
- #Qumulo
- #SXM
- #NVIDIA MIG
- #Intel
- #マイグレーション
- #空冷
- #SATA SSD
- #Seagate
- #ECCメモリ
- #RedHat
- #PCle
- #DNN
- #AMD
- #レガシーアプリ
- #水冷
- #NVMe SSD
- #OSNEXUS
- #PCIレーン数
- #人工知能
- #SDS
- #NVIDIA Hopper アーキテクチャ
- #サーバー
- #Windowsアップデート
- #Numecent
- #バックアップ
- #シーゲイト
- #L2 Cache
- #ChatGPT
- #L4
- #NVLink
- #朝日新聞
- #AVD
- #Azure Virtual Desktop
- #エンタープライズバックアップソリューション
- #EXOS AP
- #ストレージグリッド
- #コンテナ化
- #NVIDIA L4
- #NVSwitch
- #ICXセンター
- #クラウドVDI
- #DX
- #Veritas NetBackup/BackupExec
- #EXOS CORVAULT
- #セキュリティ
- #OS
- #冷却機能
- #GPUアーキテクチャ
- #Windows10サポート終了
- #Windows10リプレース
- #アプリケーション
- #Acronis Backup
- #QuantaStor
- #SaaS
- #Docker
- #アプリケーション仮想化
- #vGPU
- #Windows Update
- #マイクロソフト
- #ランサムウェア
- #IBM Spectrum Protect
- #VMware
- #PaaS
- #Kubernetes
- #アプリ仮想化
- #データセンター
- #Cloudpaging
- #Intel筐体
- #サイバー攻撃
- #ArcServe
- #vSAN
- #仮想化
- #ITインフラ
- #Citrix
- #オンプレミス
- #ソフトウエア・ディファインド・ストレージ
- #AMD筐体
- #情報セキュリティ
- #NAS
- #HCI
- #IaaS
- #NVIDIA A100
- #ThinApp
- #エッジコンピューティング
- #ストレージ
- #VMware Explore
- #マルウェア
- #Network Attached Storage
- #Hyperconverged Infrastructure
- #パブリッククラウド
- #レガシーアプリケーション
- #App-V
- #ニューラルネットワーク
- #ソフトウェア
- #NVIDIA AI Enterprise
- #ExaGrid
- #AI Enterprise
- #仮想化ストレージソリューション
- #ハイブリッドクラウド
- #NVIDIA L40S
- #Microsoft Application Virtualization
- #ディープラーニング
- #ストレージ(ハード)
- #VMware Tanzu
- #Veeam
- #NVAIE
- #Intel Xeon
- #マルチクラウド
- #NVIDIA A40
- #NIC
- #LLM
アーカイブ
- 2024年10月 (3)
- 2024年9月 (10)
- 2024年8月 (10)
- 2024年7月 (10)
- 2024年6月 (11)
- 2024年5月 (10)
- 2024年4月 (10)
- 2024年3月 (8)
- 2024年2月 (9)
- 2024年1月 (8)
- 2023年12月 (11)
- 2023年11月 (8)
- 2023年10月 (14)
- 2023年9月 (9)
- 2023年8月 (8)
- 2023年7月 (11)
- 2023年6月 (3)
- 2023年5月 (1)
- 2023年4月 (6)
- 2023年3月 (1)
- 2023年2月 (6)
- 2023年1月 (1)
- 2022年12月 (4)
- 2022年11月 (4)
- 2022年10月 (4)
- 2022年9月 (3)
- 2022年8月 (4)
- 2022年6月 (5)
- 2022年5月 (3)
- 2022年4月 (1)
- 2022年3月 (4)
- 2022年1月 (1)
- 2021年11月 (3)
- 2021年10月 (2)
- 2021年7月 (2)
- 2021年6月 (1)