記事検索

検索ワードを入力してください。
Sky Tech Blog
MIG(Multi‑Instance GPU)を​用いた​ハードウェアレベルでの​GPU分割

MIG(Multi‑Instance GPU)を​用いた​ハードウェアレベルでの​GPU分割

AIの利用拡大に伴いGPUの効率的な共有が求められる中、NVIDIAのMIG(Multi-Instance GPU)技術が注目されています。MIGは1枚のGPUをハードウェアレベルで複数の独立した「小さなGPU」に分割し、メモリ衝突や性能のばらつきといった課題を解決します。本記事では、MIGの基本概念、リソース分割の仕組み、そして推論APIサーバーや研究開発環境での具体的な活用例を交えながら、そのメリットと注意点を解説します。

AI・生成AIの利用が急速に拡大するなか、限られたGPUを複数ユーザーで効率よく共有するニーズが高まっています。
しかし「大きなGPUを複数ユーザーが共有する」環境では、想定外のメモリ衝突や性能のばらつきが頻発し、運用が難しくなりがちです。
本記事では、こうした課題を解決する NVIDIA の *MIG(Multi‑Instance GPU)*について説明します。

MIGとは​何か?

MIG(Multi‑Instance GPU)は、1枚のGPUを複数の独立した“小さなGPU”として扱えるようにする技術です。
各インスタンスは専用の計算ユニット・メモリ・キャッシュを持ち、互いに干渉しません。
A100/H100/H200 などのデータセンター向けGPUで利用でき、用途に合わせて柔軟に分割できます。
一般的な「1枚のGPU上で複数プロセスを同時実行する」共有方式では、プロセス間でメモリや計算資源の取り合いが起きやすく、性能や安定性が揺らぎがちです。
その点MIGではハードウェアレベルでリソースを分離することで、安定性と予測可能性を確保します。

MIGが​解決する​課題

1つの大きなGPUを共有すると、次のようなトラブルが発生しがちです。

  • あるプロセスがメモリを使い切り、他のジョブが落ちる
  • 推論APIのレイテンシが、別ジョブの負荷で変動する
  • ユーザー間で公平なGPU利用が実現できない

MIGはGPU内部を分割することで、安定性・公平性を同時に保証します。

GPU内部リソースを​ハードウェアで​分割する​仕組み

MIGでは、GPU内部の SM(演算ユニット)・メモリ容量・キャッシュ・帯域といった資源をハードウェアレベルで分割します。
分割の単位はプロファイルとして定義されており、たとえば 1g.5gb / 2g.10gb / 3g.20gb のように表されます。
ここで g は割り当てる計算資源(演算ユニット)の数、gb は割り当てるメモリ量を意味します。
これらのプロファイルを用途やワークロードに応じて、柔軟に組み合わせられる点が特徴です。
その結果、各インスタンスは完全に独立して動作し、他のジョブの影響を受けません。

MIG設定の​実例

実際に、どのようにGPUが分割されるのか例を示します。
以下は 1枚あたり 143,771 MiB の H200 を2枚用い、2g.35gb ×3、1g.35gb ×1 の構成で分割したケースです。
(注:管理オーバーヘッドにより、プロファイル名の「35gb」より実効メモリは小さく、約 33.28 GiB(= 33,280 MiB)程度になります。)

設定時のコマンド例:

# インスタンス作成(GPU 0)
sudo nvidia-smi mig -i 0 -cgi 2g.35gb -C
sudo nvidia-smi mig -i 0 -cgi 2g.35gb -C
sudo nvidia-smi mig -i 0 -cgi 2g.35gb -C
sudo nvidia-smi mig -i 0 -cgi 1g.35gb -C
# インスタンス作成(GPU 1)
sudo nvidia-smi mig -i 1 -cgi 2g.35gb -C
sudo nvidia-smi mig -i 1 -cgi 2g.35gb -C
sudo nvidia-smi mig -i 1 -cgi 2g.35gb -C
sudo nvidia-smi mig -i 1 -cgi 1g.35gb -C

実運用の​イメージ

MIGは特に次のようなシーンで効果を発揮します。

  • 推論APIサーバー:小さなインスタンスを並べ、高密度かつ安定した推論基盤を構築
  • 研究者の個別環境:ユーザーごとに1インスタンスを割り当て、干渉のない安全なGPU利用を実現
  • Kubernetes連携:NVIDIA GPU Operator で Pod単位にMIGリソースを指定でき、スケジューリングが容易

メリットと​注意点

  • メリット
    • 推論など小規模ワークロードの高密度配置
    • ユーザーやジョブ間の干渉がゼロに
    • GPU利用率が向上し、コスト削減に寄与
  • 注意点
    • 大規模学習には向かず、フルGPUが必要なケースもある
    • プロファイル変更時は再構成が必要
    • MIG対応GPUに限定される

まとめ:MIGが​もたら​す新しい​GPUインフラ

MIGはGPUを「複数のユーザーが安全に共有できる資源」へと進化させる技術です。
特に軽量モデルの推論や小規模ジョブの大量実行では、無駄を抑えつつ安定性を確保した効率的な運用を実現します。
AI活用が加速するなか、MIGはGPUシェアリングの新しい標準技術として、今後ますます重要性が高まっていくでしょう。


\シェアをお願いします!/
  • X
  • Facebook
  • LINE
キャリア採用募集中!

入社後にスキルアップを目指す若手の方も、ご自身の経験を幅広いフィールドで生かしたいベテランの方も、お一人おひとりの経験に応じたキャリア採用を行っています。

Sky株式会社のソフトウェア開発や製品、採用に関するお問い合わせについては、下記のリンクをご確認ください。
お問い合わせ
ホーム