自動運転シミュレータとして注目を浴びる「3DGS(3D Gaussian Splatting)」とは?

自動運転AI開発において、従来の模倣学習から、AI自らが試行錯誤する強化学習へとシフトする中、高精度なシミュレータの確保が最大の課題となっています。本記事では、その解決策として注目される3DGS（3D Gaussian Splatting）技術を解説。実写映像から3D空間を「小さな雲」の集合体として高速かつ高精度に再構成する3DGSが、自動運転用シミュレータにもたらすメリットや、CARLAなど従来のCGベースシミュレータとの違い、そして最新の研究事例までを紹介します。

1. はじめに

自動運転AIの開発において、これまで主流だったのは「人間の運転を真似る」模倣学習（Imitation Learning）でした。
しかし、複雑な交通状況や予期せぬトラブルに対応するためには、AI自らが試行錯誤して最適な判断を学ぶ強化学習（Reinforcement Learning）の重要性が高まっています。
強化学習を進める上で、最大の壁となるのが「高精度なシミュレータ」の確保です。
そこで今、シミュレータとして活用される技術で注目を浴びているのが3DGS（3D Gaussian Splatting）です。

2. 3DGSとは？：空間を「小さな雲」で表現する

3DGS（3D Gaussian Splatting）は、複数視点のカメラ画像から3次元空間を再構成する技術です。
簡単に例えると、3次元空間を「ガウス分布（3D Gaussian）」という、中心から外側に向かって色が薄くなる小さな雲のようなものの集合体として表現します。
それぞれの「雲」は、位置、形、色、透明度などのデータを持っています。

中心座標 : 雲の位置
共分散行列 : 雲の大きさや向き
不透明度 : 透け具合
色 : 雲の色この3次元空間のガウス分布を特定の方向から、平面画像空間に投影(Splatting)することで、特定方向からの景色が画像として生成できるという仕組みです。

運転シーンを例に取ると、走行動画を学習し、ガウス分布を最適化すると、3次元の空間が再現できます。
その3次元空間内であれば、元の走行軌道での走行カメラ画像以外にも、様々な視点からの走行カメラ画像を生成することができます。
すなわち、3次元空間内を自由に走行させ、その視点に応じた走行カメラ画像を生成することができます。

具体的な研究事例

Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting (Yunzhi Yan et al. 2024)
参考:https://arxiv.org/pdf/2401.01339
OmniRe: Omni Urban Scene Reconstruction (Ziyu Chen et al. 2025)
参考:https://arxiv.org/pdf/2408.16760

3. 自動運転用シミュレータに3DGSを使うメリット

大きくは下記の3つのメリットが考えられます。

高速描画: 従来使用されていたAIモデルNeRFと比較して圧倒的に速く、1秒間に数十フレーム以上の描画が可能
再現性の高さ: 車線変更で斜めを向いた時や、カメラの位置を少しずらした時の映像も、実写ビデオから作られているため極めて正確に再現可能
シナリオ作成・編集: ガウス分布の集まりなので、特定の車だけを消したり、他車両の動きを操作できるといった「シナリオ作成・編集」が可能

4. 3DGSを活用した強化学習（RL）の最前線

従来の強化学習用シミュレータ（例：CARLAなど）は、主に3Dメッシュと呼ばれるCG技術で構築されてきました。
CARLAは非常に優れたツールですが、道路の質感や光の反射などを実写レベルに近づけるには膨大な制作コストがかかり、「ゲームっぽさ（現実との乖離）」が残るという課題がありました。

しかし、3DGSを用いることで、実走行ビデオから即座に高精度なシミュレータを構築できます。
エージェント（自動運転車）がハンドルを切った際、その行動に応じた「新しい視点の映像」をリアルタイムに生成してフィードバックできるため、より実環境に近い環境で強化学習が可能となります。

具体的な研究事例

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning (Hao Gao et al. 2025)
参考:https://arxiv.org/pdf/2502.13144

5. 今後の展望

3DGSを用いることで、手軽に実データ由来のシーンを再現することが可能です。
一方で、3DGSは走行動画を元に学習するため、走行動画に無い領域は再現することができません。
より自動運転AIモデルに汎用的な能力を持たせるためには、未知のシーンなども考慮した学習が必要となります。
そういったケースにおいては、動画生成モデルとしての世界モデルが有効です。
今後、3DGSと世界モデルをケースに応じて使い分ける、あるいは組み合わせるような強化学習方法が出てくるのではないかと考えられます。

＼シェアをお願いします！／