NVIDIAがLlama-3.1-Nemotron-70B-InstructをリリースベンチマークでGPT-4oやClaude 3.5 Sonnetを超える

NVIDIAが発表した大規模言語モデル「Llama-3.1-Nemotron-70B-Instruct」についての説明します。このモデルは高精度な性能を持ち、生成AI研究界隈で注目されています。

NVIDIAが大規模言語モデル「Llama-3.1-Nemotron-70B-Instruct」を発表しました。
このモデルは、生成AI研究界隈で注目され、モデルサイズは比較的コンパクトでありながら、高精度な性能を示しているため、多くの関心を集めています。

Llama-3.1-Nemotron-70B-Instructについて

Llama-3.1-Nemotron-70B-Instructは、NVIDIAが Llama-3.1-70B-Instruct（Meta社が今年の7月に発表した大規模言語モデル） をベースにカスタマイズした大規模言語モデルです。
このモデルは、Arena Hard、AlpacaEval、GPT-4-Turbo MT-Benchのベンチマークで2024年10月1日時点で1位にランクインしました。
さらに、GPT-4oやClaude 3.5 Sonnetを超える指標を達成しています。

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct#evaluation-metrics

Llama-3.1-Nemotron-70B-Instructで特に工夫された点

論文によると、HelpSteer2データセット^[1] を使用して Llama-3.1-Nemotron-70B-Reward モデルが作成されました。このモデルは、RLHF（具体的にはREINFORCE）を用いて Llama-3.1-70B-Instruct モデルを調整し、精度が向上した Llama-3.1-Nemotron-70B-Instruct を作成しています。

実際に使ってみた

Llama-3.1-Nemotron-70B-Instructの実際の使い勝手を確認するために、 Llama-3.1-70B-Instruct および、 Llama-3.1-70B-Japanese-Instruct-2407 ^[2] と比較してみました。これらのモデルをサーバー化し、Dify^[3] をインターフェースとして使用しています。

Llama-3.1-70B-Instruct

Llama-3.1-70B-Japanese-Instruct-2407

Llama-3.1-Nemotron-70B-Instruct

それぞれの出力結果を定性評価してみました。

Llama-3.1-70B-Instruct

評価 :
- 簡潔でシンプル
長所 :
- 簡潔でわかりやすい。
- 具体的な活動（ピクニック、散歩）を挙げているため、イメージしやすい。
短所 :
- 詳細が少なく、情景描写や感情表現が不足している。
- 他の文章に比べて短く、物足りなさを感じる。

Llama-3.1-70B-Japanese-Instruct-2407

評価 :
- バランスの取れた描写
長所 :
- 情景描写と感情表現がバランスよく含まれている。
- 子犬との出会いや夕焼けの描写など、具体的なエピソードが含まれており、読者の興味を引く。
- 友人との時間の大切さが伝わる。
短所 :
- 最後の一文「今日はどんな良い出会いがあるでしょうか。楽しみです。」が少し唐突で、前の内容とつながりが薄い。
- Llama-3.1-Nemotron-70B-Instructに比べると、やや詳細に欠ける部分がある。

Llama-3.1-Nemotron-70B-Instruct

評価 :
- 詳細で豊かな描写
長所 :
- 詳細な情景描写と感情表現が豊かで、読者に具体的なイメージを与える。
- 公園での活動からカフェでの時間、夜空の美しさまで、一日の流れが自然に描かれている。
- 友人との時間や自然の中でのリフレッシュ感が伝わる。
短所 :
- 少し長すぎるため、冗長に感じる部分があるかもしれない。
- 一部情報量が多すぎて集中力が途切れる人がいる可能性がある。（続き: で区切ることで配慮されている）

いずれのモデルもピクニックを連想させる点が興味深いですね。
また、Llama-3.1-70B-Japanese-Instruct-2407とLlama-3.1-Nemotron-70B-Instructにはいくつかの共通点があります。

ピクニック: 両方の文章でピクニックを楽しんでいることが記述されている。
自然の中での活動: どちらの文章も緑豊かな自然の中で過ごしていることが共通している。
友人との時間: 両方の文章で友人と一緒に楽しい時間を過ごしていることが強調されている。
リフレッシュ: 自然の中でリフレッシュする時間が心地良いと感じている点が共通している。
心地よい時間: どちらの文章も心地よい時間を過ごしたことが述べられている。

NVIDIAはVLMにも力を入れている

NVIDIAは、Llama-3.1-Nemotron-70B-Instruct を発表しただけでなく、合成データ生成モデルのNemotron 4 340B もリリースしています。さらに、今年9月にはオープンなVLM（Vision Language Model: テキスト以外に画像も受付可能）のNVLM-D-72B をリリースし、一部のベンチマーク指標で主要なGPT-4に匹敵すると謳っています。

GPUリソースに関して圧倒的な強みを持つNVIDIAは、生成AI分野で今後さらに存在感を発揮するかもしれません。