DatabricksのAI/BI Genieは、自然言語で質問するだけでSQLクエリを生成し、結果をグラフ化できる強力な機能です。従来のデータ活用では、スキーマ、データに詳しく、正しいクエリの書き方や要求方法を理解している人でないとデータ利用ができない状況でした。
このハードルを下げ、多くの方にデータ活用のチャンスをもたらす機能として注目されている技術です。ただし、特に日本語での利用を想定した場合、精度を高めるための工夫やレポート作成のポイントがあり、注意する必要があります。
1. データ構造を整理する
LLMはデータにアクセスできても、そのデータがどのようなデータなのかはわかっていません。 そのため、メタデータを管理する必要があります。 DatabricksにはUnity Catalogが用意されており、こちらにメタデータを整理することでAIの精度を高めることが可能です。
2. 質問の書き方を工夫する
LLM利用における一般的な手法ですが、下記のような観点に注意して質問するようにしましょう。
- 具体的な条件を明記 : 「2024年の売上」→「2024年1月から12月の売上」
- 集計軸と可視化形式を指定 : 「月別に集計して折れ線グラフで表示」
- 曖昧な表現を避ける : 「最近」ではなく「直近3ヶ月」など具体的に。
3. レポートの目的とデータに沿う可視化
分析の目的やデータの特性によって、推移をみていくべきなのか、断面の情報を可視化するのか、効果的なアプローチも変わってくることがあります。データアプローチを検討してから可視化をしていくようにしましょう。一般的なグラフ毎の特性は下記のようなものがあります。
- 棒グラフ : カテゴリ別比較(地域別売上など)
- 折れ線グラフ : 時系列データ(売上推移など)
- 円グラフ : 割合表示(上位商品の構成比など)
このほかにも効果的なLLM利用にあたっては、できるだけ短文の質問をするとか、メタデータにない社内用語を用いないなど、色々な観点があります。使いながら特性を理解し、自分自身のプロンプトをチューニングしていくと、より精度も高まっていきます。
データを管理する立場の方は、メタデータの充実が最も効果に影響するポイントかと思います。定期的なメタデータ管理をサイクル化し、組織のデータ活用に繋げていけるようにしていきましょう。

