生成AIプロダクトはどのように評価するのか

生成AIプロダクトの評価方法とその課題について説明しています。特に、LLM（大規模言語モデル）の品質特性や評価手法、評価に求められる要件について詳しく紹介しています。

近年その活用が広がりを見せるLLM（大規模言語モデル）ですが、システム化にあたって出力結果の評価が重要となります。
生成AIを使用したアプリでは、従来のソフトウェアの評価観点に加えて生成AI特有の特性に対応した評価が必要です。
生成AIプロダクトに対する評価の課題と、評価手法についてご紹介します。

生成AIプロダクトの評価に求められること

AIプロダクト品質保証コンソーシアム（QA4AI）が公開しているAIプロダクト品質保証ガイドライン（https://www.qa4ai.jp/download）では、LLMにおける品質特性として以下５つの品質特性が挙げられています。

回答性能

プロダクトが期待する生成内容の出力が得られているか。

事実性・誠実性

生成される情報が信頼できる出力になっているか。

倫理性・アラインメント

AIバイアス（特定のグループやカテゴリに対する偏見や差別が生成結果に含まれないこと）や、法の順守といった品質。

頑健性

出力の一貫性が保たれているか。

AIセキュリティー

個人を特定可能な情報（PII）の匿名化やデータの機密性が確保されているか、悪用につながる回答が含まれないか。
ガードレールにより、本来必要な機能が満たせないことがないか。

また、使用するモデルの種類やシステムの運用方法、生成AIに対する入出力トークン数により、必要となる運用コストが大きく変わってくるため、構築するサービスの費用対効果も評価観点として重要になります。

生成AIプロダクトの評価方法

生成AIを使用したアプリを評価する方法については、生成AIの進化とともに様々な手法が提案されています。
大きく分けると以下3つの手法に分類されます

統計的手法

あらかじめ用意した正解データとの類似度を機械的に測る方法です。
原始的な方法ですが、文脈を考慮した評価が不可能なため、人の感覚に近い評価が難しいです。

自然言語モデル、Transformerベースの言語モデルによる評価

あらかじめ用意した正解データとの類似度や、整合度合いを言語モデルでスコアリングします。
ある程度は文脈を考慮した評価が可能ですが、評価するモデルの学習データが評価結果へ影響するため、信頼性に課題があります。

LLM-as-a-Judge

GPTなどのLLMを用いて、出力品質を評価させる方法です。LLMによる文書の意図理解が可能なことから、人の感覚に近い評価が可能です。
正解データとの比較を行わずに出力結果を評価することが可能であり、他の手法に比べて幅広い観点で評価が可能です。
一方で、LLMの応答結果により結果が変動するため、同一入力に対してLLMの出力が変動する非決定性の影響を受けます。
また他の手法に比べ、評価に必要なコストが増大しがちです。

それぞれメリット／デメリットが存在しますが、評価対象の生成AIプロダクトの特性に合わせて、どのように評価を実施すべきかを決定します。

まとめ

生成AIを使ったプロダクトは、LLMの出力内容にハルシネーションが含まれる可能性があるなどの不確実性がデメリットですが、不確実性が生み出す人の想像を上回る創造性は、生成AIの強みでもあります。

様々な評価方法が存在しますが、生成AIを使用するシステムを設計する段階で、入力に対するモデルの結果とプロンプトの組み合わせを常にトレースできるように、LLMOpsの仕組みは取り入れるべきです。

以下の記事では、Difyでの処理結果をトレースする方法として、Langfuseを使う方法をご紹介しています。

最後に

最後まで読んでいただき、ありがとうございます。
私たちのサービスでは、データ分析基盤の構築やDeep Learningモデル開発、MLOps構築、生成AIモデル開発等データに関わるプロジェクトを伴走支援しております。
データ分析基盤開発やデータのAI活用経験のある方や、興味のある方は、ぜひご応募ください。
あなたのスキルと情熱をお待ちしています。

新卒、キャリア募集しています！

＼シェアをお願いします！／