これまでに音声認識技術を以下4つの技術領域に分類し、音響処理技術の「音声変換」「音声制御」について触れてきましたが、今回からは対話処理技術に触れていきたいと思います。
- 音響処理技術
- 対話処理技術
- ソリューション制御技術
- 性能改善技術
対話処理とはユーザーの発話内容から次のアクションを導き出し実行する技術です。
認識辞書、クライアント情報管理、意図解釈、意図情報管理を用いて対話判断を行い、判断結果に応じた実行制御を行う技術であり、音声認識ユースケース実現の根幹部分を担う領域です。
対話処理には大きく以下の2種類の役割があります。
- ユーザーの発話前に認識可能な語彙を設定する役割
- ユーザーの発話の意図に基づいて次の行動の選択を行う役割
やりたいことを一意に特定するために、対話を通して絞り込んでいきます。対話処理の主な役割及び機能を実施するための流れは以下のようになります。
- 現在の状態に従って発話可能な語彙を設定します。
- 発話内容を基に音声認識処理の結果が出力され状況の判定を行います。
- 判定結果により、次の動作(対話継続 or 意図決定)を設定します。
- 対話継続の場合は、意図決定に至るまで上記を繰り返し実施します。
- 意図決定後は意図に合わせた機能を実行します。
対話処理はテーブル管理される事が多く、テーブルには対話に必要な語彙、状態、結果等の情報が含まれます。
ユーザーの発話前にこのテーブル情報を音声認識処理部へ通知し、ユーザーの状況に適した対話を行います。
ユーザーの発話を受け付け後、認識した発話に応じて判断を行いますが、このとき、通信状態や他機能動作状態等のエッジ側の状態によってその後の行動が変化しますので、同じ語彙を認識しても次の動作も変化していきます。
このように対話処理ではユーザーの状況、エッジの状態等、様々なシチュエーションを加味した設定が必要であり、音声認識の精度向上にも重要な技術要素となっています。

