音声認識の仕組み(対話処理編)

音声認識の「対話処理技術」について解説します。対話処理はユーザーの発話意図を解釈し次の行動を決定する技術で、発話可能な語彙設定や意図に基づく行動選択の役割を担い、音声認識ユースケース実現の根幹をなします。

これまでに音声認識技術を以下4つの技術領域に分類し、音響処理技術の「音声変換」「音声制御」について触れてきましたが、今回からは対話処理技術に触れていきたいと思います。

対話処理とはユーザーの発話内容から次のアクションを導き出し実行する技術です。
認識辞書、クライアント情報管理、意図解釈、意図情報管理を用いて対話判断を行い、判断結果に応じた実行制御を行う技術であり、音声認識ユースケース実現の根幹部分を担う領域です。

対話処理には大きく以下の2種類の役割があります。

やりたいことを一意に特定するために、対話を通して絞り込んでいきます。対話処理の主な役割及び機能を実施するための流れは以下のようになります。

対話処理はテーブル管理される事が多く、テーブルには対話に必要な語彙、状態、結果等の情報が含まれます。
ユーザーの発話前にこのテーブル情報を音声認識処理部へ通知し、ユーザーの状況に適した対話を行います。

ユーザーの発話を受け付け後、認識した発話に応じて判断を行いますが、このとき、通信状態や他機能動作状態等のエッジ側の状態によってその後の行動が変化しますので、同じ語彙を認識しても次の動作も変化していきます。

このように対話処理ではユーザーの状況、エッジの状態等、様々なシチュエーションを加味した設定が必要であり、音声認識の精度向上にも重要な技術要素となっています。

＼シェアをお願いします！／

入社後にスキルアップを目指す若手の方も、ご自身の経験を幅広いフィールドで生かしたいベテランの方も、お一人おひとりの経験に応じたキャリア採用を行っています。

Ｓｋｙ株式会社のソフトウェア開発や製品、採用に関するお問い合わせについては、下記のリンクをご確認ください。

記事検索