『音声認識』の定義
音声認識とは「人の言葉をコンピューターが聞き取り、理解し、行動する」という技術です。一般的には「音声認識」=「音声を文字に変える技術」とされることもありますが、これだけでは「聞き取り」にとどまります。「理解し」「行動する」という点を踏まえたシステム全体を総じて音声認識と位置づけています。
音声認識の動向
音声認識技術は、「あ」「い」「う」といった音素単位での認識に始まり、単語認識、文章認識、自然言語理解と進化してきました。技術の進化に伴い、多くの業界や製品で利用されるようになり、その活用の幅は広がっています。
昨今では、Alを活用した音声認識技術が大きく発展し、車載用のAl音声アシスタントも登場。今後、車との対話や音声UIによる自動運転などのサービスが広がっていくことが予想されます。
車との対話
車と家との連携
自動運転における音声UI
関連技術
音声認識の構成要素として、以下の技術領域に分類されます。
音響処理技術
音声の入出力および変換処理に関わる技術です。各OSに応じた音声入出力ライブラリの制御、入力音声のノイズ除去、音声から文字への変換、音声区間の検出、文字から音声への変換、音声による起動制御などの技術が挙げられます。
対話処理技術
ユーザーの発話内容から次のアクションを導き出して実行する技術です。認識辞書、クライアント情報管理、意図解釈、意図情報管理を用いて対話判断を行い、結果に応じた実行制御を行う、音声認識の根幹を担う領域です。
ソリューション制御技術
サードベンダーの音声認識ソリューションを制御する技術。ポーティング、音響・対話制御、データ管理などの技術が挙げられます。それらのソリューションはOnboard・Offboardともに数多く存在し、性能 / 構成 / 価格も異なるため、実現したいサービスに応じた選定が必要です。
性能改善技術
音声認識の性能改善に関する技術です。認識率改善、パフォーマンス改善技術が挙げられます。音声認識にとって利便性は最重要要素であり、性能改善技術は必要不可欠となります。
各技術領域における実績
技術領域 | 技術要素 | 開発実績 |
---|---|---|
音響処理技術 | 音声制御 |
|
音声変換 |
|
|
対話処理技術 | 対話判断 |
|
実行制御 |
|
|
認識辞書 |
|
|
ソリューション制御技術 | Onboard |
|
Offboard |
|
|
性能改善技術 | パフォーマンス改善 |
|
認識率改善 |
|
音声認識実績の一例
各種音声認識ソリューションと連携し、車載器側の対話管理部、機能連携部を開発、非通信環境下において、車載器側のみで音声認識が行えるソリューションポーティングにも対応。ウェイクワードによる利便性向上、ノイズキャンセリングによる騒音下での認識率向上を実現しました。