音声認識｜Ｓｋｙ株式会社

『音声認識』の定義

音声認識とは「人の言葉をコンピューターが聞き取り、理解し、行動する」という技術です。一般的には「音声認識」＝「音声を文字に変える技術」とされることもありますが、これだけでは「聞き取り」にとどまります。「理解し」「行動する」という点を踏まえたシステム全体を総じて音声認識と位置づけています。

音声認識の動向

音声認識技術は、「あ」「い」「う」といった音素単位での認識に始まり、単語認識、文章認識、自然言語理解と進化してきました。技術の進化に伴い、多くの業界や製品で利用されるようになり、その活用の幅は広がっています。
昨今では、Alを活用した音声認識技術が大きく発展し、車載用のAl音声アシスタントも登場。今後、車との対話や音声UIによる自動運転などのサービスが広がっていくことが予想されます。

車との対話

車と家との連携

自動運転における音声UI

関連技術

音声認識の構成要素として、以下の技術領域に分類されます。

音響処理技術

音声の入出力および変換処理に関わる技術です。各OSに応じた音声入出力ライブラリの制御、入力音声のノイズ除去、音声から文字への変換、音声区間の検出、文字から音声への変換、音声による起動制御などの技術が挙げられます。

対話処理技術

ユーザーの発話内容から次のアクションを導き出して実行する技術です。認識辞書、クライアント情報管理、意図解釈、意図情報管理を用いて対話判断を行い、結果に応じた実行制御を行う、音声認識の根幹を担う領域です。

ソリューション制御技術

サードベンダーの音声認識ソリューションを制御する技術。ポーティング、音響・対話制御、データ管理などの技術が挙げられます。それらのソリューションはOnboard・Offboardともに数多く存在し、性能 / 構成 / 価格も異なるため、実現したいサービスに応じた選定が必要です。

性能改善技術

音声認識の性能改善に関する技術です。認識率改善、パフォーマンス改善技術が挙げられます。音声認識にとって利便性は最重要要素であり、性能改善技術は必要不可欠となります。

各技術領域における実績

技術領域	技術要素	開発実績
音響処理技術	音声制御	コマンド型音声認識音声文字入力文字読み上げ
音響処理技術	音声変換	各種OSでの音声入力対応各種OSでの音声出力対応雑音除去処理
対話処理技術	対話判断	クライアント情報の管理対話状況に合わせた認識語彙管理対話進行による意図情報管理と決定
	実行制御	関連機能とのI / F整合外部サービスからの情報取得画面表示 / 音声発話によるユーザー通知
	認識辞書	自然言語辞書の利用コマンド辞書作成 / 管理動的辞書作成 / 管理
ソリューション制御技術	Onboard	音声変換型ソリューションの搭載対話統合型ソリューションの搭載ウェイクアップソリューションの搭載
ソリューション制御技術	Offboard	SDK型ソリューションの搭載 Web API型ソリューションの搭載
性能改善技術	パフォーマンス改善	パラメータ最適化認識語彙、および、認識辞書調整 CPU負荷軽減
性能改善技術	認識率改善	パラメータ調整 / 入力音声調整待受語彙調整ハイブリッド音声認識