音声認識の仕組みをわかりやすく解説! メリット・デメリットや事例も紹介

更新:2024.4.16
著者:Sky株式会社


音声認識とは?

音声認識とは、人が発した声をAIが分析し、テキストデータに変換する技術のことです。身近なところでは、「Siri」や「Googleアシスタント」といった音声アシストアプリ、スマートフォンの音声入力機能などに音声認識のシステムが利用されています。

音声認識技術の歴史は古く、1970年代には本格的な研究・開発がスタートしていました。2000年代に入ると、AIの発展により飛躍的な進化を遂げ、2011年に発売されたiPhone 4SへのSiri搭載を手始めに、近年では誰もが手軽に利用できる身近な存在となりました。

音声認識技術が広く浸透することで、人と機械とのコミュニケーションがより自然に、不自由なく行えるようになると期待されています。

音声認識の仕組みをわかりやすく解説

人は会話をする際、他人の音声を自然に認識し、瞬時に意味を理解できます。しかしコンピューターにとっては、人それぞれに異なる言葉遣いや話し方に適応し、人と同じようにダイレクトに意味を判断することは困難です。一般家庭でも音声認識が使用されるようになった今、コンピューターはいったいどのような仕組みで人が発する言語を認識しているのでしょうか。

音声認識の大まかな流れとして、まずは音声をコンピューターが扱えるデータに変換する工程が必要になります。その後、変換したデータと膨大な学習データを照らし合わせながら文字列を推測することで、初めて自然なテキストとして出力することが可能です。

文字列を推測するためのシステムは、技術の進歩とともに変化してきました。現在主に使用されているのは、「DNN-HMM型」と「End-to-End型」の2種類です。AI技術の発展を受け、2010年代から主流となったのが「DNN-HMM型」です。そして、よりダイレクトに音声を認識できる仕組みとして、2016年以降に台頭し始めたのが「End-to-End型」です。現在は、特に「DNN-HMM型」が幅広い製品に用いられています。

ここでは、コンピューターが音声を認識する際に活用されている技術について、詳しく説明します。

音響分析

まずは入力されたアナログ音声をデジタル化して、コンピューターが認識できるかたちに整える必要があります。この作業を「音響分析」と呼びます。音響分析では、雑音を除去して音の波形を切り出し、強弱や周波数といった特徴を数値で示した「特徴量」というデータを抽出します。

抽出されたデータは、「音響モデル」「言語モデル」「発音辞書」という3つの資料と照らし合わせながら、テキストへと変換されます。

音響モデル

音響モデルは、対象となる音素の周波数など、音響的な特徴を示したものです。音素とは、音声の意味の違いを捉える際に、音波の最小構成要素となる単位を指します。日本語では母音、子音、撥音(はつおん)で表されます。たとえば「おはよう」という言葉なら、「o-h-a-y-o-u」と示され、このアルファベット一文字ずつに区切った単位を音素と呼びます。

音響分析を終えたデータは、抽出した特徴量と音響モデルを照らし合わせて、どの音素にどれくらい近いのかを計算する工程に入ります。音響モデルは一般的に、数千人、数千時間に及ぶ人の声を統計的に処理した学習データをベースとしています。

言語モデル

言語モデルとは、テキストを集めて統計的に処理したもののことです。音素の並び方に関する法則や、該当の文章においてより出現確率の高い単語はどれかなど、膨大な文章例から蓄積されたデータを参照することで、より自然な単語の組み合わせを導き出すために用いられます。

言語モデルを利用することで、音素の候補が複数ある場合や、同音異義語についての判断が必要なケースでも、意味の通じる自然な文章を出力することができます。

発音辞書

抽出された音素と、言語モデルの単語を結びつけるために使用されるのが、「発音辞書」と呼ばれるデータベースです。発音辞書には、「愛」なら「ai」、「好き」なら「suki」のように、各単語の読み方が音素の並びとして登録されています。この辞書で音素の情報を検索することで、該当する単語の候補を選別します。

発音辞書によって音素と単語のマッチングを行うことで、ただの音素の連結だったものが、意味のある単語へと変換され、コンピューターでも人が発した言葉の意味を認識することができるようになります。

言語モデルの種類

ここまでご説明した「音響モデル」「言語モデル」「発音辞書」による判断方法には、厳密には複数の手法が存在します。中でも言語モデルの手法として代表的なのが、「隠れマルコフモデル(HMM)」と「N-gram」です。

隠れマルコフモデルでは、「対象となる単語の後に、どのような単語が続く可能性が高いか」という、単語同士が隣り合う確率について考えます。たとえば「明日の天気は雨です」という文章なら、「明日の」に続く確率が高いのは「天気」なのか「予定」なのか、「天気は」に続く確率が高いのは「雨」なのか「悪い」なのかというように、次に続く単語の出現確率を定義します。現在主流となっているシステムとしてご紹介した「DNN-HMM型」には、隠れマルコフモデルが用いられています。

一方N-gramを用いる手法では、文章の中に含まれている単語のまとまりに着目し、各単語の出現率を考えます。N-gramとは、連続したn個の単語のまとまりのことを指す言葉で、Nには単語の個数が入ります。単語ごとではなく、文字単位で区切る場合もあります。「明日の天気は雨です」という文章について3-gramで判断する場合、以下のような「連続した3つの単語のまとまり」が含まれていると考えられます。

明日/の/天気
の/天気/は
天気/は/雨
は/雨/です

たとえば「天気/は/雨」というまとまりにおける各単語の出現率を考えれば、ここで登場する「a-m-e」が同音のほかの単語ではなく、「雨」である可能性が高いと推測できます。このように、文字や単語単位でのつながりから適切なテキストを導き出すのが、N-gramを用いた手法です。

ディープラーニング技術

AIが人間の脳の構造を模倣し、大量のデータを用いて自らパターンを学習する技術のことを、「ディープラーニング(深層学習)」といいます。機械学習の一種であるディープラーニングを導入することで、音声認識の精度向上を図る事例も登場しています。

その他関連技術

音声対話

音声認識技術の発展によって、AIが音声から言葉の意味を理解できるようになることで、人と機械の自然な音声対話が実現します。こうした技術は、顧客からの問い合わせへの対応や、セールスプロモーションの支援に活用されています。

発音判定

外国語などを学習する際には、自分の発音と正しい発音との違いについて悩む方もいます。音声を音素単位で数値化・分析する技術を利用することで、アクセントやイントネーションをお手本と視覚的に比較することも可能です。

声紋認証

声を分析する技術は、生体認証(バイオメトリクス認証)にも役立てられています。巧みなものまねでも突破できないような、精密な個人認識が可能なため、高度なセキュリティの構築につながります。

音声認識におけるEnd-to-Endの仕組み

DNN-HMM型では、前述のような各工程をそれぞれのモジュールで行い、複数のモジュールを組み合わせることで音声認識を行っていました。それに対しEnd-to-End型では、音響分析とテキスト化の間で行われる変換作業を、すべてひとつのモジュールで行います。特徴量からダイレクトに文字列の推測を行うため、従来型よりも人間の脳の処理系統に近い仕組みになっています。

End-to-End型は登場してから日が浅く、実用化に際しては課題も多いものの、構造がシンプルでネットワークの軽量化がしやすく、開発を進めやすいという利点があります。また、各モジュールの処理能力の限界によって誤差が生まれるケースもあるため、モジュールが単一であるほうが、認識精度が向上することが期待できます。

ディープラーニングをはじめとしたAI技術の導入に伴って、音声認識の技術は飛躍的に進歩しており、こうした新しいシステムの研究も積極的に行われています。

音声認識を取り入れるメリットは主に3つ

①音声だけで機械に指示を出せる

音声認識のメリットとしてまず挙げられるのは、作業を効率化できるという点です。音声だけでコンピューターに指示を出すことが可能になるため、マウスやキーボードを操作する手間がかからず、個々の操作スキルの差が作業スピードに影響しません。

また、音声認識を使って会話内容を記録する場合、リアルタイムでテキスト化が行われるため、文字起こしに別途時間を割く必要がなくなり、スピーディーに情報を共有できます。

議事録作成のほか、「Python」というプログラミング言語と音声認識を活用することで、声だけでプログラミングコードを入力する事例などもあり、さまざまなかたちで業務の効率化に役立てられています。

②聞き取り精度が高まり、ヒューマンエラーが減少する

AIの導入により、音声認識の精度は飛躍的に向上しました。近年では「聞き取り」の精度も高まっており、人間でも聞き分けることが困難なほどの状況下でも、音声認識技術が活躍しています。ノイズを減らして必要な音だけを拾うことが可能なため、空港やターミナル駅のような大勢の話し声が飛び交う環境であっても、必要な音を聞き取れます。

人の手で文字入力などを行う場合、どうしても入力ミスが発生してしまうケースがありますが、高性能な音声認識が利用できれば、ヒューマンエラーを防止して正確性を高められます。

③信頼性や顧客満足度が高まる

データ入力やカスタマーサポートでの電話対応といった事務作業は、作業内容は一見シンプルでも、大幅に時間を取られることで負担が増加するケースがあります。

音声認識技術を活用すれば、電話での問い合わせ内容を自動でテキスト化したり、チャットボットによる対応を取り入れたりすることが可能です。オペレーターの負担軽減や人手不足の解消、フィードバックの効率化につながるため、サービスの質の改善に手が回りやすくなり、顧客満足度の向上を実現できます。近年ではAIの発展により音声認識の精度が高まっているため、誤認識が減ることで企業の信頼性向上にも役立ちます。

音声認識の問題点やデメリットは主に2つ

①無限にある方言やスラング、独自の言い回しに対応しきれない

人が話す言葉のなかには、方言やスラング、若者言葉、業界ごとの専門用語など、さまざまな独自の言語が存在しています。多くの音声認識システムは標準語を学習して作られており、標準語以外の言葉に対しては認識精度を十分に発揮できません。

幅広い言葉遣いに対応するためには、それだけ多くのサンプルを用意し、AIに覚えさせる必要があります。現在では方言に対応するAIの開発なども進められているため、将来的にはこうしたデメリットは解消していく可能性があります。

また、AIには文章の意訳ができないため、含みを持たせた言い回しなどを正確に理解できない点にも注意が必要です。

②発音の認識はできても、発言者の識別は困難

従来の音声認識技術は、音響モデルの工程で話者識別を行っていないケースがほとんどでした。そのため複数人が同時に話をする場合には、必要な声だけを聞き取ったり、話者ごとに聞き分けて記録したりすることが不可能でした。

話者認識を可能にする手段として、事前にその人のデータを登録しておく方法と、音声処理の過程で話者を区別できるシステムにする方法があります。前者は事前にデータを登録できる状況でなければ利用できないため、一般向けのサービスとしては後者の方式の開発・導入が進められています。

音声認識によってできること・事例

音声認識は精度の向上とともに、さまざまな場面で取り入れられるようになりました。具体的な活用事例としては、以下のようなものがあります。

議事録の作成

議事録の作成は、音声認識の代表的な活用例のひとつです。社内会議や商談のほか、インタビューの内容を資料として残したい場合などに役立ちます。現在はさまざまな企業がAI議事録作成システムを提供しており、自治体でもこれらを使用した業務の効率化が進められています。

録音した記録を人の手で文字起こしする場合、実際の会議時間の数倍の時間がかかってしまいますが、音声認識であればほとんどリアルタイムでテキスト化を行えます。そのため大幅に作業時間が削減され、4分の1程度に短縮したという報告もあります。

AIは使用すればするほど事例を学習していくため、多用されることでより認識精度が上がることも期待されています。

翻訳機

音声認識機能を搭載した翻訳機も増えており、海外企業との取引や、外国人観光客への対応に使用されています。音声を文章に変換した後、その文章をGoogleなどで検索する仕組みで、通訳者が立ち会えないときでもスムーズなやりとりが可能です。なかには、アメリカ英語やイギリス英語、カナダ英語の細かな違いにまで対応する翻訳機もあります。幅広い言語を扱えるので、複数言語での同時通訳が必要な場面でも活躍します。

また、音声認識による翻訳を活用した事例として、講義に使う動画の字幕作成を行ったケースなどもあります。長尺の動画を何本も扱う場合、従来どおりに人の手で1本ずつ翻訳や編集を行っていると、多大な費用と手間がかかってしまいます。そこで音声翻訳の力を借りることで、業務負担を軽減しながらも、従来の方法と遜色なく内容を伝えることができます。

音声翻訳の活用方法はさまざまで、対話型の案内ロボットに搭載され、海外からの旅行客に多言語で対応している例などもあります。

対話型AI・ボイスボット

購入した商品について問い合わせを行う際、自動返信によるやりとりで問題が解決した、という経験がある方も増えていると思います。こうした機械と人間とのやりとりをテキスト入力で行うのが「チャットボット」、発話で行えるのが「ボイスボット」です。ボイスボットが音声で入力された人間の言葉を理解する過程には、音声認識の技術が活用されています。

ボイスボットは、コールセンターのオペレーター業務などに使用されています。人工知能によって自然な受け答えが行える「対話型AI」の技術と組み合わせることで、より人間に近い応対を実現することも可能です。AIによる問い合わせ対応がスムーズにできるようになると、業務効率が上がり、対応までに待ち時間が発生する可能性も低くなるため、企業と顧客の双方にとって好都合といえます。クレーム対応などの精神的な負担も大きいコールセンターにおいては、オペレーター個人の業務負担が減ることで、定着率向上の一手にもなり得ます。

導入にコストがかかるという懸念点はあるものの、その分人件費を削減できるという利点もあります。さらに、複数言語に対応できる音声認識システムなら、外国語での問い合わせにも対応できるほか、24時間いつでも稼働できるのも特長です。状況に応じてうまく活用すれば、企業にとって大きなメリットとなります。

音声を合成し、読み上げる

音声認識とともに発展してきた技術に、「音声合成」があります。機械にとって、人間の耳の代わりをするのが音声認識だとすれば、口にあたるのが音声合成です。

音声合成はもともと、自分で文字を読むのが困難な方に向けて開発が進められてきました。官公庁のWebサイトなどでテキスト読み上げに利用されているほか、現在では当初の目的以外にも幅広く活用され、フリーソフトウェアの提供も行われています。

音声認識と音声合成は、同時に使われる機会が多いことから、切っても切り離せない関係にあります。たとえば対話型ロボットは、音声認識で人の言葉を聞き、音声合成によって言葉を発することで人とコミュニケーションを取ります。こうした機能を搭載し、駅での案内役を音声会話で行うロボットなどもいます。AIによる対応が浸透すれば、非接触・非対面でサービスを提供できます。さらに、対話のログから利用者のニーズなどを学習できる点も、AIならではの長所です。

また、ボイスボットを利用したオペレーター業務でも、音声合成でガイダンスを行い、一部始終を人の手を介さずに完了できた事例があります。顧客情報の聞き取りが必要な場合も、音声認識技術を利用すれば、声で吹き込んでもらうだけでテキストデータとして保存できます。自動応答システムの進化は、繁忙期になると一時的に人手不足が発生するケースなどに役立てられ、企業の課題解消に貢献しています。

まとめ

音声認識技術の仕組みや具体的な活用事例、メリット・デメリットについてご紹介しました。音声を判別する方法や音声認識の精度は、AIの発展とともに大きな進化を遂げています。導入に際しては課題もあるものの、改善に向けた研究・開発が積極的に進められており、利便性は高まるばかりです。

AIの導入やほかの技術との組み合わせによって、音声認識の利用の幅は広がり続けており、車載器に搭載することで運転をサポートする技術なども開発されています。Sky株式会社は、こうした音声処理技術に関する開発実績も有していますので、開発についてお困りの際はぜひお問い合わせください。

著者 Sky株式会社

Sky株式会社は、家電のシステム開発を手掛けたのをきっかけに、デジタル複合機やカーエレクトロニクス、モバイル、情報家電、さらに自社商品として教育分野における学習活動ソフトウェアや、公共・民間向けクライアント運用管理ソフトウェアなど、幅広い分野でのシステム開発を展開しております。

お問い合わせ

ソフトウェア開発・評価/検証(ソフトウェアテスト)に関するご依頼・ご質問は、下記フォームよりお問い合わせください。弊社製品・サービスに関するお問い合わせは、各商品Webサイトより受けつけております。

パートナー企業募集

Sky株式会社では長期的なお付き合いができ、共に発展・成長に向けて努力し合えるパートナー企業様を募集しております。パートナー企業募集に関するご依頼・ご質問は、下記フォームよりお問い合わせください。

ページのトップへ