教師あり学習とは? 仕組みや活用例、教師なし学習との違いを詳しく解説
「ChatGPT」などで知られるAI(人工知能)の技術。昨今めまぐるしく進化しており、マーケティング活動などビジネスで活用する組織も増えてきています。そんなAIを実現するためのデータ分析技術の一つを「機械学習」といい、機械学習における代表的な学習手法が「教師あり学習」です。この記事では、教師あり学習の仕組みや活用例、ほかの学習手法である「教師なし学習」「強化学習」との違いなどについて解説します。
教師あり学習とは何か?
教師あり学習とは、機械学習における学習手法の一つです。そもそも機械学習とは、機械(コンピューター)が与えられたデータを基に自動で学習し、データの背景にあるルールやパターンを発見する技術のことですが、その中で教師あり学習は“正解となる情報”を含むデータを基にした学習手法のことをいいます。詳しく見ていきましょう。
教師あり学習の仕組み
例えば、いろいろな動物が写った大量の画像データが存在したときに、「サル」「イヌ」「キジ」など写っている動物の名前(正解となる情報)を各データにラベリングするとします。そのデータを用いて機械学習を行うことで、コンピューターは各動物の姿形や特徴などを学習し、「これはサル」「これはイヌ」「これはキジ」というように、画像を見ただけでどの動物なのかを判定できるようになります。
正解を含むデータを基に学習を重ねていくことで、正解がわからないデータがインプットされた際に、その内容を認識し、正解を予測できる仕組みです。このように、教師あり学習は「学習」「認識・予測」という2つのプロセスによって成り立っています。
- 学習
正解のデータを用いてルールやパターンを学習
- 認識・予測
正解がわからないデータに対して、それまでに学習したデータを用いて認識・予測
後ほどご紹介しますが、教師あり学習と対をなす学習手法に「教師なし学習」というものも存在します。これは、正解となる情報を含まないデータを基に学習させる手法のことです。当然、正解を含むデータを用いる教師あり学習の方が学習精度は高く、基本的には教師あり学習が用いられる機会が多いといえます。
教師あり学習の「分類」と「回帰」
教師あり学習は、「分類」と「回帰」という2つの種類に分けられます。
分類とは「あるデータがどのカテゴリに属するかを予測」することです。前述の、動物の画像データから名前を予測することがこれにあたります。ほかにも、迷惑メールと判別されているメールから文章の特徴などを学習することで、新着メールが迷惑メールかどうかを予測するといった活用も分類に含まれます。分類は、ある要素にあてはまるか・あてはまらないかを予測することといえます。
回帰とは「数値を予測」することです。例えば、天候や平均気温といったデータと、アイスクリームの販売個数のデータとの関係を学習することで、「この平均気温であればこれくらいの売上が期待できる」といった予測を行うことが回帰にあたります。ほかにも、家や車の価格変動を予測するなどの例が挙げられます。回帰は、過去のデータを基に、データがない今後の数値を予測することといえます。
教師あり学習を用いる主な目的
教師あり学習の手法を用いる主な目的は、身の回りのあらゆるデータを実用的価値があるものとして活用するためです。近年は、ビッグデータと呼ばれる膨大な量・種類のデータを、ビジネスで活用することが多くの組織で求められています。
例えば、製造業であれば、工場のラインで稼働している機械の温度などをデータとして取得できます。このデータを基に、「60℃を超えたら異常」のような正解となる情報を与えて教師あり学習を行わせることで、AIによっていち早く設備の異常を検知するといったことが可能になります。
機械の温度単体で見れば人間でも対応できますが、温度だけでなくさらに確認項目が増え、機械の台数も増えた場合、人間が一つひとつチェックしていくには膨大な手間とコストがかかります。教師あり学習を用いてAIに学習させ、その精度を上げられれば、それらチェックをAIが行うことができ、手間とコストの削減につなげられます。結果として、温度などのデータに実用的価値が見いだされ、ビジネスでの活用が実現します。
教師あり学習の活用例
教師あり学習の活用例には、次のようなものがあります。主に判定や予測として活用される例が多いといえます。
- 外観検査
製造ラインにある製品などの外観検査を自動化
- インフラ点検
工場や橋など建設物のサビ・ひび割れなどを発見
- 収穫判断
農作物や果実などの収穫時期の判断
- レントゲン検査
がんなどの領域や形状を識別し、医師の読影を支援
- 価格予測
株価や住宅価格等の予測 など
ほかにも、具体的な活用例として銀行取引の詐欺予測があります。例えば、数千件・数万件にもおよぶ銀行取引のデータを、取引ごとに「詐欺である」「詐欺ではない」というようにラベリングを行います。このラベルが正解となる情報であり、データからパターンを学習することで、ある取引が詐欺かどうかを予測できるようになります。
このように、学習に用いられる過去のデータが多い場合には、教師あり学習が効果的です。
「教師なし学習」や「強化学習」との違い
機械学習の学習手法には、ほかに「教師なし学習」と「強化学習」があります。
教師なし学習とは、教師あり学習と対をなすもので、正解となる情報を含まないデータを基に学習を重ねる手法です。入力された一連のデータから、各データ間の類似度などを計算し、データの背景にあるルールやパターンを見つけ出します。主な活用例としては、ネットショッピングにおけるレコメンデーションを行うロジックなどが挙げられます。
強化学習とは、教師あり・なし学習とは異なり、最初からデータがあるわけではなく、AI自身が試行錯誤しながら、精度を高めていく学習方法です。囲碁AIの「AlphaGo」を例に挙げると、囲碁は手のパターンが膨大すぎて、既存の最新コンピューターでも手を読み切ることは不可能です。そのため、勝ちまでの手を読み切る代わりに、どの手を打てば勝ちに近づくかを学習します。対局を繰り返し行い、学習を重ねることで、次第に最適な行動のみを選択するようになります。明確な正解がないときに、どの行動が最適なのか自ら試行錯誤しながら学んでいくという点がポイントです。
教師あり学習のメリット・デメリット
教師あり学習のメリットは、正解となる情報を与えるため学習精度が高く、学習速度も速いことが挙げられます。学習に用いられるデータが多いほど、学習精度は高くなる傾向にあります。
デメリットは、正解を含むデータを用意しなければいけない点です。学習精度を高めるために膨大な数のデータを用意する必要があり、データごとのラベリング作業などで多くの手間とコストが発生します。また、誤った情報をラベリングしたり、ラベリング自体が不足していたりなど質の悪いデータを用意してしまうと学習精度の低下につながってしまいます。
- メリット
学習精度が高い、学習速度が速い
- デメリット
大量の学習データを用意しなければいけない
教師あり学習を導入する際に注意すべき点
教師あり学習を導入する上で注意すべきことは、主に3つあります。前述と少々重複する部分もありますが、導入を考えられている場合は以下のことを頭に入れておきましょう。
大量の学習データをあらかじめ用意
1つ目は、大量の学習データを用意する必要があるということです。教師あり学習では、学習するデータの数が多ければ多いほど精度の向上につながるため、あらかじめそれらのデータを用意する必要があります。組織内にデータが蓄積されている場合は、組織独自のデータとして有効活用できますが、データが蓄積されていない場合はWebクローラーを用いてデータを収集したり、企業や研究者などが公開しているオープンデータセットを利用したりする方法があります。
学習データの品質をきっちり担保
2つ目は、学習データの品質を担保しなければならないということです。教師あり学習では、正解となる情報を含むデータを基に学習を重ねて、未知のデータの正解を予測します。ラベリングする正解の情報に間違いがあれば、当然誤った情報で学習することになるため、精度が低下してしまいます。教師あり学習では、大量のデータを用意するとともに、すべてのデータの品質が担保されていることが欠かせません。
PDCAサイクルを回して精度を向上
3つ目は、精度を向上させるためには、PDCAサイクルが重要ということです。例えば、オープンデータセットのみで開発したAIは、競合他社が開発するAIと比べて優位性が劣ることも考えられます。このような場合には、組織内にデータが蓄積されたタイミングで新たなデータとして学習させていくことで、競合と差別化した上で、精度の向上を図ることができます。PDCAサイクルを回して、継続的に学習を重ねていくことが大切です。
まとめ
いかがでしたか。教師あり学習の仕組みや活用例、メリット・デメリットなどについてご紹介しました。教師あり学習は、正解となる情報を基に学習を重ねていくため、ほかの学習手法よりも精度が高くなることが期待できます。その一方で、AIに学習を行わせるために大量のデータを用意する必要があります。データを用意することが困難な場合は、その作業を代行するサービスも存在していますので、必要に応じて利用してみるのも良いかもしれません。今後、組織におけるAIのビジネス活用はさらに広がることが予想されます。AIのビジネス活用をお考えの方にとって、本記事が少しでもお役に立てば幸いです。