
教師なし学習とは? メリットや事例、手法を紹介

現代ではさまざまな分野でAIが活用されており、もはやAIは私たちの生活と切り離せない存在になりつつあります。そんなAIが発展していく上で欠かせないのが、「機械学習」と呼ばれる技術です。機械学習は、コンピューターが大量のデータから自動的に学習し、パターンや規則性を見つけ出すことで予測や状況判断を可能にします。今回はその機械学習の手法の一つである「教師なし学習」について、概要やメリット、活用事例などをご紹介します。
教師なし学習とは何か
「教師なし学習」とは、機械学習の手法の一つであり、正解が与えられていないデータを利用してデータに潜むパターンや構造を見つけ出す学習方法です。人間によって正解となるラベルがつけられていないデータを活用することから、AIにとって正誤判断をするための「教師がいない」という意味合いで、教師なし学習と呼ばれています。
AIが独自にパターンや傾向を導き出すため、人間が想定できないような新たな知見を得たい場合や、大量のデータから規則性や関連性を発見したい場合などに有効な手法です。
教師なし学習とほかの機械学習との違い
機械学習には、教師なし学習以外にも、「教師あり学習」や「強化学習」という手法が存在します。また最近では、少量のラベルつきデータを利用して大量のラベルなしデータを学習する、教師あり学習と教師なし学習を組み合わせた「半教師あり学習」という手法も登場しています。
教師あり学習とはその名のとおり、教師となる正解データを活用して学習を行う方法です。AI開発において最も主流な学習方法であり、画像認識やスパムメールの分類、株価予測や売り上げ予測など、あらゆる場面で活用されています。正解データの有無が教師なし学習との一番大きな違いであり、教師なし学習では探索的なデータ解析や特徴の抽出を目的としているのに対し、教師あり学習では学習したデータを基に「正解」を予測することを目的としています。
強化学習は、AIや機械が実際に行動しながら試行錯誤を繰り返し、最大の報酬を得られるように最適な戦略を学習する手法のことを指します。主にゲームやロボット制御、自動運転技術などに応用されています。
教師なし学習 | 教師あり学習 | 強化学習 | |
---|---|---|---|
正解データの有無 | 不要 | 必要 | 不要 |
目的 | 潜在的なパターンや構造の発見 | 正解の予測や分類 | 試行錯誤によって最適な行動を学習 |
必要なデータ | 未分類データ | 正解ラベルつきデータ | 状態や行動、報酬の関係性を示すデータ |
活用例 | 購買データ分析 異常検知 レコメンド機能 |
画像認識 売り上げ予測 スパムメール分類 |
ゲーム ロボット制御 自動運転技術 |
教師なし学習の利用目的
上記の表のとおり、教師なし学習の利用目的は、データの背後にある潜在的なパターンや構造を発見することです。現代ではあらゆる場面でデータの活用や分析が行われていますが、それらすべてに正解となる答えが明確に存在するわけではありません。答えがない状態から傾向やパターンを見いだし、有益なデータ活用につなげるために教師なし学習は行われます。
例えば、新商品を販売するにあたってのターゲティング分析を行う場合、既存の販売データが存在しないため、教師あり学習では正解を導き出すようなトレーニングができません。一方、教師なし学習であれば、類似商品や同じカテゴリ内の商品の購買データから顧客の購買パターンや傾向を抽出し、ターゲットとなる層を予測できます。
また、教師あり学習のデータを準備する段階で、事前に教師なし学習でデータの傾向をつかむという活用目的もあります。何も正解がない状態から、教師あり学習のためにラベルをつけていくのは非常に難しい作業です。教師なし学習で、ある程度データの傾向をつかめれば、ラベルづけの一つの方針として採用できます。
教師なし学習の代表的な2つの手法
教師なし学習には、「クラスター分析」「次元削減」「アソシエーション分析」「GAN(敵対的生成ネットワーク)」といった、さまざまな種類のアルゴリズムがあります。ここでは、教師なし学習の代表例として語られることが多い「クラスター分析」と「次元削減」についてご紹介します。
1.クラスター分析
クラスター分析とは、「データセットを特定のルールや類似度に基づいてグループ分けしていく手法」のことです。顧客のセグメンテーションやマーケティング戦略、異常検知など、幅広い分野で活用されています。例えば、ECサイトにおける顧客データをグループ分けし、グループ内で売れている商品を、同じグループに所属する別の顧客にレコメンドする機能などがその例です。
クラスター分析には、クラスターを階層的にまとめていく「階層的クラスタリング」と、階層を作らずにグルーピングする「非階層的クラスタリング」の2つの種類があります。計算コストを考慮して、取り扱うデータの数が数十個程度と少ない場合は「階層的クラスタリング」を、データの数が100を超えてくる場合は「非階層的クラスタリング」を活用するのが一般的です。
ただし、クラスター分析は非常に便利である反面、あくまでも正解ラベルのないデータに基づくため、AIの主観によってグループ分けされてしまうことには注意する必要があります。
2.次元削減
次元削減とは、簡潔に説明するとデータの要約であり、重要なものに絞ってデータセット内の次元(特徴量)を削減することで、高次元のデータが持つ情報をなるべく保持しながら低次元のデータに変換する手法を指します。高次元のデータを2次元や3次元のデータへ変換し、人間が理解できるようにすることが目的です。
この次元削減の主な方法として、主成分分析(PCA)があります。主成分分析では、データの分散が最も大きい方向(主成分)を見つけ出し、特徴ベクトルを少ない次元に変換します。これにより、計算負荷を軽減し、データの構造をわかりやすくした上で分析することが可能です。
また、次元削減は教師なし学習だけでなく、教師あり学習にも役立てることができます。次元削減を行ったデータを教師あり学習の学習データとすることで、不要な特徴量の項目が削減されたデータを学ばせることができ、結果として教師あり学習の学習精度が向上します。
教師なし学習の事例
教師なし学習は、画像認識や異常検知、購買データの分析など、あらゆる場面で活用されています。ここでは、医療と自動運転における教師なし学習の活用事例をご紹介します。
医療での活用事例
教師なし学習の一つであるクラスター分析は、画像のセグメンテーションにも非常に有用です。医療現場ではこの技術を生かし、医用画像の分析に役立てています。例えば、MRIやCTの画像をピクセルの密度や色などの特徴量に基づいてセグメント化することで、健康な組織と腫瘍の識別などが可能になります。
また、歯科現場では、2つのモデルを互いに競わせて入力データの学習を深める「GAN(敵対的生成ネットワーク)」を活用し、人口歯をデザインする研究が行われています。カリフォルニア大学バークレー校とアメリカの大手歯科技工グループであるGlidewell社が共同で開発を進めており、歯科医が作成した人工歯より、GANによる人工歯の方が患者のかみあわせに適していたという研究結果も出ています。
自動運転での活用事例
現在の自動運転技術の開発には、教師あり学習を用いるケースが多いです。しかし、アメリカの「自動車技術会」(SAE)が定義する「レベル4(特定の環境下における完全自動運転)」以上の自動運転を実現するには膨大なラベルつきデータが必要であり、それらのデータを用意するためにはさらに膨大な量の作業が発生します。加えて、情報量が多い分、学習に相当な時間とコストがかかることも課題です。
このような課題を解決するため、教師なし学習を自動運転技術の開発に取り入れる動きが注目されています。教師なし学習は、正解データを用意する必要がないという特性を持つため、教師あり学習よりも圧倒的にコストを削減することが可能です。実際にアメリカのスタートアップ企業であるHelm.ai社が、教師なし学習を活用した自動運転ソフトウェアを開発しており、日本のホンダ社も同社に対して出資を行っています。
教師なし学習のメリットとデメリット
教師なし学習のメリットとデメリットは、それぞれ以下の通りです。
教師なし学習のメリット
-
ラベルなしのデータを活用できる
教師なし学習の最大のメリットは、データにラベルづけを行う必要がなく、ラベルなしのデータをそのまま利用できることです。ラベルづけに伴うコストを削減できるほか、より多くのデータから価値を引き出せます。 -
未知のパターンや構造を発見できる
教師なし学習では、正解データを用いないという特性上、人間では思いつかないような未知のパターンや構造を発見することが可能です。
教師なし学習のデメリット
-
学習結果の精度が低い
教師なし学習ではラベルなしデータを活用するため、教師あり学習に比べて学習結果の精度が低くなる傾向にあります。 -
学習結果の評価・解釈が難しい
正解データを用いないため、仮にモデルが新たな知見を導き出したとしても、その評価基準が定まらなかったり、解釈が難しかったりと、発見した知見が役に立たない場合もあります。
まとめ
教師なし学習は、正解が与えられていないデータを利用し、データに潜むパターンや構造を見つけ出す学習方法です。教師あり学習と比較すると学習結果の精度は下がるものの、事前に正解データを用意する手間やコストが必要なく、学習をスタートするハードルは低いといえます。課題である学習結果の精度の低さを改善する研究も行われており、今後はより一層、教師なし学習の活用の幅が広がっていくことが予想されます。