AI・人工知能

強化学習の特徴とは？ディープラーニングとの違いと活用事例

「強化学習（Reinforcement Learning）」という言葉を聞いたことはあるでしょうか。人工知能（AI）の学習方法の一つであり、ディープラーニングとともにコンピュータの学習性能を飛躍的に高めたことで熱い注目を集めています。

AIやディープラーニング、機械学習など似たような内容でよくわからないですよね。そこで今回は、これら類似用語との違いや関係を踏まえて強化学習の基礎知識と導入事例をご紹介します。

ゲームにも活用される強化学習とは？

ゲームにも活用される強化学習の概要について解説します。強化学習やディープラーニング（Deep Learning、深層学習）、人工知能（Artificial Intelligence、AI）、機械学習などの違いや関係性を理解しましょう。

強化学習の基礎知識

強化学習（Reinforcement Learning）とは、機械学習の一種です。AIを作るアルゴリズム（手順、手法）の一つが機械学習であり、強化学習はその方法の一つとも言い換えられます。単純な正解・不正解ではなく、将来的な価値を最大化するような行動を試行錯誤によって学習するのが強化学習です。

強化学習は、将来の価値の最大化を目的とするタスク、すなわちゲームと相性がよいと考えられています。たとえば2015年から2017年にかけて、Googleに買収されたテクノロジー企業であるGoogle DeepMindの開発した「AlphaGo」が囲碁のトップ棋士3名に圧勝しました。AlphaGoのAIには強化学習が活用されています。

機械学習のアルゴリズムには、強化学習以外にも「教師あり学習」と「教師なし学習」があります。強化学習の仕組み、特にプログラミングのポイントや手法については後ほど詳しく紹介しますので、まずは教師あり学習および教師なし学習について簡単に理解しましょう。

教師あり学習

教師あり学習とは、AIに対して事前に正解を提示しながらデータを入力するタイプの学習法です。AIが学ぶためには大量のデータを必要とします。
データを与えるときに、データに「正解ラベル」を付けて学習させます。たとえば肉料理の名前を答えるAIを作ろうと思ったら、肉料理の画像ファイルを読み込ませるだけではなく、その画像ファイルに対して「しょうが焼き」「ハンバーグ」「サーロインステーキ」「鶏の唐揚げ」などのラベルを付けておきます。
こうしたラベル付きのデータ＝教師データを大量にAIへ読み込ませることで、画像認識の精度を高めていきます。教師あり学習は、確固とした正解のある問題を自動的に解決させたいときに有効な学習法であると言えます。

教師なし学習

一方の教師なし学習は、正解ラベルを付けることなくデータを投入する学習法です。AIが入力データの規則性や傾向を分析し、大量のデータの中から似ているものをグルーピングします。教師なし学習の典型例としては、購買情報を基に顧客を分類するタイプが挙げられます。
教師なし学習は、正解のないタスクに適用されます。膨大なデータから特徴を把握し、大まかにグルーピングしたい場合に有効な学習法であると言えます。

強化学習とディープラーニングの違い

強化学習とディープラーニング（深層学習）は、どちらもAIに学習させるための手段です。ただしその学習方法が若干異なっています。

強化学習は、コンピュータを動かすために人間の命令を必要としています。何を学習するかまではコンピュータが判断するわけではありません。それに対してディープラーニングでは、コンピュータ自身が注目すべきポイントを入力データの中に見つけ出し、自ら分析して学習を進めます。

強化学習では学習プロセスに人間の手を必要とするのに対し、ディープラーニングでは必要としません。この点が両者の違いです。ディープラーニングでは、人間の脳を模倣した「ニューラルネットワーク」というネットワーク構造が使用されているため、ディープラーニングの方がより人間の学習スタイルに近いと言えます。

結果を最大化する強化学習の仕組み

強化学習についてもう少し詳しく見ていきましょう。特にプログラミングの考え方、具体的な手法について紹介します。

強化学習のプログラミングのポイント

強化学習には、状態・行動・報酬の3要素が必要です。

状態：現在の環境がどうなっているか把握する
行動：現在の環境に対してどのような行動ができるのかを表す
報酬：行動を起こした結果、どのくらいの報酬が得られるかを表す

状態と行動を踏まえて、将来的に最大の報酬を実現できるような行動を選択していくように学習させるのが強化学習となります。目先の利益ではなく、未来を見据えたときの利益の最大化を目的とすることがポイントです。

強化学習は特定の環境を与えることで機能します。学習するプレイヤーを「エージェント」と呼びます。

強化学習の主な手法

強化学習の具体的なアルゴリズムにはいくつかありますが、ここでは代表例としてQ学習・Sarsa・モンテカルロ法の3つを紹介します。いずれも「ある状態である行動を採用したときの価値＝報酬」を「Q値」と呼び、このQ値の最大化を目的とした関数です。これらのアルゴリズムを実装するプログラミング言語として、「Python」がよく知られています。

・Q学習

Q学習では、ある状態で取ることのできる行動の価値として数字を計算して評価し、その中から最大の値を「次のQ値」とします。最初の段階ではある状態と行動の組み合わせに対するQ値は分かっていませんから、試行錯誤を繰り返すことで正しいQ値を学習していくわけです。これによってQ値の推定能力を高めます。
先ほど紹介したAlphaGoでは、ディープラーニングを用いてQ学習を行わせる「Deep Q-Network（DQN）」というAIが採用されていました。全く囲碁の定石を知らないところから人知を越えたスピードで試行錯誤を進め、あっという間にトップ棋士を超える実力を身に付けたことでその名を世界にとどろかせたのでした。