1 機械学習とは？

1.1 機械学習とは？

従来のプログラミングでは人間が何らかの判定基準をプログラミングで書き、それによって判定を行います。

機械学習では人間の指示では無く、プログラム自身が判定基準を作ります。大量のデータを元に学習し、法則を見つけます。それによって、新規のデータも判定することが出来ます。

機械学習の方法には「教師あり学習」と「教師なし学習」があります。「教師あり学習」では、あらかじめ、そのデータに対する答えがあるデータを元に学習します。「教師なし学習」ではそのような答えが無いデータを使用し、データから関連性があるものを見つけます。

機械学習の手順は一般に以下のように行われます。

学習する元となるデータを用意します。これは大量のデータが望ましいです。ただし、データに不正な値があるかどうかは事前に確認しなければなりません（前処理）。例えば存在しない部分（欠損値）がある場合には、それを何らかの方法で処理します。

どのような方法で機械学習を行うかを決定するアルゴリズムにはいろいろな種類があります。用意したデータと得たい結果にふさわしいものを選択する必要があります。

選択したアルゴリズムを使って用意した学習用データを元に機械学習を行い、法則を見つけ、「モデル」を構築します。「モデル」には、学習データから学んだ結果から得たルールが格納されています。

テストデータを使ってモデルがどこまで正確に予測できるかを評価します。テストデータはあらかじめ答えが分かっているものを用意します。高い正解率になるかを確認します。正解率が低い場合、学習方法やアルゴリズムを見直します。

学習したデータには存在しないデータを用意し、それをモデルを使って予測します。

モデルの種類によっては予測する際にどのような項目が重要だったかを知ることが出来ます。

教師有り学習の場合、教師データは以下のようなデータです。

教師データは２種類の項目に分けられます。入力データと答えです。入力データから答えを導き出す法則を見つけることが機械学習です。

入力データのことを特徴量や説明変数と呼びます。本資料では特徴量と呼ぶことにします。

答えとなるデータのことを目的変数や正解ラベル、あるいは単にラベル、とも呼びます。本資料では正解ラベルと呼ぶことにします。

上のデータは体高や体重を元に種類を導き出すことが出来ますので、体高や体重が特徴量、種類が正解ラベルになります。

モデルとはデータを学習した結果、導き出されたルールを格納しているオブジェクトです。

例えば、犬と猫はどこをどのように見分けるべきかという条件式の集合がモデルの中に格納されています。

ターミナルから必要なライブラリをインストールしておきます。

pip install scikit-learn