コンテンツにスキップ

1 DataFrame

1.1 DataFrameの基本

DataFrameは表データを扱う型です。 利用するためにはpandasをインストールします。以下はそのほか必要なものも含めてインストールするコマンドです。ターミナルで実行します。

pip install pandas lxml matplotlib seaborn

DataFrameを使うにはまずインポートを行います。別名は慣習でpdとします。

import pandas as pd

DataFrameはcsvファイルを以下のようにして読み込めます。

df =  pd.read_csv("dogcat.csv")
df

列を抜き出す場合、df[列名のリスト]で行います。

df[['体高','体重']]

抜き出されたデータもDataFrame型になるので、別途変数に入れて格納が可能です。

x = df[['体高','体重']]
x

一列だけの場合、df[列名]で指定します。ただし、この場合、Seriesというデータ型になります。

df['種類']

DataFrameと違い、Seriesは行と列ではなく行(インデックス)と値だけで構成されます。

DataFrameは平均など統計量を表示できます。以下は体高の平均点を表示します。

df['体高'].mean()

他にもmedianで中央値、maxで最大値、minで最小値が分かります。このような基本統計量を一括して表示するのが、describe()です。

df.describe()

DataFrameの列や行の削除は dropで行います。引数axisを1にすると列、0にすると行になります(0がデフォールト)。

df.drop('種類', axis=1)

なお、dropは削除した結果を返しているだけで、dfの中身は削除されません。削除したデータを後で使いたいなら変数に入れる必要があります。

df2 = df.drop('種類', axis=1)
df2

1.2 グラフ

グラフを表示するには、まず、seabornをインポートし、フォントをセットします。

import seaborn as sns
sns.set(font=["Meiryo"])

あとは、df.plot()で折れ線グラフが表示されます。

df.plot()

それ以外のグラフは df.plot.bar() のように、plot.グラフの種類() で表示されます。

df.plot.bar()

barh で横棒グラフ、boxで箱ひげ図、histでヒストグラム、scatterで散布図が表示されます。散布図の場合、xとyで列を指定します。

df.plot.scatter(x="体高",y="体重")

全列の散布図を表示する散布図行列はsns.pairplotで表示されます。

sns.pairplot(data=df)

また、グラフにタイトルを付けるにはmatplotlibをインポートしてplt.titleで付けます。

import matplotlib.pyplot as plt
df.plot.bar()
plt.title('犬と猫')