1 DataFrame
1.1 DataFrameの基本
DataFrameは表データを扱う型です。 利用するためにはpandasをインストールします。以下はそのほか必要なものも含めてインストールするコマンドです。ターミナルで実行します。
pip install pandas lxml matplotlib seaborn
DataFrameを使うにはまずインポートを行います。別名は慣習でpdとします。
import pandas as pd
DataFrameはcsvファイルを以下のようにして読み込めます。
df = pd.read_csv("dogcat.csv")
df
列を抜き出す場合、df[列名のリスト]で行います。
df[['体高','体重']]
抜き出されたデータもDataFrame型になるので、別途変数に入れて格納が可能です。
x = df[['体高','体重']]
x
一列だけの場合、df[列名]で指定します。ただし、この場合、Seriesというデータ型になります。
df['種類']
DataFrameと違い、Seriesは行と列ではなく行(インデックス)と値だけで構成されます。
DataFrameは平均など統計量を表示できます。以下は体高の平均点を表示します。
df['体高'].mean()
他にもmedianで中央値、maxで最大値、minで最小値が分かります。このような基本統計量を一括して表示するのが、describe()です。
df.describe()
DataFrameの列や行の削除は dropで行います。引数axisを1にすると列、0にすると行になります(0がデフォールト)。
df.drop('種類', axis=1)
なお、dropは削除した結果を返しているだけで、dfの中身は削除されません。削除したデータを後で使いたいなら変数に入れる必要があります。
df2 = df.drop('種類', axis=1)
df2
1.2 グラフ
グラフを表示するには、まず、seabornをインポートし、フォントをセットします。
import seaborn as sns
sns.set(font=["Meiryo"])
あとは、df.plot()で折れ線グラフが表示されます。
df.plot()
それ以外のグラフは df.plot.bar() のように、plot.グラフの種類() で表示されます。
df.plot.bar()
barh で横棒グラフ、boxで箱ひげ図、histでヒストグラム、scatterで散布図が表示されます。散布図の場合、xとyで列を指定します。
df.plot.scatter(x="体高",y="体重")
全列の散布図を表示する散布図行列はsns.pairplotで表示されます。
sns.pairplot(data=df)
また、グラフにタイトルを付けるにはmatplotlibをインポートしてplt.titleで付けます。
import matplotlib.pyplot as plt
df.plot.bar()
plt.title('犬と猫')