コンテンツにスキップ

第1章 データサイエンスとは?

1 データサイエンス

データサイエンスとは大量のデータを整理、分析することで、問題の解決策を得るものです。そのために統計などの数学的手法や、機械学習などを用います。

データサイエンスに取り組む人をデータサイエンティストと言います。データサイエンティストに必要な能力は統計学・数学などの知識、プログラミングなどのエンジニア能力、ビジネスの問題を見つけ、解決を探る洞察力などです。

何らかの問題に対し、データを収集し、それを統計的に分析し、解決案を導き出します。

データサイエンティストは専門の職種としての需要が増えており、また、一般のビジネスマンでもデータサイエンティスト的な思考・行動が求められています。

2 PPDAC

データ分析の手順は一般的にPPDACサイクルで行われます。

  1. Problem 問題把握 どういう問題があるのかを明確にし、仮説を立てます。 例:早生まれはスポーツが苦手なのではないか?
  2. Plan 調査計画 どのようなデータを集めるか計画を立てます。 例:プロスポーツ選手の生年月日を集める。
  3. Data データ収集 実際に様々な方法でデータを収集します。
  4. Analysys 分析 Pythonなどのデータ分析機能でデータを分析します。 例:生まれた月ごとの件数を棒グラフ化
  5. Conclusion 結論 分析した結果から結論を導き出します。

5でうまく解決できなかった場合、再び問題把握から行います。

3 準備

VisualStudio Codeで拡張機能 Jupyterをインストールします。

ファイル sample.ipynb を作成し開きます。 拡張子 .ipynbファイルは枠(セル)の中にPythonプログラムを書き、セル横の実行ボタンまたはShift+Enterで実行します。

1+2

初回実行時には「拡張機能の候補をインストールまたは有効にする」の選択肢が表示されるのでそれを選択し。その後「Python 環境」を選択し既存のPythonのバージョンを選択します(ファイアウォールの警告はキャンセルします)。そして、「インストール」ボタンを押してインストールします。

「+コード」を押すことで、セルが増えていきます。 変数はそのまま書けば表示されます。

num=3+5
num

ただし、式が自動表示されるのは最後のみです。

また、ターミナルから必要なライブラリをインストールしておきます。

pip install pandas lxml matplotlib seaborn scipy