第1章 データサイエンスとは?
1 データサイエンス
データサイエンスとは大量のデータを整理、分析することで、問題の解決策を得るものです。そのために統計などの数学的手法や、機械学習などを用います。
データサイエンスに取り組む人をデータサイエンティストと言います。データサイエンティストに必要な能力は統計学・数学などの知識、プログラミングなどのエンジニア能力、ビジネスの問題を見つけ、解決を探る洞察力などです。
何らかの問題に対し、データを収集し、それを統計的に分析し、解決案を導き出します。
データサイエンティストは専門の職種としての需要が増えており、また、一般のビジネスマンでもデータサイエンティスト的な思考・行動が求められています。
2 PPDAC
データ分析の手順は一般的にPPDACサイクルで行われます。
- Problem 問題把握 どういう問題があるのかを明確にし、仮説を立てます。 例:早生まれはスポーツが苦手なのではないか?
- Plan 調査計画 どのようなデータを集めるか計画を立てます。 例:プロスポーツ選手の生年月日を集める。
- Data データ収集 実際に様々な方法でデータを収集します。
- Analysys 分析 Pythonなどのデータ分析機能でデータを分析します。 例:生まれた月ごとの件数を棒グラフ化
- Conclusion 結論 分析した結果から結論を導き出します。
5でうまく解決できなかった場合、再び問題把握から行います。
3 準備
VisualStudio Codeで拡張機能 Jupyterをインストールします。
ファイル sample.ipynb を作成し開きます。 拡張子 .ipynbファイルは枠(セル)の中にPythonプログラムを書き、セル横の実行ボタンまたはShift+Enterで実行します。
1+2
初回実行時には「拡張機能の候補をインストールまたは有効にする」の選択肢が表示されるのでそれを選択し。その後「Python 環境」を選択し既存のPythonのバージョンを選択します(ファイアウォールの警告はキャンセルします)。そして、「インストール」ボタンを押してインストールします。
「+コード」を押すことで、セルが増えていきます。 変数はそのまま書けば表示されます。
num=3+5
num
ただし、式が自動表示されるのは最後のみです。
また、ターミナルから必要なライブラリをインストールしておきます。
pip install pandas lxml matplotlib seaborn scipy