「Python 3 エンジニア認定データ分析試験」に合格したことに安心し、データ分析への取組が疎かになっていたので、改めてデータ分析に取り組んでいこうと思います。
データ分析の始めるにあたって
Python 3 エンジニア認定データ分析試験で学んだところによると、データ分析とは以下の流れで行われるものだそうです。
- 目的の明確化
- 仮説を立てる
- データを準備する
- データを分析する
正直に申し上げて、それぞれ実際に何をするべきかよくわかりませんので、上記の流れにおいて何をすればいいのか調べてみました。
やるべきこと
目的の明確化
なぜデータ分析をするのか明確にすることが求められます。
どんなデータを分析して、何を明らかにするのか?を決定するタスクです。
私の目的は「副業・独学」ですが、データ分析には繋がりそうにありませんので、私のデータ分析の目的はブログを書き続ける過程で定めていきたいと思います。
仮説を立てる
どんなデータを分析するか決めたら、分析対象のデータについて仮説を立てます。
私は野球が好きなので、とりあえず以下のような仮説を立ててみました。
「ホームラン」をたくさん打ったチームが「優勝」する
データを準備する
ここで言うデータの準備とは、データ分析できる状態のデータを準備することです。
以下の2ステップを行います。
データの収集
仮説の検証に必要なデータを集めます。
さきほどの仮説に則ると、私はシーズン毎の「チーム本塁打数」と「優勝したチーム」のデータを集める必要がありそうです。
データの加工
収集したデータに対して、以下の作業を行い、データを分析できる状態にしていきます。
- 誤りや不備の修正(=クリーニング)
- 欠損値の補完(=欠けているデータの補完)
- 正規化(=データの尺度を揃える)
これの作業が得意なのがPythonのデータ分析ライブラリ「Pandas」です!
データを分析する
分析手法の決定
どんな手法を用いて仮説を検証するのか決定します。
私の仮説を検証するには「相関分析」を行う必要がありそうです。
相関分析とは
相関分析とは、2変数間の関係を数値で記述する分析方法のことである。また、その2変数間の関連の強さを数値で表したものを相関係数と言う。
出典:株式会社マクロミル
コードの実装
Python等のプログラミング言語を用いて、準備したデータを決定した手法で検証していきます。
まとめ
データ分析は「目的の明確化」、「仮説を立てる」、「データを準備する」、「データを分析する」の4ステップです。
次回は実際にプロ野球の「本塁打数」と「優勝チーム」のデータを準備してデータを解析してみたいと思います。