はじめに
このページでは,統計分析ソフト「R」を使った社会科学系分野におけるデータ分析について説明する。Rについての解説ページは多数あるが,とくにDockerを使って研究環境を準備する部分に重点を置いている。現在のところ,体系的な内容というよりは,思いついた部分から執筆しているため,いろいろな資料と合わせて読んでほしい。
とくにおすすめのページは以下。
- 関西大学の宋先生と高知工科大学の矢内先生による「私たちのR:ベストプラクティスの探求」
- 静岡理工科大学の津田裕之先生による「Rによる統計入門」
- 北海道大学の土居先生による「R/Pythonで計量政治学入門」
- 立命館大学の森先生による「卒業論文のためのR入門」
ビジネスにおいても,学術研究においても,データ分析は重要なツール。一定のスキルを身につけておけば,さまざまな分野で応用することができる。そのためには,統計理論を勉強することも重要だが,実際にデータを収集して整理し分析することができなければせっかくの理論も役に立たない。理論と実践をバランス良く学ぶことが重要。
ExcelではなくRを使うことのメリットは,自分でコードを書くことで柔軟な分析ができること。Excelはあくまで表計算ソフトであり,統計データを分析するための機能は限定的。もちろん,Excelでもマクロや分析ツールを用いればかなりのことができるが,Rを使えば同じことがもっと簡単にできるので,無理してExcelでやろうとするメリットは少ない (Excelにはほかに使い途がある)。
より重要なのは分析結果の再現性を担保しやすいこと。Excelは,作業済みのファイルを見ても,データをどのように整理,加工して,分析したかという作業のプロセスがわかりづらい。そのため,同じ元データから同じ分析結果を再現するためには,作業プロセスの1つ1つをメモに残すなどの工夫が必要。それに対して,Rは作業のプロセスをコードとして残しておけば,同じ元データに対して同じコードを実行することで結果を再現することが可能。
Rはオープンソースなので,だれでも無料で利用できる。全世界に多数のユーザーがいるため,使い方などについてさまざまな情報がインターネットで手に入る。また,最新の分析手法のパッケージが絶えず開発されリリースされており,おカネをかけずに最新のデータ分析環境を構築することができる。
もちろん,統計分析のソフトウェアはR一択というわけではない。とくに機械学習の分野ではPythonを使っている人も多い。最近ではJuliaという言語も注目されている。有償のソフトウェアとしては,SPSSやStata,SASなどがある。どのような分野のデータを分析するのかや,どのような分析手法を用いるのかによって最適なソフトウェアは異なるが,まずは無償で環境の構築ができるRかPythonからはじめてみるのが良いだろう。できれば,メインで利用するソフトウェアとは別に,もう1つソフトウェア (言語)を使えるようにしておくと,ほかの人との共同作業もスムーズに進むだろう。