はじめに
このページでは,オープンソースのソフト「R」を使ってデータを分析するための方法を説明する。Rについての解説ページは多数あるが,とくに社会科学系分野におけるレポートや卒業論文の作成のためのデータ分析を想定して説明する。現在のところ,体系的な内容というよりは,思いついた部分から執筆しているため,いろいろな資料と合わせて読んでほしい。
とくにおすすめのページは以下。
- 立命館大学の森先生による「卒業論文のためのR入門」
- 関西大学の宋先生と高知工科大学の矢内先生による「私たちのR:ベストプラクティスの探求」
- 北海道大学の土居先生による「Rで計量政治学入門」
ビジネスにおいても,学術研究においても,データ分析は最も重要なツールである。一定のスキルを身につけておけば,さまざまな分野で応用することができる。そのためには,統計学の理論を勉強することも重要だが,実際にデータを収集して整理し分析することができなければせっかくの理論も役に立たない。理論と実践をバランス良く学ぶことが重要。
データを分析するなら,Excelでもできると思うかもしれない。実際,「分析ツール」などの機能を用いれば,Excelでも一通りの分析ができる。しかし,Excelは基本的にデータを分析するためのソフトウェアではないので,大規模なデータを扱ったり,高度な分析を行ったりするのであれば,Rをはじめとする専用のソフトウェアを使う方が簡単で効率的。無理してExcelでやろうとするメリットは少ない (Excelにはほかに使い途がある)。
Rはオープンソースのデータ分析ソフトウェア。だれでも無料で利用できる。全世界に多数のユーザーがいるため,使い方などについてさまざまな情報がインターネットで手に入る。また,最新の分析手法を用いるためのパッケージが絶えず開発されリリースされており,おカネをかけずに自力で最新のデータ分析環境を構築することができる。
もちろん,統計分析のソフトウェアはR一択というわけではない。とくに機械学習の分野ではPythonを使っている人も多い。最近ではJuliaという言語も注目されている。有償のソフトウェアとしては,SPSSやStata,SASなどがある。どのような分野のデータを分析するのかや,どのような分析手法を用いるのかによって最適なソフトウェアは異なるが,まずは無償で環境の構築ができるRかPythinからはじめてみるのが良いだろう。できれば,メインで利用するソフトウェアとは別に,もう1つか2つのソフトウェアを使いこなせるようにしておくと,ほかの人との共同作業もスムーズに進むだろう。