はじめに

このページでは,オープンソースのソフト「R」を使ってデータを分析するための方法を説明する。Rについての解説ページは多数あるが,とくに社会科学系分野におけるレポートや卒業論文の作成のためのデータ分析を想定して説明する。現在のところ,体系的な内容というよりは,思いついた部分から執筆しているため,いろいろな資料と合わせて読んでほしい。

とくにおすすめのページは以下。

ビジネスにおいても,学術研究においても,データ分析は最も重要なツールである。一定のスキルを身につけておけば,さまざまな分野で応用することができる。そのためには,統計学の理論を勉強することも重要だが,実際にデータを収集して整理し分析することができなければせっかくの理論も役に立たない。理論と実践をバランス良く学ぶことが重要。

ExcelではなくRを使うことのメリットは,まず自分でコードを書くことで効率的で柔軟な分析ができること。Excelはあくまで表計算ソフトであり,統計データを分析するための機能は限定的。Excelでも「分析ツール」などの機能を用いれば一通りの分析はできるが,無理してExcelでやろうとするメリットは少ない (Excelにはほかに使い途がある)。

より重要なのは分析結果の再現性を担保しやすいこと。Excelは,ファイルを見てもデータをどのように整理,加工して,分析したかという作業のプロセスがわかりづらく,同じ元データから同じ分析結果を再現するためには,作業の1つ1つをメモに残すなどの工夫が必要。それに対して,Rは作業のプロセスをコードとして残しておけば,同じ元データに対して同じコードを実行することで結果を再現することが可能。

Rはオープンソースのデータ分析ソフトウェアなので,だれでも無料で利用できる。全世界に多数のユーザーがいるため,使い方などについてさまざまな情報がインターネットで手に入る。また,最新の分析手法を用いるためのパッケージが絶えず開発されリリースされており,おカネをかけずに自力で最新のデータ分析環境を構築することができる。

もちろん,統計分析のソフトウェアはR一択というわけではない。とくに機械学習の分野ではPythonを使っている人も多い。最近ではJuliaという言語も注目されている。有償のソフトウェアとしては,SPSSやStata,SASなどがある。どのような分野のデータを分析するのかや,どのような分析手法を用いるのかによって最適なソフトウェアは異なるが,まずは無償で環境の構築ができるRかPythonからはじめてみるのが良いだろう。できれば,メインで利用するソフトウェアとは別に,もう1つか2つのソフトウェアを使いこなせるようにしておくと,ほかの人との共同作業もスムーズに進むだろう。