はじめに

このページでは,オープンソースのソフト「R」を使ってデータを分析するための方法を説明する。Rについての解説ページは多数あるが,とくに社会科学系分野におけるレポートや卒業論文の作成のためのデータ分析を想定して説明する。現在のところ,体系的な内容というよりは,思いついた部分から執筆しているため,いろいろな資料と合わせて読んでほしい。

とくにおすすめのページは以下。

ビジネスにおいても,学術研究においても,データ分析は最も重要なツールである。一定のスキルを身につけておけば,さまざまな分野で応用することができる。そのためには,統計学の理論を勉強することも重要だが,実際にデータを収集して整理し分析することができなければせっかくの理論も役に立たない。理論と実践をバランス良く学ぶことが重要。

データを分析するなら,Excelでもできると思うかもしれない。実際,「分析ツール」などの機能を用いれば,Excelでも一通りの分析ができる。しかし,Excelは基本的にデータを分析するためのソフトウェアではないので,大規模なデータを扱ったり,高度な分析を行ったりするのであれば,Rをはじめとする専用のソフトウェアを使う方が簡単で効率的。無理してExcelでやろうとするメリットは少ない (Excelにはほかに使い途がある)。

Rはオープンソースのデータ分析ソフトウェア。だれでも無料で利用できる。全世界に多数のユーザーがいるため,使い方などについてさまざまな情報がインターネットで手に入る。また,最新の分析手法を用いるためのパッケージが絶えず開発されリリースされており,おカネをかけずに自力で最新のデータ分析環境を構築することができる。

もちろん,統計分析のソフトウェアはR一択というわけではない。とくに機械学習の分野ではPythonを使っている人も多い。最近ではJuliaという言語も注目されている。有償のソフトウェアとしては,SPSSやStata,SASなどがある。どのような分野のデータを分析するのかや,どのような分析手法を用いるのかによって最適なソフトウェアは異なるが,まずは無償で環境の構築ができるRかPythinからはじめてみるのが良いだろう。できれば,メインで利用するソフトウェアとは別に,もう1つか2つのソフトウェアを使いこなせるようにしておくと,ほかの人との共同作業もスムーズに進むだろう。