Tomokazu NOMURA
Toggle Dark/Light/Auto mode Toggle Dark/Light/Auto mode Toggle Dark/Light/Auto mode Back to homepage

卒業論文のためのデータ収集

研究のはじめ方

卒業論文で実証分析を行うために重要なのは,仮説データです。 仮説というのは,何を確かめたいのか,何を主張したいのかということです。 たとえば,「最低賃金の上昇により若年労働者の失業率が上がる」とか, 「緊急事態宣言は感染の抑制には効果がある」といった仮説を立てることから研究がスタートします。

仮説を立てるときに気をつけなければいけないことがいくつかあります。 一つは,自分がその仮説について本当に重要だと考えているか,あるいは面白いと思っているかということです。 何かを研究して論文を執筆するということは,山あり谷ありの大変な仕事です。 ですから,まず自分が楽しんで研究できるようなテーマを選ぶことが重要です。

もう一つは,自分が立てた仮説は,正しいか否かを判断できるものかどうかということです。 たとえば,「女性の社会進出について」や,「コロナ後の社会のあり方」などといったテーマは, もちろん重要ではありますが,何を明らかにしようとしているかわかりません。 また,仮説を検証するためのデータや方法があるかどうかも考える必要があります。 (この点については,なかなか自分だけではわからないことも多いので, 指導教員に相談しましょう)

手当たり次第調べたことをまとめるというのでは論文にはならないので, 焦点を絞って具体的にどのような仮説をどのように検証するかという見通しを立てましょう。

データの探し方

仮説を立てたら,次にそれを立証するためのデータを集めます。 残念ながらどのようなデータも簡単に手に入るというわけではありません。 逆に言えばデータを手に入れることができれば,あとは決められた手続きで分析を進めることができるので, 研究としてはかなり進んだということができます。

建前としては,仮説を立てた後にそれを検証するためのデータを探すというのが手順ですが, いろいろなデータを眺めながら検証できそうな仮説を考えるというのも一つの方法です。

以下によく使われるデータをいくつか紹介しますので,まずは一覧してみましょう。 これから知らない地に足を踏み入れるための地図とコンパスになるはずです。

公的データ

まず,公的なデータを見ておくことが重要です。 政府はさまざまな調査を行ってそのデータを公表しています。 データはe-stat(政府統計の総合窓口)というWebサイトに集約されていて, だれでもアクセスできるようになっています。

まずはe-statにアクセスして,キーワード検索を行うか, 分野別のページで使えるデータがないか探してみましょう。

e-statではExcel形式のファイルをダウンロードできるほか, Web上でデータベースを操作して表を作成することも可能です。 また,RやPythonを使えば,APIを用いて大量のデータを自動的に一括取込することも可能です。

また,総務省統計局が毎年,『日本統計年鑑』『日本の統計』『世界の統計』という統計書を発行しています。さまざまなデータがテーマ別にまとめられていますので,使いやすいと思います。内容はすべてWebで公開されていますので,だれでもアクセス可能です。

SSJDA

人々の行動について分析する際には,調査に対して各個人がどのように答えているかがわかった方が良いことは多くあります。そのようなデータのことを個票データといいます。

海外では,個票データが公開されていて,だれでも研究目的で利用できる場合が多いのですが,日本では個票データの利用には大きな制限があります。公的データは集計データしか公開されませんので,個票データを用いた分析はできません(もちろん,集計データを用いてもさまざまな研究は可能です)。

東京大学社会科学研究所の社会調査・データアーカイブ研究センターが提供しているSSJDAは,学生でも比較的簡単に利用できる調査データのアーカイブです。1500件近い調査データが登録されていて,申請すれば個票データを利用できます(ただし,学生は利用不可となっているデータもあります)。利用申請が必要なので,いろいろなデータを借りて試してみるということはできませんが,論文のテーマが決まれば,まずはこのアーカイブをチェックしてみると良いでしょう。

申請してデータが利用できるようになるまでに,それほど時間はかかりません(データにもよると思います)が,利用したい場合には早めに申請した方が良いでしょう。

スポーツのデータ

正確で詳細なデータを入手できるのがスポーツです。社会科学の分野でもスポーツのデータを用いた研究はよく行われています。相撲に八百長があることを示したスティーブン・レビット(『ヤバい経済学』の著者)という経済学者の論文は,世界で最も権威のある経済学分野の学術誌の一つであるAmerican Economic Reviewに掲載されました。

プロ野球は細かいスコアブックなども手に入るようです。競輪や競艇については,全レースの結果が入手可能です。