Wednesday, December 26, 2012

マルコフ行列の中の著者達 Part 2 (1): どの著者がもっとも人々に影響を与えたのか? 実験編


今回から Part 2 の実験編である.これまではどうやって最初の疑問,「どの著者がもっとも人々に影響を与えたのか?」について考えてきた.Part 2 ではついにこの答えについて述べる.

著者間の関係の解析

著者グラフの作成方法

著者間の関係を eigenanalysis を用いて実際に解析してみる.まずは著者間の隣接関係を作成する必要がある.もちろん私が手で作成しても良いのであるが,日本の著名な著者だけでもおそらく千人は下らない人数がいるであろう.その著者間の関係を調べ挙げるだけで,私の生涯の趣味の時間では不足するだろう.このグラフのデータを簡単に入手することはできないだろうかと考えた.Web 上のデータで使えるものはないかと考えた時,Wikipedia の Link 関係が良いのではないかと思い,これを利用してみた.

本実験の前提

Wikipedia の著者の Page にある Link 関係は著者間の関係を示していると仮定する.
この前提に異論があることは確実であろう.まず,著者間の関係とは何か,というような問題に戻ることになる.したがって,ここでは著者間の関係はWikipedia の Link 関係として与えられるものと定義する.直感的には,「Wikipedia の筆者らが link を張った著者間には,Wikipedia の筆者らが,著者間に関係があると考えたからである.」と考えても良いと我々は思ったからである.この仮定が認められない場合には以下の議論は全て成立しない.今後,より良い手法が出てきた際にはこの前提を再考する必要があるであろう.

この前提に基き,Wikipedia のリンクの関係を著者間の隣接関係として,固有値問題を解くことにする.

この方法には次のような利点と欠点がある.

利点:


  1. 大量のデータが既に利用可能
  2. ある程度の review がなされている
  3. 人間によって書かれているので,リンク構造には意味があることが予想できる

欠点:


  1. リンク構造の誤りがある可能性がある
  2. 特定の Wikipedia の著者による bias がある可能性がある
  3. Wikipedia の編集方針による bias がある可能性がある

ここで私は大量のデータが既に利用可能であるという利点を最大限に活用することにした.欠点 1 は避けられない問題であり,欠点 2 に関しては現時点で私には学術的に立証された関係グラフを入手不可能なためこれも避けられない.欠点3 には編集上の bias とは何かという定義を考える必要がある.我々が何らかのbias があると考えても,それはいったい何に基づくものなのだろうか.もしbias が主観でしか論じられないものである場合,それは観測者(実験者)の biasになってしまう可能性がある.つまり我々が勝手に Wikipedia の情報を操作することになる危険性を含んでいることに我々は注意する必要がある.とはいえ,この研究は我々の趣味なので,我々がここでどのような操作をしたか明記する限り,問題はないであろう.この問題に関しては,「こういう bias があるようなので,こうやって回避してみた.」という形で述べることになろう.

しかしどの欠点にしても,リンク構造の誤りという考えに帰着できる.これは利用できるデータが一種類しかなければ検出することが難しい.しかし,Wikipedia のデータは一種類しかないのだろうか.いや,あるではないか.日本の著者に関するデータは英語の Wikipedia にもドイツ語の Wikipedia にもある.したがってこれらを比較することでリンク構造の誤りを検出可能かもしれない.もちろん,日本の作家に関しては日本語の Wikipedia の方が情報は豊富である.また,英語の Wikipedia は日本語のWikipedia の翻訳である可能性もある.つまり,これらは独立したデータではない可能性はある.英語の Wikipedia が日本語の Wikipedia の忠実な翻訳である場合,両者には同じ誤りが含まれるために誤りを検出することができない.しかし,完全に独立したデータではないにせよ,完全に同じデータでもないことは確実である.そこで,データセット間に依存関係がある可能性は注意しておく.

No comments:

Post a Comment