Sunday, December 30, 2012

マルコフ行列の中の著者達 Part 2 (7): どの著者がもっとも人々に影響を与えたのか? 実験編


前回までに結果の上位 40 位の表を掲載した.この表を眺めているといろいろと興味深いので,まずは名前をざっとご覧になられると良いと思う.ここからはこれまでに掲載した表などに関しての議論を述べる.

議論

Matrix rank

表 3 では,sink rank や外向きのみのリンクを持つノードを除いたにもかかわらず,matrix は full rank ではないことを示している.これはlink 関係に相互リンクのあるいくつかのグループが存在していることを意味する.このようなグループに関する調査は将来の課題とする.

Japanese Wikipedia template bias


最初,日本の Wikipedia での pagerank 計算結果を見たところ,夏目漱石も芥川龍之介も三島由紀夫も森鴎外も全て 100 位以下であった.また,日本の著者に関する結果はドイツ語と英語の Wikipedia の結果とあまりにもかけ離れていた.調べた所,芥川賞受賞者が圧倒的に上位に入っていることが判明した.これは図 5 に示すように,芥川賞受賞者間では相互リンクが張られるからである.受賞者は全ての他の受賞者からリンクを受ける.これによってpagerank が高くなる.そこで今回の計算では受賞者の相互リンクは排除した.その結果が表 12 である.
Figure 5: Award winner cross link bias problem.
この芥川賞のリンクがどのような bias を生んでいるのか興味ある読者のために,まったく Postprocessing 処理をせずに PageRank を計算した結果を表 13 に示す.表 13 の全員が芥川受賞者である(注 1).実際には芥川賞受賞者全員が上位に来る結果となった.この方式では 101 位に初めて芥川賞受賞者でない三島由紀夫が登場する.Bias を除くと,芥川賞受賞者のうち次の 8 人のみが Top 40 に入っている:大江健三郎,松本清張,吉行淳之介,開高健,丸谷才一,古井由吉,石原慎太郎,安岡章太郎.

図 6 にはこの postprocessing をした場合としない場合の Adjacency matrix を示しておく.Matrix の比較をすると,bias と考えられる内部の相互リンクがパターンとして認識できる.より詳しく見るために,図 6 の下図は,この差をとってみた.差は賞の相互リンクを示している.完全に規則的でないのは,芥川賞以外にもいくつかの相互リンクを行う賞(例えば毎日芸術賞)があるからである.
Figure 6: Adjacency matrices. Japanese authors in ja.wikipedia.org. Top: Removed Navbox bias, Middle: No postprocessing, Bottom: difference (middle - top)
Table 13: Japanese author rank result with Navbox. We think this Navbox causes a bias.
次回は Wikipedia におけるカテゴリ問題に関して議論する.

(注 1): 表 13 において,赤瀬川原平は尾辻克彦のペンネームで芥川賞を受賞している.

No comments:

Post a Comment