Skip to main content

マルコフ行列の中の著者達 Part 2 (1): どの著者がもっとも人々に影響を与えたのか? 実験編


今回から Part 2 の実験編である.これまではどうやって最初の疑問,「どの著者がもっとも人々に影響を与えたのか?」について考えてきた.Part 2 ではついにこの答えについて述べる.

著者間の関係の解析

著者グラフの作成方法

著者間の関係を eigenanalysis を用いて実際に解析してみる.まずは著者間の隣接関係を作成する必要がある.もちろん私が手で作成しても良いのであるが,日本の著名な著者だけでもおそらく千人は下らない人数がいるであろう.その著者間の関係を調べ挙げるだけで,私の生涯の趣味の時間では不足するだろう.このグラフのデータを簡単に入手することはできないだろうかと考えた.Web 上のデータで使えるものはないかと考えた時,Wikipedia の Link 関係が良いのではないかと思い,これを利用してみた.

本実験の前提

Wikipedia の著者の Page にある Link 関係は著者間の関係を示していると仮定する.
この前提に異論があることは確実であろう.まず,著者間の関係とは何か,というような問題に戻ることになる.したがって,ここでは著者間の関係はWikipedia の Link 関係として与えられるものと定義する.直感的には,「Wikipedia の筆者らが link を張った著者間には,Wikipedia の筆者らが,著者間に関係があると考えたからである.」と考えても良いと我々は思ったからである.この仮定が認められない場合には以下の議論は全て成立しない.今後,より良い手法が出てきた際にはこの前提を再考する必要があるであろう.

この前提に基き,Wikipedia のリンクの関係を著者間の隣接関係として,固有値問題を解くことにする.

この方法には次のような利点と欠点がある.

利点:


  1. 大量のデータが既に利用可能
  2. ある程度の review がなされている
  3. 人間によって書かれているので,リンク構造には意味があることが予想できる

欠点:


  1. リンク構造の誤りがある可能性がある
  2. 特定の Wikipedia の著者による bias がある可能性がある
  3. Wikipedia の編集方針による bias がある可能性がある

ここで私は大量のデータが既に利用可能であるという利点を最大限に活用することにした.欠点 1 は避けられない問題であり,欠点 2 に関しては現時点で私には学術的に立証された関係グラフを入手不可能なためこれも避けられない.欠点3 には編集上の bias とは何かという定義を考える必要がある.我々が何らかのbias があると考えても,それはいったい何に基づくものなのだろうか.もしbias が主観でしか論じられないものである場合,それは観測者(実験者)の biasになってしまう可能性がある.つまり我々が勝手に Wikipedia の情報を操作することになる危険性を含んでいることに我々は注意する必要がある.とはいえ,この研究は我々の趣味なので,我々がここでどのような操作をしたか明記する限り,問題はないであろう.この問題に関しては,「こういう bias があるようなので,こうやって回避してみた.」という形で述べることになろう.

しかしどの欠点にしても,リンク構造の誤りという考えに帰着できる.これは利用できるデータが一種類しかなければ検出することが難しい.しかし,Wikipedia のデータは一種類しかないのだろうか.いや,あるではないか.日本の著者に関するデータは英語の Wikipedia にもドイツ語の Wikipedia にもある.したがってこれらを比較することでリンク構造の誤りを検出可能かもしれない.もちろん,日本の作家に関しては日本語の Wikipedia の方が情報は豊富である.また,英語の Wikipedia は日本語のWikipedia の翻訳である可能性もある.つまり,これらは独立したデータではない可能性はある.英語の Wikipedia が日本語の Wikipedia の忠実な翻訳である場合,両者には同じ誤りが含まれるために誤りを検出することができない.しかし,完全に独立したデータではないにせよ,完全に同じデータでもないことは確実である.そこで,データセット間に依存関係がある可能性は注意しておく.

Comments

Popular posts from this blog

共有メモリによるプロセス間通信

Unix の共有メモリを使ったプロセス間通信について調べて実験をしてみた.対象は1つのホスト上での複数のプロセスである.ネット上でいくつか例題はないかと探したが,どうも良い例となるコードが見当たらなかった.結局はある解説記事と,Stack Overflow の議論と,man page を見て作ってみたものになったので,例をここに置くのも有用かと考え,この記事を書く.(もしかしたら探し方が悪くて良いコード例をみつけられなかっただけかもしれない.) mmap を使うかどうかという話がいくつもでていたが,POSIX の方向としては,shmem_open と mmap を使うという方向があるということだったので,それを信じてその形での実装を試してみた. 基本的なコードの流れは次のようになる. 共有メモリ領域を1つのプロセスが shm_open() を使って作成する.その際に,プロセス間で共通の文字列を識別子(``identifier'')とする.(Linux ではこれが /dev/shm/identifier のように見える.) 共有メモリ領域を mmap() でメモリにマップする.共有メモリポインター (shared_ptr)が得られる. shared_ptr を使って複数のプロセスで通信をする. 利用終了後は munmap() をつかってマップを消す. 共有メモリオブジェクトを shm_unlink() によって消す. 以下に示すプログラムは,server と client の2つのプロセスが共有メモリを使って通信をするものである.ここで,server プロセス数と client プロセス数は共に 1 を仮定する.server と client は自分の領域にしか値を書き込まないことで,ロックを避けている.互いに相手の値を読み,それよりも1大きい数を一定の期間ごとに自分の領域に書くという例題である.シンプルではあるが,共有メモリで通信をする基本としては十分なものだと思う.ソースコード(shmem_test.cpp)を以下に付加する.ソースコードのコメントにコンパイル方法とどのように利用するかを書いておく. /*   Shared memory inter process communication minimal exa

複数の線を持つ線グラフを Jenkins の plot plugin で描く方法

私は毎夜のソフトウェアテストを自動化するために Jenkins というツールを使っています.今回は, valgrind  を使ってメモリーリークのテストを自動化することにし ました.その際,エラーの数の結果をグラフとして表そうと思って, Plot plugin  を使うことにしました. Plot plugin の例図からは,複数のデータラインを描くことができるのは明らかなのですが,どうやったらいいのかは参照のページや,例としてあった Perl script,plugin 中の help からは私にはよくわからなかったのです. ここで重要な考えは,それぞれのデータラインにはそれぞれの出力ファイルが必要ということでした.私はこれを誤解していました. 例として,ビルドの時に次の property データファイルを出力します.それぞれのファイルが1つのデータラインを表します. valgrind_trunk_result.definitely.property valgrind_trunk_result.indirectly.property valgrind_trunk_result.possibly.property それぞれのデータの中身は1行のデータ点です.たとえば, valgrind_trunk_result.definitely.property ファイルの中身は次のような1行 です. YVALUE=0 このファイルを ${WORKSPACE} ディレクトリ以下に出力します.ここで," WORKSPACE " は jenkins が提供する環境変数です. 図1が私の plot plugin の設定を示しています.これは jenkins の config 画面です.3つの data series があって,それぞれにデータファイルがあります. Figure 1: Plot plugin configuration in Jenkins 図2が結果です.複数の線が描かれているのがわかります.(実際には 3 本の線がありますが,最初の線と2番目の線が同じデータなので,重ねって見えません.) Fugure 2: Plot data with multiple data lines

ソニーのカメラ (α 5000) の 30 分のビデオ録画時間の制限を外す方法

私は Sony の Alpha 5000 を気にいって使っています。しかし一つだけ問題がありました。それはビデオの録画時間の制限が 30 分というものです。 今日,ちょっと気になって探したらこの制限を解除できることがわかりました。以下のビデオがその紹介です。 https://youtu.be/7cstA_PuRIg このビデオの作者によれば,ほとんどのソニーのカメラのビデオの制限はなくせるそうです。ただし私が試したのは,Alpha 5000 のみです。 手順 カメラ側 スイッチ On Menu -- Setup --- USB connection を MTP にする スイッチ Off and On USB ケーブルでカメラをコンピュータに接続する (以下接続したままにする) コンピュータ側でソフトのダウンロードとインストール (私は Windows 10 で試しました) 次の URL に行く https://sony-pmca.appspot.com/apps ただし,Internet Explorer か Safari のみサポートということでした。Chrome では上手くいきませんでした。私が試したのは Windows 10,Internet Explore 11 です。 注意事項: このサイトは Sony のサイトですが,ここにあるソフトウェアは Sony のものとは限らないので保証はありません。御自分でリスクを判断してご利用下さい。当方も何も責任を負えません。 上記の URL から,OpenMemories のページに移動する。 このページにある PMCADownloader plugin (PMCADownloader.msi) をダウンロードする PMCADownloader をインストールする 私はいちどここでページを閉じてもう一度 https://sony-pmca.appspot.com/apps を開き,OpenMemories のページに移動しました ここで log に Loading plugin Plugin loaded と表示されます。PMCADownloader の Install がされていない時には,``Plugin loaded'&#