« 国際会議WWW2009論文感想その8 | トップページ | 国際会議WWW2009論文感想その10 »

国際会議WWW2009論文感想その9

Anon Plangprasopchok, Kristina Lerman: Constructing folksonomies from user-specified relations on flickr, Proc. of WWW'09, 2009.

Flickrで各ユーザが付けた画像保管のための階層構造を使って,全ユーザで平均化することでtaxonomyを構築する研究.

Flickrでは,写真を好きなグループ名を付けてフォルダの形式(set)で保存することができる.また,それらグループをまとめるための上位のフォルダ(collection)を用いることができる.collectionはさらに数段階用意し階層構造化できる.この各ユーザの階層構造を使って,全ユーザで平均化することで,語のtaxonomyを自動で構築するという研究.

構築方法として,conflict resolution framework (以下,CRF),significance test framework(以下,STF)を提案している.これと,従来手法であるterm subsumption framework(以下,ベースライン)と比較している.CRFはグラフ理論のアプローチから構築する方法である.

ベースラインの方法は,単語a, bがあった時のその上位下位関係は,条件付き確率P(a|b)>P(b|a)であれば,aの方が上位にある確率が高くなる(実際には,単純に大小関係を比較しているだけでなく閾値も設けている).これを利用した方法である.

CRFは,各ユーザが構築した階層構造から,単語の上位下位の関係を取り出す.単語aがbよりも上位であれば,a→bと表す.この頻度を全ユーザで獲得し,この頻度の逆数をエッジの重みとしたネットワークを構築する.このネットワークに対し最小フローパスを発見することでtaxonomyを構築する.

STFは,上位下位関係a→bに着目する.aが起きたときに,次にbが起こるか否かを考える.複数人ユーザがいれば,2項分布となる.単語の出現確率の平均をpとすると,2項分布は平均:np,分散:np(1-p)となる.bがランダムに選ばれたということが有意でないことを示す仮説検定を行い,上位下位関係があるか否かを決定している.

実験結果としては,CRFとSTFには違いはないが,両手法ともベースラインよりは向上していることを示している.

手法としては,ネットワーク理論に基づく手法と,統計に基づく手法を提案・比較しており,興味深い.非常に上手く書けた論文で,論文の書き方としては参考になる.

|

« 国際会議WWW2009論文感想その8 | トップページ | 国際会議WWW2009論文感想その10 »

Web研究」カテゴリの記事