« 最近の招待講演 | トップページ | Journal of Business Research誌論文感想 »

国際会議WWW2009論文感想その1

・Jong Wook Kim, K. Selcuk Candan, Junichi Tatemura: Efficient overlap and content reuse detection in blogs and online news articles, Proc. WWW'09, pp. 81-90, 2009.
近年ブログ空間などでの譲歩の伝搬の流れを分析する研究は多い.ブログ中にリンクを埋め込んであったり,必ずトラックバックしていたりすれば良いが,多くはテキストのみコピーしたり,自分の言葉で言い換えたりして,他人の記事を引用していることが多い.このことは,情報伝搬の正確さを損なうことになり,コンテンツのリユースを発見することが重要である.この論文は,そのコンテンツのリユースを発見するものである.リユースには,ベクトル空間モデルにおける近傍検索や転置ファイルを用いた手法などが考えられる.
この論文では,シグネチャファイルの考え方を用い,ハッシュ関数を用いて,単語をm次元のビット列(mには,16と32を使用)に変換し,1センテンスを,ビット列の論理和で表し,対象の文がリユースかどうかをデータベースを検索し,チェックするアルゴリズムを提案している.シグネチャファイルの考え方を使っているが,単純にどれだけビット列に違いがあるかどうかを距離で算出しているだけで,文のペアに対し,XOR演算をしていることになる.このようにきわめて低い次元で,バイナリの論理計算をして,リユースを調査する候補となる文群を絞り込む.絞り込んだ文群に対し,元の単語の共起度を見ている.共起度が高いもの(ここは若干理解が怪しい)をリユースと判定している.
方法の考え方としては,非常に低い次元にハッシュ関数で変換し,でしかも論理計算にすることにより,非常に軽い処理で候補となる文を絞り込むというものである.このような方法論は聞いたことがないので,新規性は認められるだろう.
評価では,転置ファイルと比較し,同じ再現率(リユースの発見率)でも,高速に実行できることを示している.しかし,この評価では,各記事がリユースかどうかを人手で判定したものではなく,何でリユースかどうかを判定したテストセットを使っているのかが不明である.何か機械的に判定した正解値(ground truth)としているのであれば,それは本当にリユースと言えるだろうか?人手で正解値をつけていれば,この論文は非常に高い価値を持つであろう.そうでなければ,単に検索の高速化を実現したに過ぎず,このような研究はIRの分野で長年行われてきているはずである.それらと比較しない限り,研究の価値はないであろう.

|

« 最近の招待講演 | トップページ | Journal of Business Research誌論文感想 »

Web研究」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/562182/48997813

この記事へのトラックバック一覧です: 国際会議WWW2009論文感想その1:

« 最近の招待講演 | トップページ | Journal of Business Research誌論文感想 »