トップページ | 2010年8月 »

2010年7月

国際会議WWW2009論文感想その1

・Jong Wook Kim, K. Selcuk Candan, Junichi Tatemura: Efficient overlap and content reuse detection in blogs and online news articles, Proc. WWW'09, pp. 81-90, 2009.
近年ブログ空間などでの譲歩の伝搬の流れを分析する研究は多い.ブログ中にリンクを埋め込んであったり,必ずトラックバックしていたりすれば良いが,多くはテキストのみコピーしたり,自分の言葉で言い換えたりして,他人の記事を引用していることが多い.このことは,情報伝搬の正確さを損なうことになり,コンテンツのリユースを発見することが重要である.この論文は,そのコンテンツのリユースを発見するものである.リユースには,ベクトル空間モデルにおける近傍検索や転置ファイルを用いた手法などが考えられる.
この論文では,シグネチャファイルの考え方を用い,ハッシュ関数を用いて,単語をm次元のビット列(mには,16と32を使用)に変換し,1センテンスを,ビット列の論理和で表し,対象の文がリユースかどうかをデータベースを検索し,チェックするアルゴリズムを提案している.シグネチャファイルの考え方を使っているが,単純にどれだけビット列に違いがあるかどうかを距離で算出しているだけで,文のペアに対し,XOR演算をしていることになる.このようにきわめて低い次元で,バイナリの論理計算をして,リユースを調査する候補となる文群を絞り込む.絞り込んだ文群に対し,元の単語の共起度を見ている.共起度が高いもの(ここは若干理解が怪しい)をリユースと判定している.
方法の考え方としては,非常に低い次元にハッシュ関数で変換し,でしかも論理計算にすることにより,非常に軽い処理で候補となる文を絞り込むというものである.このような方法論は聞いたことがないので,新規性は認められるだろう.
評価では,転置ファイルと比較し,同じ再現率(リユースの発見率)でも,高速に実行できることを示している.しかし,この評価では,各記事がリユースかどうかを人手で判定したものではなく,何でリユースかどうかを判定したテストセットを使っているのかが不明である.何か機械的に判定した正解値(ground truth)としているのであれば,それは本当にリユースと言えるだろうか?人手で正解値をつけていれば,この論文は非常に高い価値を持つであろう.そうでなければ,単に検索の高速化を実現したに過ぎず,このような研究はIRの分野で長年行われてきているはずである.それらと比較しない限り,研究の価値はないであろう.

| | コメント (0) | トラックバック (0)

最近の招待講演

6月は忙しかったsweat01

高校での出前授業が1件,招待講演が2件.
高校生を相手に話したのは初めて.
この分野の面白さが伝わったらいいんだけどね

6/12 兵庫県立小野高校講演
 Service-oriented Engineering
 http://www.hyogo-c.ed.jp/~ono-hs/topframe.htm

6/25 電子情報通信学会 人工知能と知識処理研究会
 ヒューマン・リコメンダ・インタラクション
 http://www.ieice.org/~ai/jpn/index.php/20100625

6/30 日本データベース学会 第1回DBSJ Social Computing Symposium
 Sociality and Interactivity for Recommender Systems
 http://www.dbsj.org/

| | コメント (0) | トラックバック (0)

はじめまして

みなさん,はじめまして.
公式にブログを始めてみることにしました.
・次世代のWeb技術・研究に関する情報
・ビジネス・ソリューション・サービスに関する情報
・学会・大学に関する情報
・ファイナンスや趣味の釣りに関する情報
などを載せてみたいと思います.
よろしくお願いします.

| | コメント (0) | トラックバック (0)

トップページ | 2010年8月 »