« 国際会議WWW2009論文感想その10 | トップページ | ACM RecSys2010 勉強会(情報推薦,推薦システム)の案内 »

国際会議WWW2009論文感想その11

Lyndon Kennedy, Mor Naaman: Less talk, more rock: automated organization of community-contributed collections of concert videos, Proc. of WWW '09, 2009.
http://www2009.org/
http://portal.acm.org/citation.cfm?id=1526752
ソーシャルコンピューティング

野外コンサートなどでは複数の人が同じアーティストを同時に撮影していることが多い.撮影開始と終了時間などはまちまちだが,同じ時間帯を撮影したユーザは複数いることがあり,それらの映像(ビデオクリップ)の同期をとると,映像検索や閲覧などで便利と思われる.

この研究では,ビデオクリップ間の同期を取ったうえで,さらにビデオクリップのグラフ構造を作成することで,それの応用を行っている.この応用が極めてinnovativeであり,非常に価値の高い研究であると言える.

ビデオクリップ間の同期は,音声指紋という手法を用いている.この手法を用いることには新規性はない.簡単に説明すると,ビデオクリップの音声データのみを用いてビデオクリップ間の同期を行う.ビデオクリップをさらにtime windowで分割し,time windowごとにフーリエ変換を施し,局所的な周波数ピークを発見する.これを一つのtime windowで数個探す.time window間の上記ピーク点の周波数の大きさの差を特徴量として,これからハッシュ値を求めることで,ビデオクリップを特定する識別値を生成する.この識別値の一致により,異なるビデオクリップのtime window間のマッチングを行う.ノイズの影響でtime windowのマッチングはそれほど精度が高くなるとは言えないが,その一部はマッチングが取れる.二つの映像の再生時刻をx軸,y軸にとり,マッチングしたものをマッピングすると,y=xの線上にマッチングが取れた点が並ぶことがある.この場合,ビデオクリップ間のマッチングが取れたことになる.

マッチング後のアプリケーションとしては,ソーシャルコンピューティングの考え方を用いて,一般に人気のある映像区間の検出,高音質なビデオクリップの検出,映像区間へのアノテーションの付与(統合)を行っている.

ついで,重なる時間帯のあるビデオクリップを集めて,グラフを作る.このグラフはぶち切れの小さなグラフの集合となる.このグラフのうち,内部のエッジの多いものは,多くのユーザが同時に撮影していた時間となる.このように内部のエッジの多いグラフを探せば,人気のあるコンテンツを探すことが可能になる.

また,音声指紋によるマッチングは完全でないため,ノイズの多い低音質なビデオクリップは他のビデオクリップとマッチしない可能性が高くなる.これにより同一グラフ内で最も次数の多いビデオクリップが最も高音質なものになる可能性がある.これを利用した高音質ビデオクリップの検出を行っている.

最後にアノテーション付与については,グラフ内のビデオクリップに付けられたアノテーションに対し,tf-idfでスコアづけし,高い単語を付与している.

評価はまだ十分とは言えないが,重要クリップの発見においては,今回は音楽を対象としているので,音楽教諭サイトLast.fmでのランキングと一致しているかを見ている.高音質クリップの発見では,被験者実験により付与したスコアとの相関を調べている.アノテーションの評価は,著者の主観によるものであるが,例を見る限りは,コンテンツの内容を表すアノテーションが付けられているように見える.

この論文が評価されたのは,映像のマッチングから,ビデオクリップ間のグラフ構造を作るという,ソーシャルコンピューティング的な考えに発展させた点にある.この二つを結びつけるという発想は,誰もができるものではない.また,マッチングの不完全さをうまく利用し,それにソーシャルコンピューティング的な考えにより,高音質なビデオクリップを発見したという点も面白い.非常にinnovative な論文であると言える.

|

« 国際会議WWW2009論文感想その10 | トップページ | ACM RecSys2010 勉強会(情報推薦,推薦システム)の案内 »

Web研究」カテゴリの記事