« 国際会議WWW2010論文感想その5 (スニペットから反証部分・議論を巻き起こす部分のハイライト) | トップページ | 国際会議WWW2010論文感想その7 (個人識別・大規模アクセスログの分析) »

国際会議WWW2010論文感想その6 (教育用ビデオの要約に関する調査研究)

Yaxiao Song, Gary Marchionini, Chi Young Oh: What are the most eye-catching and ear-catching features in the video?: implications for video summarization, Proc. WWW'10, 2010.
ビデオ要約,ユーザ行動分析

教育コンテンツのビデオにおいて,人が手動で要約を作成した時に,どういう特徴を持つ部分が抽出されるのか?,その特徴を別の人が手動で付与した時に,人によってどれだけ異なるのか?を調べた研究である.

研究は,まず12人の被験者に,4本の教育ドキュメンタリービデオ(のうちの3本)を見せて,手動で要約を作成させている.1本は,音声のみを聞いて要約を作成し,1本は映像のみ(音声なし)を見て要約を作成し,最後の1本は映像も音声もあるビデオを見て要約を作成している.要約は,ビデオ全体の中から5個所選んで,それぞれに対して5-10秒ほど切り出している.

次に,各ビデオセグメントに対して,別の4名の被験者が特徴量を抽出している.特徴量は,音声特徴なら,音楽,一人の声,複数の人の声,名刺,自然の音,人口の音である.画像特徴なら,テキスト,顔,グラフィックス,グラフ,方程式,動物,人工物,自然のシーンである.抽出意図の属性は,指示,記述,判断できないの3つである.抽出役目の属性は,コンテキスト,定義,例,まとめである.

最後に,その4名が,ビデオセグメントに対して,要約としての評価をを行っている.

調べているのは,被験者に見せたビデオの違いにより,特徴量に差があるかや,4名の被験者によって,どれだけ付けた特徴量に一致が見られるかなどである.

私は,この論文にはかなりの疑問がある.
・調査系の論文と言えるが,調査対象がたった4本のビデオ(しかも同じコンテンツメーカーから出ているドキュメンタリービデオ)しかないのはいかがなものか?
・研究の新規性を,教育ビデオに対して,要約の調査研究をした研究がないことを挙げているが,なぜ教育ビデオなのか?教育ビデオは,他のコンテンツに比べて,最も重要なジャンルなのか?じゃ,教育ビデオで調査を行った後には,バラエティでも同じことをするのか?バラエティが終わったら,音楽番組なのか?ジャンルが異なれば,一流の国際会議で発表する価値があるのか?
・文書の自動要約の研究分野では,要約には指示的要約と報知的要約があるが,どちらを目指しているのか?その目的がない限り,人手で要約することもその評価をすることもできないのではないか?
・属性は,比較的明示的なものも多いが,人によってばらつきが出る原因は何か?テキストが含まれるか否かなどは,被験者によって100%一致しても良いはず.実験の条件が明示的でない.
・抽出意図の属性と抽出役目の属性は,あいまい過ぎる上に,説明が全く書かれていない.このような曖昧な属性に対して,被験者がまともに属性値を入力できるとは思えない.

・統計的有意差を出しているが,どういう統計的手法を使ったのかが書いていない.

かなり残念な論文である.国際会議WWWであるが,また調査系かぁ~と思わされると同時に,この研究ってWebと全く関係ないやんと,つっこみたくなる.
こういう論文を見ていると,そろそろWeb研究ブームも終焉を迎えるのかなという気がする.

ちなみに,第二著者のGary Marchionini氏は,情報検索におけるユーザ行動研究の大家である.このような人間科学的アプローチに優れている.しかし,この研究に関しては???がついてしまう.

|

« 国際会議WWW2010論文感想その5 (スニペットから反証部分・議論を巻き起こす部分のハイライト) | トップページ | 国際会議WWW2010論文感想その7 (個人識別・大規模アクセスログの分析) »

Web研究」カテゴリの記事