« 国際会議WWW2010論文感想その2 (ソーシャルネットワーク,情報信頼性) | トップページ | 国際会議WWW2010論文感想その4 (検索結果・サムネイル,ユーザインタフェース) »

国際会議WWW2010論文感想その3 (Youtubeコメント分析,評判情報分析)

Stefan Siersdorfer, Sergiu Chelaru, Wolfgang Nejdl, Jose San Pedro: How useful are your comments?: analyzing and predicting youtube comments and comment ratings, Proc. WWW'10, 2010.

Youtubeコメント分析,評判情報分析,情報信頼性,極性判定,センチメント分析

Youtubeのコメントの評価に関しての調査研究である.2009年に収集した67,290個のビデオと約600万個のコメントを用いている.コメントに対するレーティングが主要な調査対象である.Youtubeのレーティングは,thumb upとthumb downに投票できるが,どのような数のレーティングを受けたのかは,その差しか分からない.これが調査を難しくしているのであるが,全体の投票数はともかく,絶対値としてその差がどれだけあるのかをレーティング結果として用いている点が特徴である.
調査内容と調査結果は次のようである.

・ビデオのコメント数の分布(図2).1つのビデオあたりのコメントの平均数は475.
・コメントレーティング(thumb upの総数とthumb downの総数の差)分布(図3).平均0.61でややpositiveに偏りがち.
・SentiWordNetを用いてセンチメント分析.評価が低いコメントに関連する単語のpositive値/negative値の分布と,評価が高いコメントに関連する単語のpositive/negative値の分布と(図4)
・SentiWordNetを用いてセンチメント分析.5Neg(レーティング-5以下のコメントセット),0Dist(レーティング0のコメントセット),5Pos(レーティング5以上のコメントセット)に分けて,それぞれのセットのセンチメント値(コメント中の単語の平均センチメント値?)(図5)
・SVMによるコメントレーティングの識別.5Neg, 5Pos, 0Distの分類.表2.F値で0.7程度の識別結果になっている.
・動画の議論の招きやすさを調査.動画ごとにコメントレーティングの分散を見ている.分散が高いと議論の招きやすい確率が高く,低いと議論を招きにくい確率が高いとしている.議論の招きやすさは5人の判定者にビデオを見てもらっている(1,2,3の3段階.3が議論を招きやすい).分散が高いビデオのスコアは2.085で,低いビデオのスコアは1.25.タグについても同様の評価を行っており,そのタグが付けられたビデオのコメントを対象として,分散が高いタグのスコアは1.53で,低いビデオのスコアは1.16.
・カテゴリごとのコメントレーティングの分布(図10)
・カテゴリごとのセンチメント値の分布(図12)

(総評)
調査内容はありきたりで,amazonや他のレビューサイトに対しては,同じことまたは似たようなことは行われていると思われる.結果も,当たり前のことがデータとして確認できたという域を出ず,サプライズはない.前半のコメント数の分布やratingの分布,+のratingのデータセットと-のratingのデータセットにおける単語の極性の分布,コメントの極性予測までの内容では,採録は難しかったと思われる.しかし,議論を招きやすい(意見が分かれる)動画であったかどうかという分析は面白い.調査内容にやや脈絡のなさはあるが,合わせ技で一本取ったような論文である.調査研究なので当たり前だが,統計的有意差も出している.

|

« 国際会議WWW2010論文感想その2 (ソーシャルネットワーク,情報信頼性) | トップページ | 国際会議WWW2010論文感想その4 (検索結果・サムネイル,ユーザインタフェース) »

Web研究」カテゴリの記事