« ソーシャルゲーム・ソーシャルアプリケーションの現在と未来 @ WebDB2010 | トップページ | WebDB Forum 2010 二日目のノート »

WebDB Forum 2010 一般発表(1日目)

WebDB Forum 2010 一般発表(1日目)のメモです.

ソーシャルメディア (セッション1B)
座長:熊本 忠彦(千葉工業大学)

   1. Twitterユーザの集合経験知を用いた地域的ノーマル状態に基づく地域イベントの発見
      藤坂 達也, 李 龍, 角谷 和俊(兵庫県立大学)

Tweetsから地域のイベントを発見する.ただし,もともと人が多く集まるところは,Tweetsの発信量のみからイベント発見は困難.そこで,地域ごとのノーマル状態を考慮したイベント発見を行う.36万人のユーザから2100万個のTweetsを集めている(すごい!)K-meansで領域を分割.ボックスプロットを用いてノーマル範囲/異常範囲決定(なんか説明が早くていまいち理解できなかった).名前は大げさだが,おそらく,メッセージの量の平均的なばらつき範囲を用いている模様.Tweetsからどういう日本の祭りが検出できたかで評価.
質問として,有名なイベントを検出することに何の意味があるのか?ということが出た.
各国のジオタグ付きのTwwetsの分布を可視化したものも表示させており,興味深かった.

   2. ソーシャルアノテーションに基づく動画の登場人物の重要度の推定
      佃 洸摂, 中村 聡史, 山本 岳洋, 田中 克己(京都大学)

前も聞いたことがある発表だが,動画中の登場人物の主役度,脇役度を推定し,それに基づき初音ミクが主役で,天海春香が脇役の動画を検索するようなことができる.主役露出度が高く視聴者の反応が大きい.脇役度,登場時間は少ないが視聴者の反応が大きい.反応は,ニコニコ動画のコメントを利用.ベースライン1は人物名を含むコメント数のみ用いる手法.ベースライン2は登場時間の偏りのみ用いる手法,偏りが小さい主役.偏りが大きい脇役.

閲覧・編集支援 (セッション1A)
座長:鈴木 優(名古屋大学)

4. レビューからのあらすじ除去における機械学習アルゴリズムの適用
池田 郁, 土方 嘉徳, 西田 正吾(大阪大学)

映画や小説などストーリーを持ったアイテムに対するレビュー文に対し,あらすじを除去して提示するシステムを提案しています.あらすじを除去する理由はネタバレを防止するためです.あらすじの除去は,BOWモデルを用い機械学習で行っています.機械学習アルゴリズムには,決定木(C4.8),ナイーブベイズ,SVM,ロジスティック回帰を用い,どれが有用かを判定しています.同時にあらすじらしさのスコアも算出しており,ユーザが自分の許容範囲に応じて,あらすじを隠してレビューを閲覧できるようにしています.
質問・コメントとしては,Twitterから「同じデータを SLDA に食わせてみたい」とうコメントがありました.
質問1:あらすじは,もともと明らかなもの(商品紹介にあるもの)と明らかでないものがある.本当なら,もともと明らかでないものを隠すべき.
質問2:記述を反転させるという方法もある.「死んだ」→「生まれた」とか.もちろん反転するか否かはランダムで.
質問3:もともと参照すべきストーリー(商品紹介だけでなく商品の中身も)あるのに,なぜそれは使わない?
質問4:BOWでの分類は,他のテキスト分類でもありえる.あらすじ分類に適用した時に工夫すべきことはなにか?単に,機械学習アルゴリズムの一応用にすぎないのでは?
質問5:人によって知りたいところ知りたくないところがあるが,単に閾値だけで決まるものではないのでは?

フィルタリング (セッション2B)
座長:中島 伸介(京都産業大学)

   1. 複数人によるアカウントの共有を考慮したトピックモデルに基づく協調フィルタリング
      甲谷 優, 岩田 具治, 藤村 考(NTT)

仮想ユーザの仮定により複数人にアカウントが共有されていても高精度な推薦ができる方式を提案.EMアルゴリズムで学習.問題設定としては面白いと思う.

   2. レビュアの信頼性評価における手法比較と属性比較
      田中 祐也, 中村 伸子, 土方 嘉徳, 西田 正吾(大阪大学)

レビュアの信頼性評価をしている.手法は,現在のレビュー内容に基づく手法,レビュー履歴に基づく手法,過去のレビュー内容に基づく手法を比較している.また,過去の関連研究で用いられたすべての属性の比較もしている.
質問1:属性間の因果関係は考慮しているか?一番最初に選んだものの影響がある.GAなどで属性の組み合わせを変えて評価するのも良い.
質問2:サクラのレビューの影響があるのでは?
質問3:対象としているのは,expertiseですよね?Trustworthinessは対象としないのか?
質問4:結局星が良いという話だと.誰も採点していない状態から良いレビューを評価することに意味がある.星はサクラにつながりやすい.
質問5:投稿時刻は取れるのか? 回答:amazonでは,投票の順番は分かる.投稿時刻は分からない. 追加のコメント:サクラは投稿時刻の間隔が狭いと思われる

   3. アフィリエイトIDを用いたスパムブログの分析
      石井 聡一(東京電機大学), 福原 知宏(産業技術総合研究所), 増田 英孝(東京電機大学), 中川 裕志(東京大学)
スパムブログ(スプログ)とアフィリエイトの関係を研究した研究は少ない.
目的:アフィリエイトに着目したスプログ分析.
提案手法:アフィリエイトリンクなどに含まれるアフィリエイトIDに着目.ブログサイトとアフィリエイトIDを紐づける.URLに,アフィリエイトID,商品ID,ASPのIDが含まれている.
予備実験:複数のブログサイトに出現する同一のアフィリエイトIDがどの程度存在するのか分析
各アフィリエイトIDが何サイトに出現したのか調査.
何サイト以上に出現する同一のアフィリエイトIDはスパム率が高いのか分析.
4サイト以上になるとスパムの確率が極めて高くなる
予備実験2:一人のユーザは複数のアフィリエイトIDを用いてる.複数のアフィリエイトIDが共通のブログサイトに投稿していたら,それらを紐づける.紐づけると,やはりそれらのスパム率は高かった.
スパムかどうかは目視で判定.173のスパムアフィリエイトIDを用いて,7か月間で14451のスプログを収集できた.
質問1:過去のスプログ検出とどれぐらい違ってくる?
質問2:手法が単純なので,速度的なメリットもあるのでは?
質問3:スプログの定義は? 回答:自動生成された商品やサービスなどへのリンクの多いブログ.
質問4:アフィリエイトIDが取れなかったサービスプロバイダがあったが,そういうサイトを好んで使う? 回答:ASPごとのスパム率を見れば分かると思う.
質問5:紐づけるのは商品でも良いのでは?

   4. HTML構造の類似性およびアフィリエイトを用いたスプログの分析
      片山 太一, 森尻 惇宜史(筑波大学), 石井 聡一(東京電機大学), 宇津呂 武仁(筑波大学), 河田 容英(ナビックス), 福原 知宏(産業技術総合研究所)
スパムブログエンジン:ニュースサイトや他人のブログサイトなどから記事を自動で抽出し,それらをまとめて自動でブログを作成してくれるエンジン.
ブログをHTMLの木構造を用い,DIVタグでまとめられているところを切り出す.2つのブログの比較をするのに,各ブロックごとの一致,置換,削除を考慮して,edit distanceを取る.タグ内のコンテンツの一致までは見ない.手法としては面白いと思う.これによりスプログの抽出効率が上がっていることを示していた.同一スパマー判定も行っていた.
質問1:edit distanceを取る時に,一致はタグ内の内容まで見ているのか?コンテンツを使うともっと抽出効率は上がるのか? (と私が質問しました)
質問2:スパムブログはだいたい頭から一致するのか?

|

« ソーシャルゲーム・ソーシャルアプリケーションの現在と未来 @ WebDB2010 | トップページ | WebDB Forum 2010 二日目のノート »

Web研究」カテゴリの記事

学会」カテゴリの記事