« WebDB Forum 2010 一般発表(1日目) | トップページ | 第151回 データベースシステム研究発表会 メモ »

WebDB Forum 2010 二日目のノート

WebDB Forum 2010 二日目の一般発表のノートです.
私のコメント付きです.

===============================================
Webとデータベースに関するフォーラム (WebDB Forum 2010)
http://db-event.jpn.org/webdbf2010/
二日目 一般発表

検索支援2 (セッション3A)
座長:戸田 浩之(NTT)

   1. ウェブ検索結果の信憑性判断支援
      山本 祐輔, 田中 克己(京都大学)
「信憑性は人によって異なる.」
Holvand, C. @ Yale Universityほか
Hovland, C. andWeiss, W.: The Influence of Source Credibility on Communication
Effectiveness, Public Opinion Quarterly, Vol.15, No.4, pp.635-650 (1951).
・信憑性を判断するための情報提供
・信憑性判断基準に従ったランキング
・正確さ(accuracy),権威(authority),客観性(objectivity),網羅性(coverage),鮮度(Currency)が判断基準.
・ユーザ固有の信憑性判断モデルを構築する.ユーザが選択したページの上記判断基準から重視しているものが分かる
・評価実験は,ベースラインとしてGoogle.
・評価指標は,信憑性の高いページが獲得できたかと,獲得までにかかった時間
・今後は明確な信憑性判断基準を持ったユーザを推薦することが課題か?
(以下コメント)
非常に面白い研究だと思います.発表も良かったです.

2. 交グラフと意味的解析を利用したコミュニティ発見手法
岡田 直樹, 谷川 恭平, 土方 嘉徳, 西田 正吾(大阪大学)
複雑ネットワークにおいて,重複を許しコミュニティを発見する手法を提案.問題として,重複を許したコミュニティ発見,リンクの不均一性,コミュニティ数の自動決定を挙げ,交グラフの利用,意味的情報を利用したリンクの重みづけ,Newmanのモジュール性を利用したクラスタリングを行う手法を提案している.
質問1:マイミクのマイミクまでを全体集合としてそこからコミュニティ発見をしているが,そのぐらいだと手動でもできるのでは?
コメント1:もっと大きな全体集合を取って,そこからこんな面白いクラスタが見つかったというようなことを評価しても面白い.
質問2:クリークの閾値と重複度の閾値は自動で決定できるとうれしいが... #webdbf2010
コメント2:被験者が挙げるつながりには,揺れがありそう.意味的解析によりそういう揺れが発見できると良い.被験者の想定していなかったようなクラスタが抽出される可能性もあり,そういう評価も良い.

コンテンツ推薦 (セッション4A)
座長:土方 嘉徳(大阪大学)

   1. 発信者のエンティティに対する記述特徴分析によるニュースの推薦
      石田 晋, 馬 強, 吉川 正俊(京都大学)
・ニュース発信者の特徴に注目
民主党に否定的なA新聞が肯定的な記事を書いている.
A新聞とB新聞はいつも意見が対立しているがこの記事では同じ
こういう推薦がしたい.
・エンティティに特徴が表れやすい(人物,組織,国など)
「管首相の力量がない」
・発信者の特徴とは異なる特徴を持つ記事を推薦
・構文解析してエンティティに対する記述を特徴
さらに極性を判断
・どこまでさかのぼって発信者の傾向とするか?
→外れ値検出手法を利用
・構文木上の先祖と子をエンティティに対する記述とする.
エンティティに対する極性を上記の記述から判定する.
・ニュース発信者の直近の傾向と異なる特徴をもつ記事を推薦
傾向変化度を計算
・エンティティに対する極性はトピックにある程度依存する
「普天間」,「こども手当」など...
→記事をトピックに分類して行う
・極性の遡及範囲の設定
 →外れ値検出を利用(前回の傾向変化のところまでをその人の傾向と判断する)
・主観語辞書を
質問:エンティティをあらかじめ与えておいて,文単位で極性を判断するようなこともできる.
質問:確かに新聞の出版社によって,傾向はあるかもしれないが,それらの変化は同じように起きるのではないか?

   2. 嗜好の一貫性を重視した推薦のための区分類似度方式
      高橋 徹, 小林 亜樹(工学院大学)
・協調フィルタリング
ratingの行列を区分に分けて,区分ごとに類似度を求める.
部分的に似た嗜好(部分的に異なる嗜好を無視できる)を扱える.
・区分数が多い:質高い,推薦元ユーザが少数
区分数が少ない:推薦元ユーザが多い.質低い.
・区分数は2とする.
・区分類似度(共通評価数が3異常のユーザのみ対象)
・全体類似度が高いユーザ群と区分類似度が高いユーザ群とを比較
・全体類似度が高くなおかつ区分類似度が高いユーザ群を利用
 これってユーザ数めっちゃ少なくなるやん
 だから組み合わせてるのか.
・区分はランダムで行っている.
質問(土方):既存のアイテムのカテゴリを使って区分したら効率的では?
質問(土方):全体類似度をそこまで低く見ているのはどうか?
コメント(土方):今後は質的な評価をしてほしい.区分類似度のみが高いユーザ
区分類似度のみが低いユーザで何が推薦されるのか?
(以下,コメント)
アイディアとしては非常に面白いと思います.分割の手法をもう少し工夫すると良いのかな?と思います.また,評価は,近傍ユーザを絞り込んだ影響と,分割の影響とが切り離されているのか,発表では分からなかったので,もう少し工夫があると良いと思います.

   3. ソーシャルタギングサービスを利用した多様性に基づくWeb コンテンツ推薦
      茂木 哲矢, 高村 大也, 奥村 学(東京工業大学)
アイテムベースの協調フィルタリング.
欠点
・推薦対象のアイテムは評価されている必要がある
・推薦される情報が類似したものになる
解決方法
・ソーシャルタギングサービスの情報を評価として用いる
多様性を導入
・推薦対象はWebページ.Social Tagging Serviceを利用
・タグに基づくWebコンテンツ間の類似度計算
推薦を最大被覆問題として多様化させる.
質問(土方):最大被覆問題として扱っているが,他のdiversityを上げる手法との比較が必要

優秀論文賞セッション (セッション5)
座長:森嶋 厚行(筑波大学)

   1. Community QA Question Classification: Is the Asker Looking for Subjective Answers or Not?
      Aikawa Naoyoshi(Microsoft Research Asia, Waseda University), Sakai Tetsuya(Microsoft Research Asia), Yamana Hayato(Waseda University)

主観的な質問か客観的な質問か?
絶対客観,多分客観,絶対主観,多分主観のラベルをつける.Yahoo!知恵袋で.二人のラベラーでやったが,1500のうち一致したのは1315.
質問の,主観・客観の自動分類.
単語そのもの,ngram,最大一致パターン
SVM ナイーブベイズ
(以下,コメント)
QAサイトならではの特徴をモデル化できると良いと思います.一つ一つの質問は難しいので,外部の常識などを導入するのが分類結果を上げる効果的な方法になる可能性があると思います.

   2. Trust Relations and Product Ratings on the Web
      Au Yeung Ching Man, 岩田 具治(NTT)
・epinions.com
 trust networkが取れる
・ユーザAがユーザBを信頼していたら,かれらは似たようなratingを付けるのか?
 trust relationが意見の類似性を反映するのか?
・信頼が構築された後の,レビューのsimilarityは時間が経過するごとに,似てくる (これは面白いですね)
ratingも同様に似てくる
ランダムユーザと比べても,trustedユーザはレビューのsimilarityが高い
・ユーザのアイテムiに対するratingを推定.
ユーザ間の信頼とアイテムの特徴?を統合したハイブリッドな手法かな?
・実験1は信頼関係からのratingの推定
実験2はratingからの信頼関係の推定
(以下,コメント)
私が今回聞いたWebDB Forum 2010の発表の中では,ベストペーパーに値すると思います.
推薦システムの分野においての貢献は極めて高いと思います.

|

« WebDB Forum 2010 一般発表(1日目) | トップページ | 第151回 データベースシステム研究発表会 メモ »

Web研究」カテゴリの記事

学会」カテゴリの記事