« 2010年10月 | トップページ | 2010年12月 »

2010年11月

国際会議WWW2009論文感想その10

Yutaka Matsuo, Hikaru Yamamoto: Community gravity: measuring bidirectional effects by trust and rating on online social networks, Proc. of WWW '09, 2009.

情報推薦,協調フィルタリング,情報信頼性,情報信憑性,レビュー

おそらく世界で最初に,アイテムへのratingと自分のコミュニティ内での信頼関係の相互影響モデルを提案した論文である.基本的なアイディアは,以下の2つである.自分のアイテムへのratingは,自分がコミュニティ内で信頼する他人のratingの影響を受ける.自分の他ユーザへの信頼は,アイテムへの評価の類似性に依存する(これは下記文献[1]で述べられているモデルであり,新規の提案ではない).

(基本モデル)
・ユーザxのアイテムiへのrating = μ0×ユーザxのアイテムiへの現在のrating +μ1× Σ_{ユーザxが信頼するユーザ群y} x→yの信頼度 × ユーザyのアイテムiへの現在のrating
・x→yへの信頼度 = λ0×x→yへの現在の信頼度 + λ1×xとyのratingの類似度

研究では,@cosmeを対象に,ユーザ間の信頼度の予測と,商品の評価予測を行っている.x→yの信頼度の予測には,プロファイルに基づく特徴,商品レビューの類似度,信頼関係に基づくものの三種類の特徴量を基に行っている.SVMで予測している.高い重みの特徴量を出力すると,信頼関係に基づく特徴量が上位に来ているが,ratingの類似度に基づく指標もいくつか入っている.同様にして,商品の評価予測も行う.高い重みの特徴量を出力すると,多くがratingに関する特徴量であるが,いくつか信頼関係に基づく特徴量も入っている.

次にSVM回帰を用いて,ユーザxのアイテムiへのratingと,x→yへの信頼度の予測モデルを獲得し,係数を出力している.x→yへの信頼度は,上記の基本モデルの式と比較し,μ1,λ1に当てはめている.

モデルとしては非常に面白いと思う.しかし,このモデルを直接適用したというよりは,数ある特徴量を用いて学習したモデルを比較することにより,このモデルの一部のパラメータに当てはめて考えることができるということを示したに過ぎない点が残念である.実際にSVM回帰で得られたモデルは,上記基本モデルにない特徴量も入ってきており,上記基本モデルが実際のコミュニティに適用できるのか,あるいはこのモデルで全てを表現できているのかが分からなくなってしまっている点も気がかりである.

実験はさらに続き,
CG(Community gravity) = μ1 × λ1
という指標により,あるブランドや商品に対し,それを利用する利用者のコミュニティにおいて,ratingと信頼度構築の関係が盛んであるかどうかを算出し,これが高いブランドや商品を発見するということも行っている.CGの高さはブランドの強さを表すとしている.これは非常に面白い指標であり,マーケティング担当者にとっては,かなり強力な意表になるであろう.これを算出し,実際にCGの高い商品は伝搬ネットワークも濃いことを示している点は高く評価できる.

[1] Jennifer Golbeck, Bijan Parsia: Trust network-based filtering of aggregated claims, International Journal of Metadata, Semantics and Ontologies, Vol. 1, Issue 1, 2006.

|

国際会議WWW2009論文感想その9

Anon Plangprasopchok, Kristina Lerman: Constructing folksonomies from user-specified relations on flickr, Proc. of WWW'09, 2009.

Flickrで各ユーザが付けた画像保管のための階層構造を使って,全ユーザで平均化することでtaxonomyを構築する研究.

Flickrでは,写真を好きなグループ名を付けてフォルダの形式(set)で保存することができる.また,それらグループをまとめるための上位のフォルダ(collection)を用いることができる.collectionはさらに数段階用意し階層構造化できる.この各ユーザの階層構造を使って,全ユーザで平均化することで,語のtaxonomyを自動で構築するという研究.

構築方法として,conflict resolution framework (以下,CRF),significance test framework(以下,STF)を提案している.これと,従来手法であるterm subsumption framework(以下,ベースライン)と比較している.CRFはグラフ理論のアプローチから構築する方法である.

ベースラインの方法は,単語a, bがあった時のその上位下位関係は,条件付き確率P(a|b)>P(b|a)であれば,aの方が上位にある確率が高くなる(実際には,単純に大小関係を比較しているだけでなく閾値も設けている).これを利用した方法である.

CRFは,各ユーザが構築した階層構造から,単語の上位下位の関係を取り出す.単語aがbよりも上位であれば,a→bと表す.この頻度を全ユーザで獲得し,この頻度の逆数をエッジの重みとしたネットワークを構築する.このネットワークに対し最小フローパスを発見することでtaxonomyを構築する.

STFは,上位下位関係a→bに着目する.aが起きたときに,次にbが起こるか否かを考える.複数人ユーザがいれば,2項分布となる.単語の出現確率の平均をpとすると,2項分布は平均:np,分散:np(1-p)となる.bがランダムに選ばれたということが有意でないことを示す仮説検定を行い,上位下位関係があるか否かを決定している.

実験結果としては,CRFとSTFには違いはないが,両手法ともベースラインよりは向上していることを示している.

手法としては,ネットワーク理論に基づく手法と,統計に基づく手法を提案・比較しており,興味深い.非常に上手く書けた論文で,論文の書き方としては参考になる.

|

国際会議WWW2009論文感想その8

Cameron Braganza, Kim Marriott, Peter Moulder, Michael Wybrow, Tim Dwyer: Scrolling behaviour with single- and multi-column layout, Proc. of WWW '09, 2009.

縦スクロールと横スクロールで読みやすさが異なるかどうかを調べた研究.伝統的なGUIでは,文書は縦スクロールで読むことが一般的である.縦スクロールは,あまり1行あたりの文字数を多くできないことから,画面が幅広くなると,使用していない領域が多くなり,効率的でない可能性がある.そこで横スクロールを基本とするインタフェースを開発し,その効果を検証したのがこの論文である.

縦スクロールは伝統的なGUIのものを採用している.横スクロールでは,スクリーンを3分割し,左から文書を表示していく.1分割目の画面の下まで表示されたら,続きは2分割目の画面の上から表示する.同様に,2分割目の画面の下まで表示されたら,続きは3分割目の画面の上から表示する.スクロールは,分割単位で左方向にずれていくことで実現する.

この2種類の閲覧のしやすさを比較するのが主な目的だが,同時にスクロールの入力方法を,Grab-and-drag,scroll ball,scrollbar, keys, overviewの5種類用意し,この違いも検証している.
Grab-and-drag:ユーザがマウスの左ボタンを押し続ければ,カーソルが矢印から手の形に変わる.その時,マウスをドラッグすれば,表示する段を変えられる.
scroll ball:マウスボールを360度動かせるマウスを用いる.
scrollbar:スクロールバーの両端にある矢印を押すか,スクロールバーをスライドさせる.
keys:アローキーを使って,表示する段を変えられる.pageup, pagedownキーを使って,一画面分変えられる.
overview:文書の表示位置を示すオーバービュー上をクリックすることで,表示する段を変えられる.

好みに関する実験では,24人の被験者のうち,縦スクロールを好む被験者が16名,横スクロールを好む被験者が8名となっている.入力方法は,Scroll ballが最も多く使われている.keys, scrollbar, grab and dragも,そこそこ使われているが,縦スクロールと横スクロールでそれほど違いはない.

スクロール回数とスクロール持続時間に差があるかどうかも検証している.スクロール回数と持続時間共に縦スクロールの方が大きいことが統計的に認められている.しかし,文書を読むのにかかった時間は,両スクロールとも差がなかったことを報告している.

最後に,視線の動きを観察し,ユーザのスクロールの仕方を分析している.例えば,段単位で読んで該当段の末尾まで来たらスクロールするとか,画面の末尾で視線を横方向にしか動かさず,ちょっとずつスクロールするかなどである.ユーザがどのタイプになるのかを分類し,その数を集計している.

(感想)
ブラウジングという行為という意味では,Webと関係がないとは言えないが,閲覧するのはワープロの文書でも良く,なぜこの論文がWWW Conf.に載っているのかわからない.Webの研究もやることがなくなりつつあり,画像処理とかヒューマンインタフェースとか,そういうネタしかなくなりつつあるのかもしれない.
論文としては,確かに横スクロールで文書を読むという行為の調査をしたことは,初めてであるかもしれない.実験では,慣れ親しんでいる垂直スクロールの方が好まれ,パフォーマンス的には差がなかったと結論付けられている.あまり驚くような結果ではないため,論文の価値としては,それほど高くない.スクロールに焦点を当てた視線に関する分析は,やられていないのであれば,価値があるであろう.本質的に新たな発見はないが,スクロールのレイアウトの違い,スクロールアクションの入力方法,視線の動き,これらを調べた合わせ技的なところが評価されたと考えてよいだろう.

|

WebDB Forum 2010 写真集

WebDB Forum 2010 写真集

WebDB Forum 2010の写真集です。

Webとデータベースに関するフォーラム (WebDB Forum 2010)
http://db-event.jpn.org/webdbf2010/
日     2010年11月11日(木)~12日(金)
場所     早稲田大学 理工学術院(西早稲田キャンパス)63号館
〒169-8555 東京都新宿区大久保3-4-1

Pa0_0016
会場は早稲田大学でありました。なつかしいロボットが展示してありました。

Pa0_0012
WebDBフォーラムは、一般発表もUSTREAMで配信されました。画期的な試みですね。

Pa0_0010
ポスターレセプションです。企業の方のご意見がうかがえるのが、とってもありがたいです。

Pa0_0009
中には、こんなポスターもありました。私には真似できません。。。

Pa0_0020
私の学生への感謝の気持ちということで、台湾料理の店に連れて行きました。店内は、お店の人もお客さんも中国語オンリーで、海外旅行気分が味わえました。

Pa0_0022
料理は、比較的現地の人に近い味付けであったように思います。思いつきで入ってみましたが、良いお店が見つかってラッキーです。



|

第151回 データベースシステム研究発表会 メモ

DBS研で私の書いたメモです。

===========================================
第151回 データベースシステム研究発表会
11月12日(金)~13日(土)
http://www.ipsj.or.jp/09sig/kaikoku/2010/DBS151.html
http://www.ipsj-dbs.org/index.php?FrontPage

Pa0_0001_2

[16:20-17:35]■1A.検索・推薦   座長: 春本 要(大阪大学)
(1) レアクエリを対象とした非クリック分析によるクエリ推薦方式の提案
   ○宮原 伸二,片渕 典史,片岡 良治(NTTサイバーソリューション研究所)
・出現回数の少ないレアクエリを対象.クエリを推薦.
クリック情報だけではなく非クリック情報も利用.
・関連研究 Optimal Rare Query Suggestion With Implicit User Feedback
クリックグラフと何を選択しなかったというスキップグラフを利用
・提案手法
クリックグラフによるクエリ間の関連度を計算.
 ここの関連度の計算は,共起度とか使う方が自然なような気がする
検索順位を考慮した非クリックグラフによるクエリ間の関連度を計算.
 検索順位が高いほど,query-url間の重みを大きくする.
 またクリックされた時間が新しいほど重要なURLとする.
・評価
ベースラインはクリック履歴のみ用いた手法

[10:00-11:40]■2C.ソーシャルメディアⅠ   座長: 土方 嘉徳(大阪大学)

(19)ブックマーク類似度を用いたソーシャルブックマーク汚染対策手法の提案と評価
   ○畑中 貴弘,久松 潤之(大阪電気通信大学)
ソーシャルブックマーク汚染
多くの一般的なユーザには価値のないページが高く推薦されること
汚染を引き起こすユーザはあるタグがついたページのほぼすべてをブックマークしている.

ユーザ間u,vのブックマーク類似度を計算.ブックマーク類似度の高いユーザをブラックリストとして登録.vがすでにブラックリストに登録されていたら,uもブラックリストに登録.
ブラックリストに登録されているユーザのすべてのブックマークがオセンを導くわけではないので,
ブックマーク数を低減する(ちょっと理由が分からん)
(土方コメント)
やはりそうか,一般のユーザ間のブックマーク類似度は相当低いのか

(20)ソーシャルタグの上位下位関係に基づく散策的ブラウジング支援
   ○木村 清尭,湯本 高行,新居 学,高橋 豐(兵庫県立大学)
散策的ブラウジングの支援
良質なWebページ源としてソーシャルブックマークを利用(Pagerankではだめ?)
幅広い内容のWebページの取得を重視(Diveristyの向上やな) #dbs151
 汎化ページ,類似ページ,関連ページ
上下関係にあるタグのペアを取得
そのタグを使ってSBMに問い合わせ.
汎化は上の概念,類似は同じ概念,関連は兄弟タグを使うさらに下位概念が違う

(21)マイクロブログサービスの位置情報タグと発言コンテキスト解析を用いた行動推定システムの設計
   ○山田 和貴,斉藤 裕樹(東京電機大学)
Tweetmap -> http://tweetmap.info
ある地理位置における発言から利用者の次の行動を予測
予測される経路を基に適切なサービスの提供
GPS情報からは,なぜ通ったのかはわからない(近道?景色をみるため?)
 →つぶやき内容から判定
発言内容に基づ次の行動の予測をベイズ推定で
発言内容は一単語(「竜馬」)(任意の文章を対象とした任意の単語を対象にできるの?そんなにメッセージはあるの?)

(22)ミニブログにおける注目語抽出手法の提案と注目語を用いたメディア間での話題追跡
   ○加藤 慶一,秋岡 明香,村岡 洋一,山名 早人(早稲田大学)
複合語で構成される固有名詞をTwitterのログから抽出する
Twitterで番組のタイトルや作品のタイトルは放映日,公開日に集中することが多い.
急に出てきた語は固有名詞である可能性が高い.

出現回数が急上昇した名刺を注目.それから複合語を取得.
(バースト検出すれば良いのでは?)
Twitter  Sample Streem API使用

[13:00-14:15]■3A.検索・抽出   座長: 灘本 明代(甲南大学)

(23)デフォルメ地図検索のための地理的特徴抽出
   ○松尾 純輝,北山 大輔,李 龍,角谷 和俊(兵庫県立大学)
デフォルメ地図検索エンジン.ユーザの目的と合致する順にデフォルメ地図をランキングする.
ランキングに有用な特徴の抽出.26次元の地図的特徴+11次元の画像特徴.
二種類の目的に基づく特徴抽出実験
経路確認と位置確認(どんな観光地があるかどうかを知ること)
SVMで,経路選択に有用か,位置確認に有用かに分類.
実験では,ユーザに地図60枚を見せ,経路選択に有用か,位置確認に有用かを判定.
質問:地図は画像のはずだが,オブジェクトの数とかランドマークの数はどうやって抽出してるの?
質問:実験では,ランドマークを知っていたかどうかの調査はしているのか?
質問:なぜSVM?
(以下,コメント)
将来性のある面白いテーマだと思います.

(25)QAサイトにおけるS項目による回答検索システム   ◯見市 高一,川越 恭二(立命館大学)
情報量,参考サイトの有無,質問と回答との同じ語の数,お役立ち度,グレード
が読者の求める項目と仮定.どれを重視するかは読者によって異なると仮定?
予備実験から前者3つが重要であることを示している
さらに,抽象的な回答,丁寧語を用いていない回答,句読点の存在しない回答
が求めない回答を表すとして利用.
利用者は,これらのS項目に対して,0or1を選択することで,検索に反映できる.
質問:結局S項目とは何か?
質問:これらの項目はすでにいろいろな研究で扱われているのでは?
質問:文章の書き方に注目した手法のように見える.同じような文体の回答を求めるような検索に有効?
質問:S+とS-はひとまとめで評価?それぞれ別に評価はしてない?

[14:40-16:20]■4C.ソーシャルメディアⅡ   座長: 大塚 真吾(神奈川工科大学)

(40)ソーシャルブックマークにおける有用なユーザの発見
   ○田代 祐一,大石 哲也,越村 三幸,藤田 博,長谷川 隆三(九州大学)
   ソーシャルブックマークのユーザの中から,あるトピックに関して有用だと思われる
   ユーザを発見し,評価する
ブックマークネットワークにHITSを適用.
評価は,上記手法で上位にランクインしたユーザと,トピック内の情報をたくさんブックマークしているユーザの比較.
ランクインしたユーザ群がブックマークしているページとテスト用ユーザがブックマークしているページの適合度で比較
質問1:有用なユーザを探してどうしたいのか?
質問2:トピックもアルゴリズムに組み込んでは?
質問3:ネガティブなページも「それと認識するために」ブックマークしているユーザもいるのでは?

(41)ソーシャルメディア上での行動に基づく「意外な情報」の提供者になり得る人物の検索手法
   ○後藤 清豪,高田 秀志(立命館大学)
   ソーシャルメディア上でのユーザの行動を基に、「意外な情報」を発信する人物を検索
   可能にする
ソーシャルメディア上の人物間のつながりの強さ(類似度)を測る研究は結構やられている.
(詳細は参考文献参照)
普段意外な情報を提供すると思っている人が,頻繁に返答,引用,お気に入りをしている他のユーザを,新たな意外な情報を提供する人として推薦する
評価は,Follow Finder,Twitter公式おすすめ,提案システムと比較している.
精度がやや向上し,そのばらつきが減少している.

コメント1:意外な情報にこだわって欲しかった.情報をばらまいている人,それに飛びついている人を発見してしまう.
コメント2:実際どんな情報をつかまえたのかというのを見てみたら良いのでは?
コメント3:友達同士だから新しい気づきはないと言っているのに,周りの人の情報を使って推薦しているのはなぜ?

(42)User-Generated Contentにおける潜在情報抽出手法の提案
   ○内村 圭佑,灘本 明代(甲南大学)
   UGCに特有で且つ重要な情報を潜在情報と呼び,UGCと一般のWebを比較し潜在情報の
   抽出を行う
コミュニティ内に特有かつ重要な情報(潜在情報)を推薦
差分抽出手法と重要度計算手法の両方を用いて推薦.
差分抽出手法では,スレッドに特有な情報を持つコメントを取得
重要度計算手法はテーマに対して重要なコメントを抽出
差分抽出手法は,一般のHPで得られる情報とそのスレッドで得られる情報との差分を取得する.
差分は語単位で行う.
重要度は,テーマに対しての熟知度を計算(網羅性,特化性,専門性から判断)
 Wikipediaで使われている単語を使っていたら網羅度を上げる.
 特化性,Wikipediaページをセグメントに分割し,各セグメントに対してどれだけ詳しく述べているのかで判定.
 専門性,文書の理解容易性を測るために用いる単語.Yahoo!知恵袋で使われる単語を用いていれば上がる.
重要度は貢献度も利用.スレッドの呼応関係にあるものを上げる.
客観度は客観的な立場で書かれたコメントを上げる.形容詞が多いものはダメ.
被験者6名.スレッド,具体的な映画のスレッド
タスク:重要であると思ったコメントにチェック.

(43)SNSを利用した協調フィルタリングによる番組推薦手法
   ○澤井 里枝,有安 香子,藤沢 寛,金次 保明(NHK)
   SNSの書き込みを利用することで視聴プロファイルを作成し,番組推薦する手法の提案
   とその実装を行う

Twitter利用.フォローとハッシュタグを利用.
SNS上で関係のあるユーザ,代表的なユーザの発言を利用して番組推薦する.
番組名を表すキーワードは事前に与えておく
関連ユーザ集合を獲得.その関連ユーザの番組のEPG情報のテキストから構築したユーザプロファイルから,それらを統合したプロファイルを作成.推薦対象の番組から作成したコンテンツモデルと比較.
番組の希少性も利用.対象番組と同じ種類(EPG情報のジャンルを使用)の番組が少ないほど上げる.
質問:内容を用いない場合と推薦結果は変わる?内容を用いようと思った理由は?
質問:NHKの視聴者には高齢者が多いが彼らはSNSを使っているの?
質問:ハッシュタグは#NHKのみ使っているが,他の番組のハッシュタグを使った場合はどうなるの?

|

WebDB Forum 2010 二日目のノート

WebDB Forum 2010 二日目の一般発表のノートです.
私のコメント付きです.

===============================================
Webとデータベースに関するフォーラム (WebDB Forum 2010)
http://db-event.jpn.org/webdbf2010/
二日目 一般発表

検索支援2 (セッション3A)
座長:戸田 浩之(NTT)

   1. ウェブ検索結果の信憑性判断支援
      山本 祐輔, 田中 克己(京都大学)
「信憑性は人によって異なる.」
Holvand, C. @ Yale Universityほか
Hovland, C. andWeiss, W.: The Influence of Source Credibility on Communication
Effectiveness, Public Opinion Quarterly, Vol.15, No.4, pp.635-650 (1951).
・信憑性を判断するための情報提供
・信憑性判断基準に従ったランキング
・正確さ(accuracy),権威(authority),客観性(objectivity),網羅性(coverage),鮮度(Currency)が判断基準.
・ユーザ固有の信憑性判断モデルを構築する.ユーザが選択したページの上記判断基準から重視しているものが分かる
・評価実験は,ベースラインとしてGoogle.
・評価指標は,信憑性の高いページが獲得できたかと,獲得までにかかった時間
・今後は明確な信憑性判断基準を持ったユーザを推薦することが課題か?
(以下コメント)
非常に面白い研究だと思います.発表も良かったです.

2. 交グラフと意味的解析を利用したコミュニティ発見手法
岡田 直樹, 谷川 恭平, 土方 嘉徳, 西田 正吾(大阪大学)
複雑ネットワークにおいて,重複を許しコミュニティを発見する手法を提案.問題として,重複を許したコミュニティ発見,リンクの不均一性,コミュニティ数の自動決定を挙げ,交グラフの利用,意味的情報を利用したリンクの重みづけ,Newmanのモジュール性を利用したクラスタリングを行う手法を提案している.
質問1:マイミクのマイミクまでを全体集合としてそこからコミュニティ発見をしているが,そのぐらいだと手動でもできるのでは?
コメント1:もっと大きな全体集合を取って,そこからこんな面白いクラスタが見つかったというようなことを評価しても面白い.
質問2:クリークの閾値と重複度の閾値は自動で決定できるとうれしいが... #webdbf2010
コメント2:被験者が挙げるつながりには,揺れがありそう.意味的解析によりそういう揺れが発見できると良い.被験者の想定していなかったようなクラスタが抽出される可能性もあり,そういう評価も良い.

コンテンツ推薦 (セッション4A)
座長:土方 嘉徳(大阪大学)

   1. 発信者のエンティティに対する記述特徴分析によるニュースの推薦
      石田 晋, 馬 強, 吉川 正俊(京都大学)
・ニュース発信者の特徴に注目
民主党に否定的なA新聞が肯定的な記事を書いている.
A新聞とB新聞はいつも意見が対立しているがこの記事では同じ
こういう推薦がしたい.
・エンティティに特徴が表れやすい(人物,組織,国など)
「管首相の力量がない」
・発信者の特徴とは異なる特徴を持つ記事を推薦
・構文解析してエンティティに対する記述を特徴
さらに極性を判断
・どこまでさかのぼって発信者の傾向とするか?
→外れ値検出手法を利用
・構文木上の先祖と子をエンティティに対する記述とする.
エンティティに対する極性を上記の記述から判定する.
・ニュース発信者の直近の傾向と異なる特徴をもつ記事を推薦
傾向変化度を計算
・エンティティに対する極性はトピックにある程度依存する
「普天間」,「こども手当」など...
→記事をトピックに分類して行う
・極性の遡及範囲の設定
 →外れ値検出を利用(前回の傾向変化のところまでをその人の傾向と判断する)
・主観語辞書を
質問:エンティティをあらかじめ与えておいて,文単位で極性を判断するようなこともできる.
質問:確かに新聞の出版社によって,傾向はあるかもしれないが,それらの変化は同じように起きるのではないか?

   2. 嗜好の一貫性を重視した推薦のための区分類似度方式
      高橋 徹, 小林 亜樹(工学院大学)
・協調フィルタリング
ratingの行列を区分に分けて,区分ごとに類似度を求める.
部分的に似た嗜好(部分的に異なる嗜好を無視できる)を扱える.
・区分数が多い:質高い,推薦元ユーザが少数
区分数が少ない:推薦元ユーザが多い.質低い.
・区分数は2とする.
・区分類似度(共通評価数が3異常のユーザのみ対象)
・全体類似度が高いユーザ群と区分類似度が高いユーザ群とを比較
・全体類似度が高くなおかつ区分類似度が高いユーザ群を利用
 これってユーザ数めっちゃ少なくなるやん
 だから組み合わせてるのか.
・区分はランダムで行っている.
質問(土方):既存のアイテムのカテゴリを使って区分したら効率的では?
質問(土方):全体類似度をそこまで低く見ているのはどうか?
コメント(土方):今後は質的な評価をしてほしい.区分類似度のみが高いユーザ
区分類似度のみが低いユーザで何が推薦されるのか?
(以下,コメント)
アイディアとしては非常に面白いと思います.分割の手法をもう少し工夫すると良いのかな?と思います.また,評価は,近傍ユーザを絞り込んだ影響と,分割の影響とが切り離されているのか,発表では分からなかったので,もう少し工夫があると良いと思います.

   3. ソーシャルタギングサービスを利用した多様性に基づくWeb コンテンツ推薦
      茂木 哲矢, 高村 大也, 奥村 学(東京工業大学)
アイテムベースの協調フィルタリング.
欠点
・推薦対象のアイテムは評価されている必要がある
・推薦される情報が類似したものになる
解決方法
・ソーシャルタギングサービスの情報を評価として用いる
多様性を導入
・推薦対象はWebページ.Social Tagging Serviceを利用
・タグに基づくWebコンテンツ間の類似度計算
推薦を最大被覆問題として多様化させる.
質問(土方):最大被覆問題として扱っているが,他のdiversityを上げる手法との比較が必要

優秀論文賞セッション (セッション5)
座長:森嶋 厚行(筑波大学)

   1. Community QA Question Classification: Is the Asker Looking for Subjective Answers or Not?
      Aikawa Naoyoshi(Microsoft Research Asia, Waseda University), Sakai Tetsuya(Microsoft Research Asia), Yamana Hayato(Waseda University)

主観的な質問か客観的な質問か?
絶対客観,多分客観,絶対主観,多分主観のラベルをつける.Yahoo!知恵袋で.二人のラベラーでやったが,1500のうち一致したのは1315.
質問の,主観・客観の自動分類.
単語そのもの,ngram,最大一致パターン
SVM ナイーブベイズ
(以下,コメント)
QAサイトならではの特徴をモデル化できると良いと思います.一つ一つの質問は難しいので,外部の常識などを導入するのが分類結果を上げる効果的な方法になる可能性があると思います.

   2. Trust Relations and Product Ratings on the Web
      Au Yeung Ching Man, 岩田 具治(NTT)
・epinions.com
 trust networkが取れる
・ユーザAがユーザBを信頼していたら,かれらは似たようなratingを付けるのか?
 trust relationが意見の類似性を反映するのか?
・信頼が構築された後の,レビューのsimilarityは時間が経過するごとに,似てくる (これは面白いですね)
ratingも同様に似てくる
ランダムユーザと比べても,trustedユーザはレビューのsimilarityが高い
・ユーザのアイテムiに対するratingを推定.
ユーザ間の信頼とアイテムの特徴?を統合したハイブリッドな手法かな?
・実験1は信頼関係からのratingの推定
実験2はratingからの信頼関係の推定
(以下,コメント)
私が今回聞いたWebDB Forum 2010の発表の中では,ベストペーパーに値すると思います.
推薦システムの分野においての貢献は極めて高いと思います.

|

WebDB Forum 2010 一般発表(1日目)

WebDB Forum 2010 一般発表(1日目)のメモです.

ソーシャルメディア (セッション1B)
座長:熊本 忠彦(千葉工業大学)

   1. Twitterユーザの集合経験知を用いた地域的ノーマル状態に基づく地域イベントの発見
      藤坂 達也, 李 龍, 角谷 和俊(兵庫県立大学)

Tweetsから地域のイベントを発見する.ただし,もともと人が多く集まるところは,Tweetsの発信量のみからイベント発見は困難.そこで,地域ごとのノーマル状態を考慮したイベント発見を行う.36万人のユーザから2100万個のTweetsを集めている(すごい!)K-meansで領域を分割.ボックスプロットを用いてノーマル範囲/異常範囲決定(なんか説明が早くていまいち理解できなかった).名前は大げさだが,おそらく,メッセージの量の平均的なばらつき範囲を用いている模様.Tweetsからどういう日本の祭りが検出できたかで評価.
質問として,有名なイベントを検出することに何の意味があるのか?ということが出た.
各国のジオタグ付きのTwwetsの分布を可視化したものも表示させており,興味深かった.

   2. ソーシャルアノテーションに基づく動画の登場人物の重要度の推定
      佃 洸摂, 中村 聡史, 山本 岳洋, 田中 克己(京都大学)

前も聞いたことがある発表だが,動画中の登場人物の主役度,脇役度を推定し,それに基づき初音ミクが主役で,天海春香が脇役の動画を検索するようなことができる.主役露出度が高く視聴者の反応が大きい.脇役度,登場時間は少ないが視聴者の反応が大きい.反応は,ニコニコ動画のコメントを利用.ベースライン1は人物名を含むコメント数のみ用いる手法.ベースライン2は登場時間の偏りのみ用いる手法,偏りが小さい主役.偏りが大きい脇役.

閲覧・編集支援 (セッション1A)
座長:鈴木 優(名古屋大学)

4. レビューからのあらすじ除去における機械学習アルゴリズムの適用
池田 郁, 土方 嘉徳, 西田 正吾(大阪大学)

映画や小説などストーリーを持ったアイテムに対するレビュー文に対し,あらすじを除去して提示するシステムを提案しています.あらすじを除去する理由はネタバレを防止するためです.あらすじの除去は,BOWモデルを用い機械学習で行っています.機械学習アルゴリズムには,決定木(C4.8),ナイーブベイズ,SVM,ロジスティック回帰を用い,どれが有用かを判定しています.同時にあらすじらしさのスコアも算出しており,ユーザが自分の許容範囲に応じて,あらすじを隠してレビューを閲覧できるようにしています.
質問・コメントとしては,Twitterから「同じデータを SLDA に食わせてみたい」とうコメントがありました.
質問1:あらすじは,もともと明らかなもの(商品紹介にあるもの)と明らかでないものがある.本当なら,もともと明らかでないものを隠すべき.
質問2:記述を反転させるという方法もある.「死んだ」→「生まれた」とか.もちろん反転するか否かはランダムで.
質問3:もともと参照すべきストーリー(商品紹介だけでなく商品の中身も)あるのに,なぜそれは使わない?
質問4:BOWでの分類は,他のテキスト分類でもありえる.あらすじ分類に適用した時に工夫すべきことはなにか?単に,機械学習アルゴリズムの一応用にすぎないのでは?
質問5:人によって知りたいところ知りたくないところがあるが,単に閾値だけで決まるものではないのでは?

フィルタリング (セッション2B)
座長:中島 伸介(京都産業大学)

   1. 複数人によるアカウントの共有を考慮したトピックモデルに基づく協調フィルタリング
      甲谷 優, 岩田 具治, 藤村 考(NTT)

仮想ユーザの仮定により複数人にアカウントが共有されていても高精度な推薦ができる方式を提案.EMアルゴリズムで学習.問題設定としては面白いと思う.

   2. レビュアの信頼性評価における手法比較と属性比較
      田中 祐也, 中村 伸子, 土方 嘉徳, 西田 正吾(大阪大学)

レビュアの信頼性評価をしている.手法は,現在のレビュー内容に基づく手法,レビュー履歴に基づく手法,過去のレビュー内容に基づく手法を比較している.また,過去の関連研究で用いられたすべての属性の比較もしている.
質問1:属性間の因果関係は考慮しているか?一番最初に選んだものの影響がある.GAなどで属性の組み合わせを変えて評価するのも良い.
質問2:サクラのレビューの影響があるのでは?
質問3:対象としているのは,expertiseですよね?Trustworthinessは対象としないのか?
質問4:結局星が良いという話だと.誰も採点していない状態から良いレビューを評価することに意味がある.星はサクラにつながりやすい.
質問5:投稿時刻は取れるのか? 回答:amazonでは,投票の順番は分かる.投稿時刻は分からない. 追加のコメント:サクラは投稿時刻の間隔が狭いと思われる

   3. アフィリエイトIDを用いたスパムブログの分析
      石井 聡一(東京電機大学), 福原 知宏(産業技術総合研究所), 増田 英孝(東京電機大学), 中川 裕志(東京大学)
スパムブログ(スプログ)とアフィリエイトの関係を研究した研究は少ない.
目的:アフィリエイトに着目したスプログ分析.
提案手法:アフィリエイトリンクなどに含まれるアフィリエイトIDに着目.ブログサイトとアフィリエイトIDを紐づける.URLに,アフィリエイトID,商品ID,ASPのIDが含まれている.
予備実験:複数のブログサイトに出現する同一のアフィリエイトIDがどの程度存在するのか分析
各アフィリエイトIDが何サイトに出現したのか調査.
何サイト以上に出現する同一のアフィリエイトIDはスパム率が高いのか分析.
4サイト以上になるとスパムの確率が極めて高くなる
予備実験2:一人のユーザは複数のアフィリエイトIDを用いてる.複数のアフィリエイトIDが共通のブログサイトに投稿していたら,それらを紐づける.紐づけると,やはりそれらのスパム率は高かった.
スパムかどうかは目視で判定.173のスパムアフィリエイトIDを用いて,7か月間で14451のスプログを収集できた.
質問1:過去のスプログ検出とどれぐらい違ってくる?
質問2:手法が単純なので,速度的なメリットもあるのでは?
質問3:スプログの定義は? 回答:自動生成された商品やサービスなどへのリンクの多いブログ.
質問4:アフィリエイトIDが取れなかったサービスプロバイダがあったが,そういうサイトを好んで使う? 回答:ASPごとのスパム率を見れば分かると思う.
質問5:紐づけるのは商品でも良いのでは?

   4. HTML構造の類似性およびアフィリエイトを用いたスプログの分析
      片山 太一, 森尻 惇宜史(筑波大学), 石井 聡一(東京電機大学), 宇津呂 武仁(筑波大学), 河田 容英(ナビックス), 福原 知宏(産業技術総合研究所)
スパムブログエンジン:ニュースサイトや他人のブログサイトなどから記事を自動で抽出し,それらをまとめて自動でブログを作成してくれるエンジン.
ブログをHTMLの木構造を用い,DIVタグでまとめられているところを切り出す.2つのブログの比較をするのに,各ブロックごとの一致,置換,削除を考慮して,edit distanceを取る.タグ内のコンテンツの一致までは見ない.手法としては面白いと思う.これによりスプログの抽出効率が上がっていることを示していた.同一スパマー判定も行っていた.
質問1:edit distanceを取る時に,一致はタグ内の内容まで見ているのか?コンテンツを使うともっと抽出効率は上がるのか? (と私が質問しました)
質問2:スパムブログはだいたい頭から一致するのか?

|

ソーシャルゲーム・ソーシャルアプリケーションの現在と未来 @ WebDB2010

WebDB Forum 2010に参加しております.午前中の特別セッション(2)が面白かったですので,私なりの要約を報告させていただきます.

Webとデータベースに関するフォーラム (WebDB Forum 2010)
http://db-event.jpn.org/webdbf2010/
11月11日(木) 11:30-12:45     特別セッション(2)

ソーシャルゲーム・ソーシャルアプリケーションの現在と未来
座長:中村 聡史(京都大学)
講演者:
    * 吉田大成 (グリー株式会社メディア開発本部 ソーシャルアプリケーション統括部長)
    * 名村卓 (サイバーエージェント株式会社 執行役員 主席エンジニア)
    * 田中洋一郎 (株式会社ミクシィ パートナーサービス部 開発グループマネージャー)

Pa0_0000

グリーの吉田大成氏からは,ソーシャルアプリケーションの歴史や市場規模,それを支える技術などの紹介があった.利用者数は,既存のゲーム機のゲームに引けを取らないぐらいであることが紹介された.
サイバーエージェントの名村卓氏からは,アメーバにおけるソーシャルアプリの紹介があった.GREEやmixi,モバゲーなどにアプリを提供している.海外のサービスにもアプリを提供している.Facebookのユーザ数は5億を超えている.Gingaのユーザ数は9000万人ぐらい.ソーシャルアプリは時間を節約し,時間を有意義に楽しむための娯楽という認識であるらしい.ビジネス的には,コンシューマゲームはプロダクトリリースまでが勝負.ソーシャルゲームはリリース後の運用が勝負とのこと.
ミクシィの田中洋一郎氏からは,mixiの利用実態を会場に尋ねていた.一度でも利用したことがある人は8割ぐらいいたが,ここ1カ月に利用した人はその半分ぐらいに落ちていた.以前ほどの勢いがないような気がする.登録ユーザ数2102万人.月間ログインユーザ数1445万人.月間滞在時間3時間23分.月間PVは,mobile245億,PC52億.ソーシャルグラフの話がメイン.そのアプリケーションとして,「あなたの友人かも」という友人推薦の話があった.OpenSocial(ウェブベースのソーシャルネットワークアプリケーションのための共通のアプリケーションプログラミングインタフェース(API)群.Google によって開発された.(Wikipediaから抜粋))に賛同していることも紹介された.mixi Graph APIの紹介もあった.例えば,Voice APIでは,mixiボイスを他のWebページに埋め込める.さらにmixiボイスを他のSNSに反映させるような試みもしようとしている.

|

« 2010年10月 | トップページ | 2010年12月 »