« 第153回データベースシステム研究発表会 | トップページ | WebDBフォーラム2011参加報告(2日目) »

WebDBフォーラム2011参加報告(1日目)

WebDBフォーラム2011に参加してきました.
http://db-event.jpn.org/webdbf2011/index.html

期日     2011年11月4日(金)、5日(土)
会場     工学院大学 新宿キャンパス

以下,1日目の参加報告です.

===
ソーシャルメディアマイニング(1G-1)
  11/4(金)14:00-15:40    座長:熊本忠彦(千葉工業大学)

    大規模なブログ記事時系列分析に基づく流行語候補の早期発見手法の検討
     中島伸介(京都産業大学), 稲垣陽一(きざしカンパニー), 山岡千夏,張建偉(京都産業大学), ナカモトレン, 桑原 雄 (きざしカンパニー)

流行語がメジャーになっていくときには,もともと狭いコミュニティで語られてたキーワードが,徐々に他のコミュニティに広がっていく.この考え方が正しいかどうかを検証.最初は関連の深いコミュニティで話し始めるが,徐々に減少.次いで,関係の浅いコミュニティでも話し始められ,徐々に増加する.これらがちょうど交差するところで,ブレークしている.AKB48のメンバー名がどのようにコミュニティで話されているのかを見ることによって,総選挙の結果を予測している所は面白かった.個人的には,流行語を正しく発見できたかどうかも重要だが,その発見のタイミングも重要なのかなと思った.この手法は,ブレークするまさにその時を捉えることができるような気がする.これは,非常に強みになるはずである.

    名詞出現頻度の時間的変化に着目した東日本大震災時のTwitterのトピックの分析
     風間一洋(NTT), 鳥海不二夫(名古屋大学), 篠田孝祐(理化学研究所),榊剛史(東京大学), 栗原 聡(大阪大学), 野田五十樹(産業技術総合研究所)

単語頻度の時系列変化を分析.名詞の出現頻度の時間的変化の類似性をEarth Mover's distance で判定.トピックごとに関連する語句が取れていることが分かった.「地震」のような単語は,余震の影響を受け,ピークが鋭くなる.「原発」のような単語は,24時間の人間の活動に合わせた変化になりがちである.震災直後のツィートをこれだけちゃんと分析したのはすごい.

    スマートフォンアプリ実行ログからのインフルエンスグループの発見によるインフルエンサとイノベータの推定
     片桐雅二, 栄藤稔(NTTドコモ,大阪大学)

インフルエンサ:周囲に影響を及ぼす人.イノベータ:新し物好きだが周りにはあまり影響を与えない人.独立カスケードモデル.Aさんがやったら,Bさんもやるみたいな確率をエッジに持つグラフを作る.ニッチなものだけ推薦するために,エントロピーを使用したベルヌーイ試行のモデルを作る.

行列はスパースになるので.潜在グループモデルを考えるため,Matrix Factorization利用.
X=ABのように行列因子分解.近似インフルエンス行列を複数作成.一番良いものを評価.近似インフルエンスとリアルなソーシャルグラフを使って,インフルエンサらしさとイノベータらしさを推定.

完全には理解できなかった.(特に,リアルなソーシャルグラフを使って以降)

検索とランキング(2G-1)
  11/4(金)16:00-17:40    座長:森嶋厚行(筑波大学)

典型性を考慮した同位オブジェクトの検索方式
 藤坂達也, 湯本高行, 角谷和俊(兵庫県立大学)

○○入りパフェというパターンから,検索したいオブジェクトの属性を得る.「入り」とか「の入った」とかがキーとなり,他の属性を探す.(情報抽出と同じ考え方)

典型度を求め,○○入りパフェが,パフェの中でどれぐらい典型的かを計算し,出力する.そこで,典型的なパフェを探したり,逆に非典型なパフェを探したりできる.

代表度:与えられたクラス内でどれくらいそれがそのクラスを代表しているか
「イチゴ」などは,タイトルのような目立つところで,「パフェ」と共起.
一般度:一般的なものは,「パフェ」の後ろに出てくる.一般的でないもの「納豆」などは,
「パフェ」の前に出てくる.

ある目的の情報抽出を行うのに,典型的表現を「入り」とか「の入った」とかを利用するのは,すでにある話.代表度と一般度というのは,ちょっと言葉としてはピンとこない.一般度に関しては,「パフェ」の前に出てくるか,後ろに出てくるかで,どれだけ正確に表現されているのかには興味がある.

また,典型度には,代表度と一般度のどちらが効いているのかについても興味がある.

オブジェクトの典型度分析とその検索への応用
 佃洸摂, 中村聡史, 山本岳洋, 田中克己(京都大学)

Central tendency.特徴が一致するほど典型的.
Frequency:認知度が高いほど典型的.Webでの遭遇頻度を利用.京都・観光地で検索して,「金閣寺」がどれだけ上のスニペットに含まれるか.
Ideals1に基づく典型度:カテゴリが満たすべき条件(例えばダイエットに良い食事)ならカロリー
Ideals2に基づく典型度:人が判断したカテゴリが満たすべき条件.Web検索で低カロリーと対象食材で検索してヒット数.

モデルそのものは面白い.ただし,Central tendencyに使う特徴を主導で設定したり,Ideals1に基づく典型度での「満たすべき条件」をどう設定するかなど,いくつかの課題もあり.


|

« 第153回データベースシステム研究発表会 | トップページ | WebDBフォーラム2011参加報告(2日目) »

Web研究」カテゴリの記事