« 2011年7月 | トップページ | 2011年12月 »

2011年11月

WebDBフォーラム2011参加報告(2日目)

WebDBフォーラム2011に参加してきました.
http://db-event.jpn.org/webdbf2011/index.html

期日     2011年11月4日(金)、5日(土)
会場     工学院大学 新宿キャンパス

以下,2日目の参加報告です.

ユーザモデリングと応用(3G-1)
  11/5(土) 9:30-10:45    座長:中村聡史(京都大学)

    ユーザの購買予定金額を考慮したブランド選択モデルの提案
     長野翔一, 市川裕介, 高屋典子, 内山匡(NTT)

事情により聴講できず.

    レシピ閲覧・摂食履歴を用いた嗜好の抽出
     上田真由美(京都大学), 高畑麻理, 中島伸介(京都産業大学)

閲覧したが調理しなかったら,その食材は嫌い.レシピの得点を,食材に対するスコアを足し合わせて出す.ただし,似ている料理は連続しないように得点付する.このような推薦方式を被験者実験で評価.被験者10名.正解データ.食材に対して好き嫌いを聞いている.

見たという行為と,調理したという行為を分けているのは面白い.これは,一見,他の行動にも適用できそうな気がする.例えば,見たという行為と,購入したという行為などである.しかし,調理と言うのは,たまたま嫌いな食材が入っていたなどの原因から,単に見たと作ったの間に,手間と言う障壁があるだけではなく,嗜好に関する障壁がある点が異なる.

目の付け所は面白い.あとは,これをどう普遍的な知見として昇華させるかについて考えてもらいたい.

    ホテル業界におけるクチコミ情報に基づいた顧客満足度予測モデルの構築とポジショニング分析
     藤井絵美子(関西学院大学), 植野剛, 中元政一, 東高宏(JST ERATO 湊離散構造処理系プロジェクト), 加藤直樹(京都大学), 羽室行信(関西学院大学)

ホテルに関する口コミの評価表現分析をしている.評価表現を抽出した後,各表現を類似性からひとまとめにする.これは,各表現をノードと見なし,その関連性からグラフ構造を作り,極大クリークを求める.その後,被覆率から極大クリークをまとめ,最後にコレスポンデンス分析をして,表現のポジショニングを二次元平面上で確認している.
まっとうなやり方だが,結果を情報科学の分野でどう利用するかについて,議論があると良い.経済学では,ここまでで良いかもしれないが,工学的にどう利用していけるのかについての指針を示してもらいたかった.

テキストマイニングと応用(4G-1)
  11/5(土)11:00-12:15    座長:天笠俊之(筑波大学)

    ウェブのリンク構造と語の共起を利用したキーワード抽出に基づく情報検索結果の概念構造化
     吉永直嗣, 延原肇(筑波大学)

クエリから検索したWebページからキーワード抽出し,コンテキスト作成を行い,概念生成を行い,それを可視化表示する.キーワード抽出は,検索結果のページ群から,文字数が閾値以上であれば解析文書とする.文字数が閾値以下であれば,リンク先のページで類似度の高いページを解析文書とする.nグラムで頻出後集合を作る.

プレゼンの前半を聞き逃したため,コンテキストの抽出や概念の抽出方法などが分からなかった.検索支援において二次キーワードを提示するシステムはいっぱいあり,それを可視化するようなシステムもいくつか提案されていたような気がする.それとの差がどこにあるのか,よく分からなかった.

    電子書籍小説の効率的な選別のための興味喚起度に基づく「立ち読み」インタフェース
     村井聡一, 牛尼剛聡(九州大学)

Google books:20%以内で閲覧可能.クエリを含む個所が「立ち読み」開始ポイント.
専門書は良いが,小説には向かない.読者の関心を引きそうなところを「立ち読み」開始ポイントとする.興味喚起度マップを見せる.

どうやって作るのか?興味喚起度の高い語の出現密度を表示.レビューから興味を持つ部分を取ってこれる.

同じ小説のレビューに出現する頻度は高い
他の小説のレビューに出現する頻度が低い

これは,うまい.しかも,ちゃんとその小説の内容を表す単語が取れているのも面白い.今後が非常に楽しみな研究である.

    Analyzing Collective Memory: Towards Computational History
     Adam Jatowt(京都大学), Ching-man Au Yeung(Astri)

20年分の新聞記事から,過去200年に起こったことを,その出現頻度から可視化表示している.国別に,何が歴史的に重要トピックであったかなどを示していた.結果は面白いと思ったが,過去20年分の累積を出しており,これは必ずしもその当時に注目されていたこととは異なる.この点に注意は必要である.

論文賞セッション
  11/5(土)13:15-14:50    座長:中島伸介(京都産業大学)

    品詞n-gramを用いた著者推定手法 -話題に依存しない頑健性の評価-
     井上雅翔, 中島泰(早稲田大学), 山名早人(早稲田大学,国立情報学研究所)

品詞n-gramによって著者推定を行う.文章の話題によって文体(n-gram)が変化しにくい.
話題によって文体が違うと言っていたのは,語尾とか,そのレベルの話なのか?

話題相違によって提案手法がどれぐらい頑健性を持つのかを見る.実験によって,話題によっても提案手法が高い精度を誇っていることを示している.

提案手法そのものは新しいものではないが,品詞n-gramを用いれば話題が異なっても,高い精度を保てることを示したことには価値があると思われる.

    推薦システムにおけるユーザ関与とユーザ満足度に関する研究
     土方嘉徳, 甲斐裕樹, 西田正吾(大阪大学)

自分の発表なので,メモは取っていません.

ネットワーク機能コミュニティ抽出法の提案
 伏見卓恭, 斉藤和巳(静岡県立大学), 風間一洋(NTT)

機能コミュニティ(ゲートキーパー同士とか).PageRank影響度曲線の類似度によってクラスタリング.影響度曲線をベクトルにしている.

機能コミュニティという考え方は面白い.提案手法の評価は,やはり他の評価指標を用いたクラスタリング結果と比較してもらいたい.Hub, Authority, Betweenessなど.今後の展開が楽しみな研究である.

|

WebDBフォーラム2011参加報告(1日目)

WebDBフォーラム2011に参加してきました.
http://db-event.jpn.org/webdbf2011/index.html

期日     2011年11月4日(金)、5日(土)
会場     工学院大学 新宿キャンパス

以下,1日目の参加報告です.

===
ソーシャルメディアマイニング(1G-1)
  11/4(金)14:00-15:40    座長:熊本忠彦(千葉工業大学)

    大規模なブログ記事時系列分析に基づく流行語候補の早期発見手法の検討
     中島伸介(京都産業大学), 稲垣陽一(きざしカンパニー), 山岡千夏,張建偉(京都産業大学), ナカモトレン, 桑原 雄 (きざしカンパニー)

流行語がメジャーになっていくときには,もともと狭いコミュニティで語られてたキーワードが,徐々に他のコミュニティに広がっていく.この考え方が正しいかどうかを検証.最初は関連の深いコミュニティで話し始めるが,徐々に減少.次いで,関係の浅いコミュニティでも話し始められ,徐々に増加する.これらがちょうど交差するところで,ブレークしている.AKB48のメンバー名がどのようにコミュニティで話されているのかを見ることによって,総選挙の結果を予測している所は面白かった.個人的には,流行語を正しく発見できたかどうかも重要だが,その発見のタイミングも重要なのかなと思った.この手法は,ブレークするまさにその時を捉えることができるような気がする.これは,非常に強みになるはずである.

    名詞出現頻度の時間的変化に着目した東日本大震災時のTwitterのトピックの分析
     風間一洋(NTT), 鳥海不二夫(名古屋大学), 篠田孝祐(理化学研究所),榊剛史(東京大学), 栗原 聡(大阪大学), 野田五十樹(産業技術総合研究所)

単語頻度の時系列変化を分析.名詞の出現頻度の時間的変化の類似性をEarth Mover's distance で判定.トピックごとに関連する語句が取れていることが分かった.「地震」のような単語は,余震の影響を受け,ピークが鋭くなる.「原発」のような単語は,24時間の人間の活動に合わせた変化になりがちである.震災直後のツィートをこれだけちゃんと分析したのはすごい.

    スマートフォンアプリ実行ログからのインフルエンスグループの発見によるインフルエンサとイノベータの推定
     片桐雅二, 栄藤稔(NTTドコモ,大阪大学)

インフルエンサ:周囲に影響を及ぼす人.イノベータ:新し物好きだが周りにはあまり影響を与えない人.独立カスケードモデル.Aさんがやったら,Bさんもやるみたいな確率をエッジに持つグラフを作る.ニッチなものだけ推薦するために,エントロピーを使用したベルヌーイ試行のモデルを作る.

行列はスパースになるので.潜在グループモデルを考えるため,Matrix Factorization利用.
X=ABのように行列因子分解.近似インフルエンス行列を複数作成.一番良いものを評価.近似インフルエンスとリアルなソーシャルグラフを使って,インフルエンサらしさとイノベータらしさを推定.

完全には理解できなかった.(特に,リアルなソーシャルグラフを使って以降)

検索とランキング(2G-1)
  11/4(金)16:00-17:40    座長:森嶋厚行(筑波大学)

典型性を考慮した同位オブジェクトの検索方式
 藤坂達也, 湯本高行, 角谷和俊(兵庫県立大学)

○○入りパフェというパターンから,検索したいオブジェクトの属性を得る.「入り」とか「の入った」とかがキーとなり,他の属性を探す.(情報抽出と同じ考え方)

典型度を求め,○○入りパフェが,パフェの中でどれぐらい典型的かを計算し,出力する.そこで,典型的なパフェを探したり,逆に非典型なパフェを探したりできる.

代表度:与えられたクラス内でどれくらいそれがそのクラスを代表しているか
「イチゴ」などは,タイトルのような目立つところで,「パフェ」と共起.
一般度:一般的なものは,「パフェ」の後ろに出てくる.一般的でないもの「納豆」などは,
「パフェ」の前に出てくる.

ある目的の情報抽出を行うのに,典型的表現を「入り」とか「の入った」とかを利用するのは,すでにある話.代表度と一般度というのは,ちょっと言葉としてはピンとこない.一般度に関しては,「パフェ」の前に出てくるか,後ろに出てくるかで,どれだけ正確に表現されているのかには興味がある.

また,典型度には,代表度と一般度のどちらが効いているのかについても興味がある.

オブジェクトの典型度分析とその検索への応用
 佃洸摂, 中村聡史, 山本岳洋, 田中克己(京都大学)

Central tendency.特徴が一致するほど典型的.
Frequency:認知度が高いほど典型的.Webでの遭遇頻度を利用.京都・観光地で検索して,「金閣寺」がどれだけ上のスニペットに含まれるか.
Ideals1に基づく典型度:カテゴリが満たすべき条件(例えばダイエットに良い食事)ならカロリー
Ideals2に基づく典型度:人が判断したカテゴリが満たすべき条件.Web検索で低カロリーと対象食材で検索してヒット数.

モデルそのものは面白い.ただし,Central tendencyに使う特徴を主導で設定したり,Ideals1に基づく典型度での「満たすべき条件」をどう設定するかなど,いくつかの課題もあり.


|

第153回データベースシステム研究発表会

第153回データベースシステム研究発表会(DBS研究会)に参加し,「推薦」のセッションの座長を務めさせていただきました.

第153回データベースシステム研究発表会 HP
http://www.ipsj.or.jp/kenkyukai/event/dbs153.html

以下,このセッションの発表論文の内容と,私の感想です.

■推薦(13:00~14:40)
(13) A-2-1
      ニコニコ動画のログデータを用いたソーシャルノベ ルティのある動画の発見に関する研究
      ○平澤真大(電気通信大学),小川祐樹(産業技術総合研究所),諏訪博彦,太田敏澄(電気通信大学)

ニコニコ動画において,「もっと評価されるべき」というタグがついている動画を,一般的にまだ認知されていなくて,なおかつ質の高いものとみなし,それを教師信号として,そのような動画を機械学習で識別するという研究.「もっと評価されるべき」というタグを教師信号と見なす考え方が面白いと思った.再生回数の多くない動画に対して,提案手法を適用すると,良質だがまだ認知されていないものが推薦されることになる.
ただ,識別に用いている特徴量は,セレンディピティに関連するようなものではなかったので,同じ手法を動画全般に適用すると,やはり質の高いものが推薦されると思われる.有用性は申し分ないように思うが,学術的にはもう一工夫あると良いと思う.

(14) A-2-2
      contextHashtagの提案とそれを用いたTwitterユーザ向けイベント推薦システム
      ○海江田 隆博,黄 宏軒,川越 恭二(立命館大学)

ハッシュタグを用いてユーザにイベントを推薦する研究.ハッシュタグを,あらかじめ決めておいた特徴量で表現することで,一般化を行い,ユーザが興味をもったイベントに類似するイベントを推薦してくれるものであった.

(15) A-2-3
      Want listを用いた購買支援と情報推薦
      ○楊 斐,清光英成,大月弘一,森下淳也(神戸大学)

Want listを一つのユーザからの興味に関する情報の入力と捉えているようだったが,そのような入力方法はたくさん考えられる中,なぜWant listなのかについて,考えを明確にして欲しかった.

(16) A-2-4
      Twitterを利用したソーシャルニュース記事推薦システム
      ○早川 豪,尾内 理紀夫(電気通信大学),
      岡部 誠(電気通信大学/独立行政法人科学技術振興機構さきがけ)

Twitterのフォロワのつぶやきを使って,それらのテキスト内容と,ニュース記事のテキスト内容を用いて,ニュース記事を推薦してくれるという研究.情報推薦の基本手法は,コンテンツに基づくフィルタリングと協調フィルタリングに大別されるが,この研究はそれらのハイブリッドに属する.そのハイブリッドな点が生み出す利点と,フォロワという特徴がもたらす価値が明確になると面白い研究になると思われる.

|

« 2011年7月 | トップページ | 2011年12月 »