学会

第19回WI2研究会ノート

第19回 Webインテリジェンスとインタラクション研究会で,私がとったノートです.
重要だと思ったTwitterからのコピーや,私の疑問やコメントも入っております.

WI2研究会公式HP
http://www.ieice.org/~wi2/index.html

=================================

10:15-12:15 セッション1(ロング発表):情報検索・抽出
座長: 西山 莉紗(日本IBM), 副座長: 松村 敦(日本IBM)
1.文書内の事象を捉えた潜在的トピック抽出手法の研究
北島理沙,小林一郎(お茶の水女子大学)

トピックの割り当てを単語からイベントへ
単語の組として表現(主語ー述語)

LDA(潜在的ディリクレ配分法)
トピック1-nから文書dができているとみなす.
を利用.

トピックはイベントの出現確率

クエリ:「ご飯が美味しい」→「朝食が美味しい」
のような検索が可能.

要約文生成課題
クエリに関連する文により大きい重要度を与える

質問:潜在的なトピックをモデルに組み込むという意味では,
LSIなどの他の方法もあると思うが,それとの違いは?

単語の組み合わせから確率を求めることを考えると,かなりの
学習データ数が必要そうだが...


2.類似文書検索における文書ベクトルの効果的な次元削減への取り組み
梅澤香矢乃、小林一郎(お茶の水女子大学)
ランダムプロジェクションを使った次元削減
LSIとかPLSと同等の検索精度で計算量が少なくて済む
有効な次元数についての考察が不足している.

3.Linked Dataを利用したユーザの興味に基づく情報拡張手法の開発
大西可奈子、小林一郎(お茶の水女子大学)

キーワード入力に頼らない情報拡張
Linked Dataを利用した情報拡張を行う
ユーザが興味を持っているテキストを選択することで,その詳細が拡張される.

Linked Data
「東京都」
東京都は日本の首都である.
東京都の人口は13000000人である
東京都の面積は400000km^2である
みたいなもの

ユーザが興味を持った語A(指定した語)から,DBpediaにより,そのLinked Dataを取ってくる.その後の関連語と同義語を抽出する.語Aとこの抽出した語との関連を,上記Linked Dataから取得する.この関連情報を用いて,情報拡張を行う.

4.外出行動の事前情報を提供するためのWebからのアドバイス文抽出
小澤俊介(名古屋大学), 岡本昌之, 長野伸一, 長 健太(東芝),
松原茂樹(名古屋大学)

ユーザの状況を考慮する情報推薦システム
Cheverst 00, Van Setten 08, Zheng 10

アドバイス文を事前・行動時のものを提供
アドバイス文かどうかを分類学習SVMで判定

「八合目より上は,傾斜がきついので,ゆっくり歩きましょう」
みたいな.

13:30-14:20 招待講演「リンクするデータの課題と展望」
講演者:神崎正英(ゼノン・リミテッド・パートナーズ)
司会: 大向一輝(国立情報学研究所)

Webとはユニバーサルである.SNSのようにリンクできないものはウェブを分断する.
by Tim Berners-Lee
URIでidentifyできなければ,Webではない.

データも外からアクセス,リンクできなければ,Webにある意味はない
by Tim Berners-Lee

Linked Dataの四原則
ものごとをURIで名前を付ける
HTTPのスキームを使う
URIをたどったらデータが出てくる
出てきたデータからさらに他のデータにアクセスできる
by Tim Berners-Lee

閉じた体系の名前は共有が難しい
プロパティ(フィールド)を共有することが目的であったが,
その値が同じであることを意味することから始めましょう.
値にURIをつけておけば,それで共有が可能

データからそのインスタンスの他の属性の値を取れるように
できることが大事なんだね.
そのつながりには,我々のスキーマ抽出の研究が有効

RDFの形で返す.
rda: dateofBirth とすると1867
とか返ってくる.
SPARQLによる検索

他の情報へのリンクを提供する
値がリテラルでなく,URIで参照されるインスタンスであるのが魅力

LOD(Linking Open Data)プロジェクト
DBpedia Wikipediaの情報をRDFで記述
LODにおける統制語彙 兼 固有名典拠としてリンクのハブとなっている

SPARQLエンドポイント
データベースをRDFで用意して,SPARQLで検索を受け付けられるようにしたもの

RDBのデータをRDFにマッピングする
D2R Sercver

RDFa HTMLの中に構造化データを埋め込む方法を標準化したもの #sigwi2

AutoPagerize
スクロールしていくと,次のページを読み込んでくれる
 そのページ内のリンクの書き方を蓄積したDataWikiから行う

おなじ仕組みを属性値の発見にDataWikiのようなアプローチを使う

リンクするデータの品質は一様ではない

文脈を含めて利用.Named Graph(名前付きグラフ)
グラフ(RDFで書かれたデータの部分木)に対して,URIを付け,
さらにそのグラフに対するデータも付ける

質問:人手が重要.Wikipediaなども人手で続けていると飽きてくる?HTMLは,Googleが利用したので続いた?自分のために続けるための制度設計は?回答:制度だけではうまくいかない.評判情報などがキーか.RDFのように機械で理解できる形で表現できることが重要 #sigwi2

なるべくつけてほしい。そのためには、それを行なうことの大きなメリットがあることを納得させられないとむずかしい。特に商利用では。 #sigwi2

質問:データを増やすキラーアプリが必要か?どのようなアプリケーションが現在あるか?回答:... #sigwi2

データは正しいものだと信じ切って利用するとまずい。そして、情報に昇華させるのは人間ということかなぁ。 #sigwi2
質問:間違いを恐れないことが重要?回答:その通り.かつ,使うときには間違っていることを織り込み済みで. #sigwi2
質問:同じものを違うURIを付けるようなことが起こった場合?回答:後で繋げればいい.same-as などで繋ぐ. #sigwi2
個人的に思うのですが,みなさん小さくても良いからLinkedDataを付けましょうというよりは,みなさん誤っていても良いからあなたが推定したデータを公開しましょうと言う方が,早いような気がする #sigwi2
一つのインスタンスや概念が,唯一のURIで紐づけられていたら,誤りはすぐに訂正してもらえると思うんだけどね #sigwi2

14:30-16:30 セッション2(ショート発表) :時系列データの応用
座長: 難波 英嗣(広島市立大学), 副座長: 高間 康史(首都大学東京), 庄司 裕子(中央大学)
5.Web閲覧履歴の空間的把握手法の提案
枝 隼也(筑波大学), 福原知宏(産業技術総合研究所), 佐藤哲司(筑波大学)

6.数式の予測入力インタフェースに関する基礎検討
堀江圭介,土方嘉徳,西田正吾(大阪大学)

どのぐらいログデータがあれば良いか?

数式の自動補完.ついでに$tfidf=tf\cdot idf$と意味的に妥当でない数式の自動修正みたいな機能も付けて欲しい.$\mathrm{tfidf}=\mathrm{tf}\cdot\mathrm{idf}$などと記述しないと,読みづらい. #sigwi2

#sigwi2 数式の予測入力インターフェースに関する基礎検討 内容:N-Gramモデルを用いた数式の予測入力 動機:数式記述の潜在的ニーズは高まっているが、効率的な入力方法はない 詳細:階層的なN-Gramモデルを定義し、次に入力される数式を予測

7.言語表現による時系列データ検索のための基礎検討
松下光範,末吉れいら(関西大学)

ある期間の石油の価格のデータを見せて,その変化に言語的な表現を被験者につけさせた.

グラフを見つけることが目的だとすると,インデックス(一意に特定可能な識別子)が必要なのかなと思うんだけど,多様な表現がつくことを期待しているようにも聞こえ,ちょっと混乱してるんですけど #sigwi2

なるほど.その言語表現を付けたユーザプロファイルが開示されたら有用かもしれません. RT @m2nr: これ自体は、むしろ探索的な場面を指向していると考えています。 #sigwi2

なるほど.では,多様な表現とそれをクエリとした検索という意味では,いかがでしょうか?あるグラフにたくさんの言語表現がついていると,それをインデックスとして用いるのが難しくなるのでは? RT @m2nr: 多様な期間単位での見方が取れると嬉しいです。 #sigwi2

@hijip 捉える期間で解釈が異なるので、その意味では多様な期間単位での見方が取れると嬉しいです。また、同じ変化を急激な変動とみるか、思ったより穏やか、とみるかが多数集まれば、総体としてその対象をどう見ているのか、ということも分かると思っています。 #sigwi2


8.意見情報の時系列を考慮した議論可視化システム
山口恭平,松村 敦,宇陀則彦(筑波大学)


9.文書内の潜在トピック数判定に基づくトピック追跡の試み
芹澤 翠、小林一郎(お茶の水女子大学)

文書に存在する潜在的なトピックを抽出し,それを時系列で追跡
トピック抽出はLDA(Latent DIrichlet Allocation)

トピックは語彙の確率分布で表現

トピックにトピックベクトルを付与
特徴語とその出現頻度


10.Webページ閲覧時におけるユーザ行動理解に向けたブラウザ操作ログ記録ツールの
  開発
杉田賢治(東京電機大学),福原知宏(産業技術総合研究所),
増田英孝(東京電機大学),中川裕志(東京大学)

Web上でのユーザ操作を記録するものだが,タブ切り替えやブラウザ上の検索バーやURLバーまで対象にした点は新しい.Firefoxの拡張昨日として実装.

ページ上への操作は,ユーザの興味を取得するのに使えそうだが,タブ切り替えや新しいタブで開くことがどこまでユーザの興味と関連しているのか?操作と興味に関する調査を行ってから実装するべきでは?

16:45-18:15 セッション3(ロング発表):ユーザ行動分析・推薦
座長: 山田 和明(東洋大学), 副座長: 小林 一郎(お茶の水大学)
11.オントロジーベースのユーザ行動モデルと実規模モバイルサービスでの評価実験
笹嶋宗彦,來村徳信(大阪大学),長沼武史,倉掛正治(NTTドコモ),
溝口理一郎(大阪大学)

目的志向の,モバイル探索の研究
目的からの検索は,初心者には有効とのこと,スケーラビリティを上げる必要があるとのこと
まさにその通りだと思う.

タスク&ドメインオントロジー:日常行動全般の記述に必要な語彙定義
ユーザ行動モデル:ユーザの行動モデル日常行動全般

iアプリとして実装している.
もちろん,このようなアプリを作り実験すれば良い結果が出ると思われる.
提案システムは,ドメインオントロジーと行動モデルの構築コストと
照らし合わせても,一から行動モデルを構築するより良かったことを
示すのが重要じゃない? #sigwi2

アプリケーションやドメインごとに,適したメニューがあるのが理想で,
それがヘビーオントロジー(これはすでに実装されているとして)から
手間なく作成できるのであれば,ありがたいと思う.


12.Analysis of Web News Browsing Behavior on the Micro-Blog
Hao Han and Keizo Oyama(NII)

ツイートとWeb上のニュース上の行動の比較を行う
データセットは,
140万のツイート,NetRatingsから提供された視聴率データ 37000人ほどのデータ(8000万アクセスレコード,時間,ユーザID,ターゲットURL, Referer URL),Yahoo!News 1671件のニュース #sigwi2

1週間ごとに分析.4つの週に分ける.

13.サイト固有のカテゴリ構造を考慮したサジェストインタフェースの提案
木村久美子,中清志都加,堀 雅洋(関西大学)

10:00-12:00 セッション4(ロング発表):分類・クラスタリング
座長: 熊本 忠彦(千葉工業大学), 副座長: 小林 亜樹(工学院大学)
14.楽曲推薦システムに向けた感性クラスタリング手法の提案
涌井秀和,湯川高志(長岡技術科学大学院大学)

感性のクラスタリングかぁ...特徴量は何になるんやろ? #sigwi2

ベースラインは,ユーザに特徴量を入力させ,それに合う音楽を推薦する.
特徴量は,tempo. melody, tune, Vocal voice typeなど.
これらの特徴量の抽出方法は?

筆者の主張(仮説)としては,音楽に対する色彩的印象が,推薦精度を高めるということですかね?そこには,定性的な理由は存在するのでしょうか?

15.RDFデータ検索のためのクエリグラフのクラスタリング手法
飯塚京士、村山隆彦、小林 透、赤埴淳一(NTT)

Linked Data関連の研究

RDFデータからの関係抽出
ラベル付き有効グラフとして表現できる
グラフパターンを抽出.出現頻度でフィルタリング

多くのRDFデータをマージすると,似たようなRDF構造が多くできてしまう.
それらをクラスタリングして,似たような構造を一まとめにする.
これにより,統合RDFデータに対してどのようなクエリで検索をすれば良いのかが
分かる.

16.携帯画面のキャプチャ画像を利用した携帯専用サイト識別手法の提案
服部 元、松本一則、小野智弘(KDDI)

携帯専用サイトか否かを,PCからアクセスした場合と,携帯電話からアクセスした場合とで,どのページの内容をカメラで撮影し,違いがあるか否かを判定する.

携帯キャリアの公開するIPアドレス(ゲートウェイ)帯域からを携帯電話アクセスと判定するのが主流なので,UA偽装では無理です. RT @hijip User-Agentを偽装したら良いんじゃない? #sigwi2

17.人はWeb上の同姓同名人物をどのように判別しているのか
三宅悠生、村上晴美(大阪市立大学)

Web上の同姓同名人物の自動判別のために知見を得るため,本物の人間に分離させる実験をしている
分離するのに有効なキーワードを上げさせている(HPや巣にペットに書いていても書いていなくても良い)
識別キーワードは,キーワード,職業,作品
全体的に:職業,キーワード,作品,顔確認の順

分離しやすい人物の特徴
職業や職歴がスニペットやサイトに記載
業績が記載
キーワードがサイト内に記載
Wikipediaに存在

同意. [コメント] そもそも有名人は著作や職業とかが明らか #sigwi2


13:15-14:45 特別企画「国際会議 ACM Recommender Systems 2010 参加報告」
講演者:奥 健太(立命館大学)
司会: 土方嘉徳(大阪大学)
14:45-15:00 休憩

RecSys2010 概要,研究動向,今後の展望とおまけ
採択率 フルペーパー 19.4%,ショート 41%

全体25件
ソーシャルネットワークに基づく推薦 9件
コンテキストアウェア推薦 1件
グループベース推薦 3件
推薦精度以外の評価指標 4件
伝統的な精度比較 3件
アルゴリズム 3件
ユーザ評価 2件

ソーシャルネットワークに基づく推薦
アイテム推薦,人物推薦,コミュニティ推薦

アイテム推薦
T. Lappas
M. Jamali

ソーシャル推奨ネットワーク
ユーザとアイテム間の推奨関係を表したネットワーク

二つのアイテムを共通で推奨しているユーザを見つける
ユーザはアイテムにタグを張っている.
上記ユーザ集合に共通で付けているタグ
クエリ「カフェ」「おしゃれ」にマッチする推奨アイテムグループを推奨

推奨ユーザ数が大きいほど良い.

ソーシャルネットワーク上の集合知を活用(タグのこと?)
推薦結果が理解可能

人物推薦
L. Pizzato
J. Hannon
E. Baglioni
P. S...

L. Pizzato
RECON
相性の良い人物を推薦

ユーザプロファイルを抽出.どんなメッセージを送っているのか?その履歴から,好みの年齢,体型など共通なところを抽出 #sigwi2

お互いに上記プロファイルと相手のプロファイルがマッチしている人を推薦
個人向け推薦ではなく相互推薦.

個人向け推薦では一つのアイテムを多くのユーザに推薦可能だが,相互推薦であれば,
他の多くのユーザには推薦されるべきではない.

J. Hannon
Twitterに基づくユーザプロファイリング
ネットワーク情報に基づく協調フィルタリングツイートの内容に基づくフィルタリング

コミュニティ推薦
V. Vasuki
ユーザ×ユーザのソーシャルネットワーク
ユーザ×コミュニティのソーシャルネットワーク

ユーザ×ユーザの行列とユーザ×コミュニティ行列を結合
Katz指標で,ユーザがどのコミュニティに属しやすいかを計算

グループベース推薦
L. Baltrunas
集約モデル方式 個々人のプロファイルを集約して,従来のアルゴリズムで推薦
集約候補方式 個々人のプロファイルに従来のアルゴリズムで推薦.その結果を集約化

誰の意見を重視するのかという重みづけ
(事前に定義する方法)
均等に重みづけ,常識的に定義
(インタラクションに基づく方法)
他の家族内の役割を参照して重みづけ
家族内の活動度に基づき重みづけ

Extreme case
最小不幸法 一人でも大嫌いなメンバーがいる場合は推薦しない
最大幸福法 一人でも大好きなメンバがいる場合は推薦する

評価はどうするんだろう?
定性的にどういうケースが多くあるのか,分析するしかないだろう.
そういう研究をした人はいないのではないだろうか?

ランク集約手法
・最小不幸
・メンバーごとでランク付けし,それを集約
 Spearman footrule 順位間の距離が最小となる順列を選ぶ
 Borda count 順位スコア(1st → 3回)でランキング

招待講演
HCI for Recommender Systems
 一般的なヒューマンインタフェースの話だった
推薦システム特有の課題
 推薦結果が理解可能である
 ユーザは推薦アルゴリズムだけでなくアプリケーション全体を見ている

コンテキストアウェア推薦システム
コンテキスト事前フィルタリング
コンテキスト事後フィルタリング
コンテキスト統合モデリング
#sigwi2

Karatzoglou
行列因子分解
ユーザ×アイテムの行列を
ユーザ行列とアイテム行列に分解し,潜在的特徴を抽出し,
推薦

ユーザ×アイテム×コンテキストのぎょうれつを,アイテムの行列,
ユーザの行列,コンテキストの行列に分解.
メリット:事前,事後の処理が不要.

推薦精度以外の評価精度
S.  Castagnos
G. Adomomavis
もう一個

安定性 Stability
推薦システムによる指向予測がどの程度一貫しているか?
新しい評価値データが入る前と後で予測値が一貫しない
 →安定しないシステム #sigwi2

Coverage

今後の展望とおまけ
技術的に高度なものではなく,既存手法をうまく組み合わせ,新問題を解いている
既存課題であるcold-start問題とか,sparsity問題とかに強いという点を主張する論文が多い

評価実験,様々な条件で詳細な実験を行っている
提案手法が良いという評価だけでなく,どういう場面で有効かという考察が多い.

公開データセット
MovieLens, DBLP, Epinions, Flixster

今後の展望
・種々のデータの取得がますます容易に
 ユーザ生成コンテンツ,ソーシャルネットワーク,
・推薦システム利用形態が多様化
 個人からグループ,一方向推薦から相互推薦
・既権課題への取り組み
 cold-start問題,sparsity問題,セレンディピティ


15:00-17:20 セッション5(ショート発表):コンテンツ閲覧と発見
座長: 服部 元(KDDI研究所), 副座長: 斉藤 ひとみ(愛知教育大学), 笹嶋 宗彦(大阪大学)
18. 軸キーワードによる観点選択を実現したインタラクティブ検索の提案
林大策(筑波大学),福原知宏(産業技術総合研究所), 佐藤哲司(筑波大学)

検索結果を把握しやすく,検索クエリの修正をしやすい
2次元の軸に各軸にキーワードを割り当てて,それらとの関連性から
ページをマッピング.その軸のキーワードを任意に変更し,すぐに
マッピングの結果が分かる.

19.情報推薦における気づきの調査に関する基礎検討
大久保和訓,土方嘉徳,西田正吾(大阪大学)

(質問)ユーザが知らなかったことに対しての気づきを促すことも目指す?

一部協調する画面のサンプル
 ロジカルだけどぱっと見,理解できるか分からない もっと強調してもよいかも.
 自分の認識との差異を出してやるのも面白い
 探索的な研究なので,実際にインタビューして,定量的にとれないことも聞いてみたら

個人差が大きいんじゃないか?被験者実験の規模.対象.
 一般人も入れてやった方が良い

気づきの内容・種類 反省的な気づき ネガティブな気づき, ポジティブな気づき
 これらによって満足度が変化するかどうかまで見るのでしょうか?

気づきについて,被験者に定義を示した方が良いか否か?

20.Webページからの注目領域抽出に基づく横断型情報閲覧システム
田崎雄一郎,島田 諭(筑波大学),福原知宏(産業技術総合研究所),
佐藤哲司(筑波大学)


21.新規性の高いユーザ生成コンテンツの自動発見
小川達也,馬 強,吉川正俊(京都大学)

文書に含まれる概念の組み合わせの珍しさに注目
パラグラフ単位で,めずらしい概念の組み合わせを見る
概念ごとに,概念ベクトル?

ページ単位でなく,パラグラフ単位で行っている点
キーワードの組み合わせで新規性を見るのではなく,
それから一般化した概念の組み合わせで新規性を見ている
点が研究の特徴だと思う.


22.携帯端末による位置情報の分布調査およびジオローカルコンテンツ収集システムの
  開発
石田和成(広島工業大学)


23.Webページを視覚的に要約する「表紙」生成エンジンの開発
重田桂誓,松村 敦,宇陀則彦(筑波大学)

スニペットだけでは分かりにくい
Webページに表紙をつける

24.Twitterにおける一連の事象へのつぶやき発見手法
大谷友貴,鈴木政巳,小林亜樹(工学院大学)

リアルタイム性の高い臨場感のあるツイートを探したい

臨場感のあるイベント報告型のツイート イベントツイート
 バースト的に投稿される



|

国際会議WWW2010論文感想その1

Haewoon Kwak, Changhyun Lee, Hosung Park, Sue Moon: What is Twitter, a social network or a news media?, Proc. of WWW'10, 2010.
ソーシャルネットワーク, Twitter, 複雑ネットワーク,べき則,スモールワールド,情報伝搬

Twitterの社会ネットワークとしての特徴,コンテンツであるツイートの特徴,話題の伝搬に関する特徴,ユーザのランキングなどを分析調査した研究である.これだけ,網羅的に詳細に調べた研究としては,本研究が初めてのものである.ツイッターの特徴を知るには,本研究が最も基本的な調査結果として利用できるであろう.

データはTwitterAPIを用いて3週間分集めている.ユーザは,ある一人のユーザから幅優先探索で41,700,00ユーザ分収集している.また,Twitter Search APIを用いて5分ごとに流行トピック(右サイドバーに出るやつ)を4262個取得している.また,それに対するツイートも収集している.

<複雑ネットワークとしての特徴>
・有向ネットワークの基本分析
まず,有向ネットワークの基本特性を分析している.図1は,フォローしている(Followings)とフォローされている(Followers)の数の相補累積分布関数(complementary cumulative distribution function, CCDF)を示している.結果は,100000Followings/Followersまでは,べき則に従うことを示している.また,100000人以上のFollowersのいる人は,べき則分布の予想よりも多くのフォロワーがいることを示している.有名人がツイッターをしているためであろう.これは,他のソーシャルネットワークでは報告されておらず,興味深い報告である.

・フォロワーの数とツイートの数の関係
多くのフォロワーを獲得するには,多くツイートする必要があると考えられる.図2はその関係を示している.フォロワー数が100までは急激に伸びているが,100を超えると横ばいになる.1000を超えるとほとんどツイートをしない人や非常に多くのツイートをする人など分散する.これも,有名人の影響であろう.

・相互関係(双方向リンク)
Twitterでは相互関係の度合いは低く,全ユーザの組の22.1%しかお互いにフォローし合っていないことを報告している.Twitterはソーシャルネットワークサイトというよりもむしろ情報源である.

・最短パス
ユーザ間の最短パスを調査.中央値と最頻値は4.平均パス長は4.12.90パーセンタイル(低い方から並べて90%のところ)は4.8.Twitterのネットワークに対し,平均パス長が4.12というのは非常に短い.単方向リンクの影響か?

・Homophily
Homophilyとは,似ている人々の間では似ていない人々の間よりも高い確率でコンタクトが起こること.フォローし合っているユーザ間の時差について調査.ユーザ数が2000人以下では,相互リンク数が多くなると時間差も増加.

<ユーザのランキング>
ユーザのランキングをフォロワー数上位ユーザ,PageRank,リツイートの合計数でランキングする.フォロワー数上位20ユーザとPageRank上位20位は,リストがほぼ一致する.しかし,リツイートの合計数上位20ユーザは,前者2つとはリストがあまり一致しない.リツイートが多いのはニュース機関となっている.

<流行トピック>
Twitterで取得した流行トピックとGoogle Trendでの流行トピックを比較している.Googleにおいては毎日平均95%が新しい流行トピックであるが,Twitterには72%しかない.Twitter内でのユーザ間のインタラクションが流行トピックが持続する原因となっているかもしれない.同じく,CNNでの流行トピックも取得.すると,多くのものがCNNで発生した流行トピックがTwitterに移っているが,スポーツや事故などは逆のものもある.

流行トピックについて言及したツイートを,singleton, リプライ,mention,リツイートに分けて分析したところ,流行トピックによりさまざまであった.

各流行トピックごとに,新規にツイートしたユーザ数を調べたところ,"apple (computer)"は,徐々にユーザ数が増えているが,"#iranelection"のようなハッシュタグでは,急に伸びたのち,ユーザ数はほとんど増えない.

<リツイートの分析>
フォロワー数とリツイートを受信したユーザ数との関係を調べている.その結果,フォロワー数が1000人までは受信者数の平均は,フォロワー数の影響を受けていない.
一度,リツイートが始まると,そのユーザのフォロワー数には寄らず,ある一定数のユーザに届く傾向があることを示している.

リツイート木を作成してみると,多くのつながりが1パスか2パスとなっている.
リツイートの半分は1時か担いに行われ,75%が1日以内にリツイートされている.

|

ACM RecSys2010 勉強会のノート(セッション9)

国際会議ACM Recommender Systems 2010 (RecSys 2010)の勉強会のノートです.論文紹介は,論文タイトル下の発表者がされ,下記は私が書いたノートです.今回でこの勉強会シリーズも終了です.紹介するのは,「Friends and lovers」のセッションです.みなさん,友達・恋人の関係には興味があるのでしょうか.4件中すべての論文が紹介されました.注目すべきは,9-3の論文でしょう.Twitterでの友人推薦です.ユーザのfolloweesのツイートでプロファイリングした場合と,followersのツイートでプロファイリングを比較しているのは価値があるでしょう.

Session 9: Friends and lovers
9-1 Transitive Node Similarity for Link Prediction in Social Networks with Positive and Negative Links
  高岡幸一(甲南大)
ソーシャルネットワーク
キーワードを入れてからそのキーワードに関連するユーザを推薦

経路の長さ
ノードとその経路のとの間の類似度
ポジティブ・ネガティブな関係(ポジティブは友達関係・ネガティブは敵関係)

基本ノード類似度,v1とv4の関係をみるのに,経路にあるv1とv2及び,v2とv4の類似度を計算している.

拡張ノード類似度を用いて推薦

9-2
友人推薦
個人プロファイル:電話帳
SM(ショートメッセージ)の余剰スペースに電話帳(スケッチ)を埋め込む
ユーザA, Bの間に友人関係がなくても,AとBと関係のあるCがA-Bの関係性が強いと考えれば,AにBを推薦

Jaccard係数を使ってリンク予測(共通の友人が多いほど友人になりやすい)

スケッチの直接交換は安全ではない.スケッチは暗号化.暗号化した情報同士を足し算することができる.なので,Jaccard係数を算出可能.

9-3 Recommending Twitter Users to Follow Using Content and Collaborative Filtering Approaches
  田村航弥(同志社大)
Twitterにおいてユーザにフォローすべきユーザを推薦
コンテンツベースと協調フィルタリングからユーザにフォローすべきユーザを推薦
 ユーザが与えたクエリによって,それに関連するユーザをランキング

ユーザのプロファイリング
(CBF)
 ターゲットユーザの直近の100ツイート
 ターゲットユーザのfollowers followeesの直近の100ツイート
(CF)
 ターゲットユーザのfollowers followees

CBF
ユーザ自身のツイートでプロファイリング
ユーザのfolloweesのツイートでプロファイリング
ユーザのfollowersのツイートでプロファイリング
上記の組み合わせ

CF
ユーザのfolloweesでプロファイル
ユーザのfollowersでプロファイル
上記の両方

オフライン
筆者の周りのユーザからリンクをたどって1000ユーザをテストセット
オンライン
30名の被験者に対して,推薦したユーザを実際にフォローしたいかどうか

FolloweesとFollowersには差がなかった.

9-4 RECON: A Reciprocal Recommender for Online‐Dating
  小林加織里(兵庫県立大)
互いに意気投合しそうな人間を推薦する
出会い系サイトをドメインにしている

出会い系サイトでの履歴からユーザ嗜好を取得
 自分からコンタクトを取った相手の特性
 自分がコンタクトに応じた相手の特性
ユーザ間の相性スコアを計算
自分の嗜好と相手の特性との一致度合い
最後に推薦

特性:性別,年齢,体型
自分が取った相手の特性を記録

xから見たyとの相性
yから見たxとの相性
を求め,相互スコアを上記の調和平均を取る.
これで推薦.

この研究でおもしろいのは,互いからの推薦スコアの調和平均を取ってそれをスコアにしていることか?調和平均をとることによって相互のスコアに差があるものはスコアを下げる工夫をしているのであろう.
ただ,技術的には,それだけ?という気もする.

===

ACM RecSys2010 勉強会ノート目次

http://e-biz.cocolog-nifty.com/blog/2010/12/acm-recsys201-1.html

ACM RecSys2010 勉強会 公式HP
http://qwik.jp/recsys-study/

ACM RecSys2010 公式HP
http://recsys.acm.org/2010/

 


|

ACM RecSys2010 勉強会のノート(セッション8)

国際会議ACM Recommender Systems 2010 (RecSys 2010)の勉強会のノートです.論文紹介は,論文タイトル下の発表者がされ,下記は私が書いたノートです.今回紹介するのは,「Recommending non‐standard items」のセッションです.non‐standard itemsとなっていますが,stanndard itemsは映画でそれ以外という感じでしょうか...8-1は最適化問題の論文です.推薦システムの一つの研究分野と言って良いと思います.8-2は,新規性がよく分かりませんでした.

Session 8: Recommending non‐standard items
8-1 Breaking out of the Box of Recommendations: From Items to Packages
  志甫谷匠(兵庫県立大)
予算を入れれば,Item recommender からアイテム(観光地)を推薦してもらい,それから旅行プランを作成して,それを推薦してくれる.
2近似アルゴリズムを改良.
ナップザック問題の制約付きの場合を扱っている
例えば
 観光地3つ以内
 半径10km以内
 2つ以上講演は含めない

制約を満たしつつ,最適なパッケージを作る.
最適とは何?

適用アルゴリズム
MaxValBound:予算内の上限値を決定する
InsOpt-CR:???
Greedy-CR-Topk:???

データセット
・Movielens
 映画の上映時間をコストとして扱う
 500分以内で映画のパッケージを作る
・TripAdvisor アメリカの10大都市のPOOIに対する評価データ
 1393地点のPOIの評価
 評価の値をコスト
 予算は

パッケージの推薦の質の評価(他のユーザが付けたratingの平均)

8-2 Automatically Building Research Reading Lists
  王元元(兵庫県立大)
ユーザに合う文献リストを自動生成
協調フィルタリング,内容に基づくフィルタリング,グラフランキングなどを適切に組み合わせる

混合アルゴリズム
CF->CBF CBF->CF CF + CBF
これを基本として,各アルゴリズムの中に何種類かあり,170種のアルゴリズムを比較

HITSが他のアルゴリズムより良い
グラフランキングも個人適用した推薦アルゴリズム?

19名の被験者で実験 5-10本
数々のハイブリッド手法と比較して新規性があるのかよく分からなかった.

===

ACM RecSys2010 勉強会ノート目次

http://e-biz.cocolog-nifty.com/blog/2010/12/acm-recsys201-1.html

ACM RecSys2010 勉強会 公式HP
http://qwik.jp/recsys-study/

ACM RecSys2010 公式HP
http://recsys.acm.org/2010/

 

|

ACM RecSys2010 勉強会のノート(セッション7)

国際会議ACM Recommender Systems 2010 (RecSys 2010)の勉強会のノートです.論文紹介は,論文タイトル下の発表者がされ,下記は私が書いたノートです.今回紹介するのは,「Recommending in social networks」のセッションです.今,一番ホットと言って良いテーマだと思います.

Session 7: Recommending in social networks
7-1 Interactive Recommendations in Social Endorsement Networks
  寺田健太郎(立命大)
ソーシャルネットワーク
ソーシャルネットワーク上でオブジェクトを推薦しているサービスが多い
上記のためのサーチエンジンを開発

ネットワーク内で人気のあるグループを抽出し,グループのタグをつけて,インデックスを付ける.
ユーザはクエリを投げて,上記インデックスと比較.

人気のあるマイニング手法(相関ルール)でグループを抽出
グループのタグは???
フィルタリングではタグが同じユーザを削除

グループと人,論文:両方ありえる

7-3 Who is Talking about What: Social Map‐based Recommendation for Content‐Centric Social Websites   
  中島伸介(京産大)
Social Web サイトのコンテンツをユーザの興味に応じて情報推薦する
 新しいユーザに対するコールドスタート問題
 推薦アルゴリズムが複雑なゆえに推薦結果への根拠が分からない問題
Social Mapに基づいた推薦システムを開発
Social Mapとは,IBM社内で開発された手法,ブログの内容をマップとして表示
潜在的なコミュニティを提示
システムはpopularな7つのコミュニティを表示
popularなブログエントリとactiveなブロガーを表示してくれる
その特定のブロガーが各コミュニティでどういうキーワードで貢献しているのかを色づけで表示してくれる.
SocialMapの構築方法
 community extractoin:LDA利用.今点t布潜在的トピックを抽出し,これに基づいたクラスタリング
 コンテンツや人のauthority度を算出

SocialMapに基づいてインタラクティブに情報探索していける点が利点


===

ACM RecSys2010 勉強会ノート目次

http://e-biz.cocolog-nifty.com/blog/2010/12/acm-recsys201-1.html

ACM RecSys2010 勉強会 公式HP
http://qwik.jp/recsys-study/

ACM RecSys2010 公式HP
http://recsys.acm.org/2010/

 

|

ACM RecSys2010 勉強会のノート(セッション6)

国際会議ACM Recommender Systems 2010 (RecSys 2010)の勉強会のノートです.論文紹介は,論文タイトル下の発表者がされ,下記は私が書いたノートです.今回紹介するのは,「All about gourps」のセッションです.いずれの発表も面白いものでした.

6-1は,コミュニティの推薦で,Social networkとaffiliation network(ユーザ×コミュニティ)の両方を使うというものです.非常に面白いアイディアだと思います.6-2は,グループベースの推論で代表手法であるAggregated modelsとAggregated predictionを比較するというもので,非常に価値のある論文だと思います.6-3は,グループベース推論のうちの,Aggregated predictionに注目し,3つの仮説を検証するというもので,いずれの仮説も面白く,価値のある論文だと思います.
私は,このセッションが最も面白かったように思います.

Session 6: All about groups
6-1 Affiliation recommendation using auxiliary networks
  濱崎雅弘(産業技術総合研究所)
人×グループのネットワークもある.
ユーザにグループを推薦
Social networkとaffiliation networkの両方を使う
affiliation networkとは?コミュニティに参加しているか否か.

ユーザ+グループの行列Cを作成
2種類の手法でaffiliation推薦
(1) 行列Cをランダムウォークした場合のユーザからグループへの遷移のしやすさを求める(Kats CIKM'03)(2) 行列にSVDをかけてユーザとグループの潜在的特徴を求める

評価用データセット,OrkutとYoutube
上位50件を推薦した結果を提示
各ユーザの成功率.(オフラインで実験)
Katzの方が良かった.

affiliation networkを使うだけでなく,social networkも利用した方が良かった.

6-2 Group‐Based Recipe Recommenations: Analysis of Data Aggregation Strategies
  奥健太(立命大)
グループベース推論
レシピの推薦
代表手法であるAggregated modelsとAggregated predictionの比較はこれまでされてこなかった.
Aggregated models:個人モデルを統合しグループモデルを生成.グループモデルに基づいてCFで推薦
Aggregated prediction:個々のモデルからCFにより推薦候補を出す.個別のスコアをグループ向けに集約
どっちが良い?Aggregated models
重みづけモデルも提案
Uniform model:
Heuristic model:常識にしたがい主導で与える
Role-based model 家族内の役割を参照して重みづけ
Family-log model:家族内の活動度に基づき重みづけ
実験結果から,Family-log modelが最も良いことを示している.
Heuristic modelとは?著者が独断で父母子で値を得る
Role-based modelとは,父母子と役割を分担し,他の家族のデータの平均から重みを得る
活動度はどうやって得る?その人の評価データの数.
評価データ密度に応じて推薦手法を切り替える.評価データ密度が小さいデータはAggregated predictionが優れている.評価データ密度が多くなると,Aggregated models
評価データ密度:すべての評価できるアイテムのうち,そのユーザが評価したか?
一人でもめちゃくちゃ嫌いな人がいたら,推薦しない.一人でもむちゃくちゃ好きな人がいたら推薦する.
なぜ,extreme case heuristicsがセレンディピティ向上に影響するの?
 著者の主観,一人のextremeは他人にとってはなじみがないかもしれない.

6-3 Group Recommendations with Rank Aggregation and Collaborative Filtering
  奥健太(立命大)
グループベース推論のうちの,Aggregated predictionに注目.
ランク集約手法に基づいたグループ推薦.
(3つの仮説)
グループ内の人数が多ければ多いほど,グループ内のコンセンサスを得ることは難しい
個人向け推薦の精度はグループ向け推薦の精度より高い
グループ内のメンバの嗜好が類似していればグループ推薦の効果は高くなる

ランク集約手法
ユーザが選んだ順位がある
Spearman footrule 順位間の距離が最小となる順列
Borda cout 順位スコアに応じてランキング
ユーザはratingを付けている

グループの人数と推薦精度には相関はない
個人向け精度が低い時はグループ向け精度の方が高くなる
グループ内類似度と推薦精度とは相関あり

===

ACM RecSys2010 勉強会ノート目次

http://e-biz.cocolog-nifty.com/blog/2010/12/acm-recsys201-1.html

ACM RecSys2010 勉強会 公式HP
http://qwik.jp/recsys-study/

ACM RecSys2010 公式HP
http://recsys.acm.org/2010/

 

|

ACM RecSys2010 勉強会のノート(セッション5)

国際会議ACM Recommender Systems 2010 (RecSys 2010)の勉強会のノートです.論文紹介は,論文タイトル下の発表者がされ,下記は私が書いたノートです.アルゴリズムは人気がないのか,4本中の2本のみの紹介でした.
勉強になったのは,コンテキストに基づくアルゴリズムの分類.pre-filteringとpost-filtering.アルゴリズムの研究としてはよくやるパターンです.

Session 5: Algorithms
5-2 Multiverse Recommendation: N‐dimensional Tensor Factorization for Context‐aware Collaborative Filtering
  江口浩二(神戸大)
コンテキスト指向情報推薦
コンテキストに基づくpre-filtering
 コンテキストに基づいてデータを選別し,その後推薦手法を実行
コンテキストに基づくpost-filtering
 推薦手法を実行し,その後,今天気ストを用いて推薦結果を選別
コンテキストモデリング
 コンテキストを統合したモデル[Oku, 2006]
提案手法:テンソル因子化法を用いた協調フィルタリング
N次のテンソル
ユーザ×アイテム×コンテキスト1×・・・×コンテキストN
3次元のテンソルの場合,右図のように1つのコアテンソルと3つの因子行列に分解
no context, pre-filteringの2種類の方法, 提案手法を比較.

5-3 Collaborative filtering via Euclidean embedding
  大久保和訓(阪大)
Euclidean Embeddingという著者が提案する.
ユーザとアイテムを同一のユークリッド空間い埋め込み,この空間上のユークリッド距離を用いて推薦を行う
MF(Matrix factorization)ど等程度の精度と拡張性
直感的な理解が可能

目的間数式(5)を勾配効果法で解き,同一のユークリッド空間上におけるユーザとアイテムの位置を算出する.

EEモデルの利点は,MFより効率的に探索が可能
あるユーザに推薦するアイテムを推薦する場合,ユーザからある超平面の片側にあるアイテムをすべて探索しないといけない.
EEモデルではk近傍探索で可能

===

ACM RecSys2010 勉強会ノート目次

http://e-biz.cocolog-nifty.com/blog/2010/12/acm-recsys201-1.html

ACM RecSys2010 勉強会 公式HP
http://qwik.jp/recsys-study/

ACM RecSys2010 公式HP
http://recsys.acm.org/2010/

 


|

ACM RecSys2010 勉強会のノート(セッション4)

国際会議ACM Recommender Systems 2010 (RecSys 2010)の勉強会のノートです.
論文紹介は,論文タイトル下の発表者がされ,下記は私が書いたノートです.
最も私が興味を持っているセッションです.ただ,一番興味深かったのは,私が担当した4-4の論文です.それ以外の論文は,私の事前の期待値に比べると,いまいちでした.4-4は推薦リストの大きさと満足度を比べております.ネタ的には,経営心理学の分野では多いようなのですが,やはり情報推薦の分野では初めての試みで面白いと思います.

Session 4: Beyond prediction accuracy
4-1 Performance of Recommender Algorithms on Top‐N Recommendation Tasks
  神嶌敏弘(産業技術総合研究所)
行列分解はRMSEを最小化する
 上位N位のアイテムを提示するときの性能は?
MovieLensとNetfぃxデータで実験
データを大量の評価がなされるショートヘッドと残りのロングテールに分ける
評価:5段階評価で評価5を適合アイテムと想定し精度・再現率を算出

非個人化手法
近接法 Sarwar型
行列分解 AsySVD, SVD++, PureSVD

RMSE(2乗平均平方根誤差)を最小化しないPureSVD, NNCosNgbrは良い
個人化のないtopPopは全体ではまあまあだが,ロングテールではだめ.

潜在変数が少ない方が全体では良いが,ロングテールはだめ.

PureSVD 中立的な値で欠損値を埋めてSVDするだけのシンプルな手法だが,Top-Nでの性能は非常に良いせっかく疎なデータなら,そのデータだけに適用すれば良いのでは?

4-2 On the Stability of Recommendation Algorithms
  Ta Son Tung(立命大)
安定性:学習データが増えても,一貫して同じような予測結果を返すシステムは安定性の高いシステム

(下記推薦手法を比較)
アイテム平均
アイテム平均
Item-based CF
User-based CF
Matrix Factorization

安定性に影響を及ぼす要因
・Data Sparsity
・Number of new ratings added
・New Rating Distribution
・Data Normalization

4-3 Optimizing Multiple Objectives in Collaborative Filtering
  伊藤ゆかり(同志社大)
アイテムの有用性:
popular嗜好度が高いユーザにはpopularityが高いアイテムを
popular嗜好度が低いユーザにはpopularityが低いアイテムを
推薦
推薦に直接関係しない外的要因の埋め込み手法
在庫??
実験
MovieLens data set
ユーザサイド:ベースラインで22位だったアイテムを高ランクにできた
システムサイド:在庫しか考えない推薦よりも,提案手法ははるかに効率的に不良在庫を解消できた

研究のやりたいことっていったい何?いまいちよく分からん.

4-4 Understanding choice overload in recommender systems
  土方嘉徳(阪大)
以下,私が担当した論文ですので,詳しく書いております.段落冒頭の数字は,節番号と段落番号に対応しております.
1-2
推薦リストが大きくなりすぎると,たとえ良い質の高いアイテムばかり推薦していたとしても,情報洪水の問題を軽減できたとしても,新たに選択過多(choice overload)に陥ってしまう.
1-3
大きいアイテム集合よりも,より小さいアイテム集合から選択する方が満足することも文献[5, 7, 18]で知られている.choice overloadの問題は,推薦システムを対象にしてはいないが,文献[3, 5, 13, 15, 14, 18]で研究されている.しかし,推薦システムにおいて,上記の問題及び現象は研究されてはいない.
1-4
この研究では,Web上での映画推薦においてchoice overloadについて調べる.推薦リストのサイズと質を様々に変えてみる.実験後の質問によって推薦の魅力,選択の難しさ,選んだアイテムの満足度を調べる.さらに,意思決定の時間,情報探索も調べ,どのような時にchoice overloadが発生するかを調べる.

2-1-1
文献[7]がchoice overloadの最初の研究.人々はより多いchoice setに惹かれるが,実際にはchoice difficultyが増し,満足度が下がることを示している.
2-1-2
choiceが多いと,心理的にはその多さからくる利益が,全ての候補と比較しないといけないというコスト,(もっとアイテムがあると考えて)選択すると後悔するかもしれないという不安,多くの候補から選択するならより質の高いアイテムを選択できるという期待に負けてしまう[文献 2, 16, 17].

2-2-1
choice overloadはchoice set の中のアイテムにほとんど魅力に差がない時にも発生する[文献 1, 3].
2-2-2
これまでのchoice overloadの研究は,choice setの中に興味の高いものから低いものまでさまざまなアイテムが混じっていた.推薦システムは,質の高いアイテムのみ推薦し,これまでの知見とは異なる可能性がある.
2-2-3
アイテムが魅力的でも,比較するのが難しければ,choice overloadは大きくなる[文献 14].
choice overloadはアイテムセットのエントロピーが増えれば増える[文献 3].アイテムセットのエントロピーは,アイテムの数,アイテムの属性の数,属性におけるアイテムのばらつきなどで計算される.
2-2-4
情報推薦では,パーソナライズドされたアイテムが提示される.小さい推薦リストでも良いアイテムが含まれている.大きい推薦リストでも良いアイテムが含まれているが,魅力の似た(魅力の高い)アイテムばかりではあるが,属性はそれよりは多様で,よりchoice overloadが発生するかもしれない.したがって,本研究では情報推薦での推薦リストにおけるchoice overloadについて調べる.

2-3
ユーザ満足には,2つの要素が影響している.一つは,ユーザはより大きくて多様で魅力的なアイテムセットを受けたいと考える.もう一つは,大きいアイテム集合は,choice diffcultyを増やしてしまうことである.
これを調べるため,著者らは推薦リストのサイズと質を変化させて調べている.ベースラインは,5つのアイテムから成る小さい推薦セット.推薦リストのサイズの影響を調べるために,20個のアイテムから成る大きい推薦セット.推薦リストの質の影響を調べるために,20個のアイテムのうち上位5個はTop-5を提示し,下位15位は,さらに低いランクからサンプル的に取り出して並べたものを提示する.実験後の質問によって推薦の魅力,選択の難しさ,選んだアイテムの満足度を調べる.また,アイテムの多様性についても尋ねる.また推薦における経験度合いも計測する.さらに,意思決定の時間,情報探索も調べ,どのような時にchoice overloadが発生するかを調べる.

3
MovieLens datasetで実験(6040 users 3900 movies).Matrix Factozation algorithmで推薦.5-cross validationで実験.1被験者1条件で実験.
3-1
Baseline: Top-5の推薦リスト
Top-20: Top-20の推薦リスト
Lin-20: Top-5の推薦リスト+下位99, 199, 299位...と並べて表示したもの
3-2
被験者に推薦の準備として10個のアイテムにratingを付けさせた.
半分のユーザには予測推薦スコアを提示し,もう半分のユーザには提示しなかった.
ユーザは見たい映画を1つ選ぶ.実験参加者には3ユーロ支払った.174人が参加.タスクを不完全に実行した
被験者や,実験時間があまりに短い参加者は取り除いた.

3-4
29個の質問を7段階で尋ねた.

4.
推薦セットの魅力,choice difficulty, 選択アイテムへの満足度との相互作用を解析するために,Structural Equation Model(SEM)(共分散構造分析)がデータに適用された.共分散構造分析は、潜在変数間の因果関係を表す構造方程式モデルと、観測変数間の関係を表わす測定方程式モデルを、誤差変数を入れて結合したものである。共分散構造分析には 1) 構成概念間の因果関係を分析できる 2) モデルに学習機能がある 3) 双方向の因果関係を扱 うことができる 4) 因果関係を直接効果と間接効果に分解することができる、などの特徴がある。

図2がその結果である.有意な関係に矢印を付けている.カイ二乗検定の結果,良いモデルを示している.
仮説通り,また過去の文献通り,アイテムの魅力は満足度にpositiveな影響を与え,choice difficultyにnegativeな影響を与えている.アイテムの魅力そのものは,推薦セットのアイテムの多様性に強くpositiveな影響を受けている.

図2(一番上の実験条件の比較は無視して)では,choice overloadが起こったかどうかは分からない.そこで,各操作が満足度に与える影響を調査した.Top-20やLin-20がTop-5に比べてユーザ満足度に良い影響を与えるのか悪い影響を与えるのかは分からなかった(図3).このことから推薦セットを長くすることはユーザ満足度に影響を与えないことが分かった.

各操作はユーザ満足度に影響を与えないが,これは推薦の質とchoice difficultyのトレードオフが起因しているように思われた.この仮説を検証するために,各操作の主観概念への影響を調べた.Top-5とTop-20,Top-5とLin-20を比較した.Top-5に比べてTop-20は推薦リストの多様性とchoice difficultyにpositiveな影響を与えていた.Top-5に比べて,Top-20は推薦リストの多様性を高め,そのことが推薦の魅力を増していた.しかし,choice difficultyを上げてしまったために,満足度はTop-5と変わらなかった.

Lin-20はTop5よりも推薦リストの多様性にpositiveな影響を与えていた.逆に推薦リストの魅力にはnegativeな影響を与えていた.しかし,興味深いことにLin-20はchoice difficultyには直接には影響を与えていなかった.しかし,positiveな残留効果(推薦リストの質やchoice difficultyに対する制御感)を与えていた.この残留効果は,6位以下の下位のアイテムを見ることによって満足度が向上したことを意味するものと思われる.質問では,ユーザの専門性(経験)も聞いていたが,専門性(経験)は推薦セットの多様性や魅力にpositiveな影響を与えていた.専門性(経験)があれば,choice difficultyは下がるようだ.
http://eow.alc.co.jp/prone/UTF-8/#
4.2
Top-20では,41%のユーザは上位5位からアイテムを選択していたのに対し,Lin-20では,74%のユーザは上位5位からアイテムを選択していた.Top-20のmedian rankは8.5で,Lin-20は3.0で有意差があった.Top-20は,下位のアイテムも調べる必要があり,これは調査に対しての労力につながる.
図5は,各順位のアイテムの選択回数と,調べるのに要した時間である.Top-20はLin-20よりも,回数も時間も大きくなっていることが分かる.ANOVA(分散分析)を行ったところ有意性が確かめられている.

5.
我々の結果は,choice overloadは推薦セットの魅力とchoice difficultyに依存していることが分かる(何で言えるの?).
結果をまとめると,Top-5は多様性は限られるが,選びやすかった.Top-20は多様性は増すが,選びにくかった.Lin-20は,多様性は増し,選びやすくはなったが,質が落ちた.ということになる.結果として,どの条件でも満足度は同じになった.behavioral measurementによりTop-20はLin-20に比べてchoiceのコストがかかることが分かった.
どのぐらいのサイズの推薦リストが良いかはこの結果からは分からず,今後の課題である.しかし7ぐらいが一番良いのではないかと推測している.ユーザ満足度は推薦の正確さだけに依存するわけではない[文献 6, 11, 12].
今後は,意思決定のステージを考慮したり,ユーザのexperienceを考慮するなど,心理的な面からアイテムの選択に関する研究をすべきであろう.

===

ACM RecSys2010 勉強会ノート目次

http://e-biz.cocolog-nifty.com/blog/2010/12/acm-recsys201-1.html

ACM RecSys2010 勉強会 公式HP
http://qwik.jp/recsys-study/

ACM RecSys2010 公式HP
http://recsys.acm.org/2010/

 

|

ACM RecSys2010 勉強会のノート(目次)

2010年12月12日に兵庫県立大学で行われました,国際会議ACM Recommender Systems 2010 (RecSys 2010)の勉強会の参加報告です.何回かにわたって,特に興味深かった論文について私のノートを公開いたします.国際会議ACM Recommender Systemsは,情報推薦・推薦システム分野のトップカンファレンスで,同分野の最新の動向が分かります.

ACM RecSys2010 勉強会 公式HP
http://qwik.jp/recsys-study/

ACM RecSys2010 公式HP
http://recsys.acm.org/2010/

勉強会では,発表時間は,総合10分(論文紹介5分 + レビュー2分 + 質疑3分),スライド枚数は,タイトル1枚 + 論文紹介5枚以内 + レビュー1枚,であり,どの発表者も簡潔にうまくまとめておられました.発表者の皆様に深く感謝したいと思います.

また,これだけ良い勉強会になったのも,企画してくださった立命館大学の奥健太先生と,兵庫県立大学の北山大輔先生のお力によるところだと思います.両先生方にも感謝したいと思います.

以下,目次です.ノートの詳細は,セッションごとにまとめております.本日から,数日に分けて掲載していきたいと思います.

Session 2: Innovative preference expressions and usage assessments  (12月21日公開)
2-1    Global Budgets for Local Recommendations   
    北山大輔(兵庫県立大)   
2-2    Aggregating Preference Graphs for Collaborative Rating Prediction
    藤本和則(近畿大)   
2-3    Eye‐Tracking Product Recommender's Usage
    松尾純輝(兵庫県立大)   

Session 4: Beyond prediction accuracy   (12月22日公開)
4-1    Performance of Recommender Algorithms on Top‐N Recommendation Tasks
    神嶌敏弘(産業技術総合研究所)   
4-2    On the Stability of Recommendation Algorithms
    Ta Son Tung(立命大)   
4-3    Optimizing Multiple Objectives in Collaborative Filtering
    伊藤ゆかり(同志社大)   
4-4    Understanding choice overload in recommender systems
    土方嘉徳(阪大)   

Session 5: Algorithms    (12月27日公開)
5-1    Fast ALS‐based matrix factorization for explicit and implicit feedback datasets      
5-2    Multiverse Recommendation: N‐dimensional Tensor Factorization for Context‐aware Collaborative Filtering
    江口浩二(神戸大)   
5-3    Collaborative filtering via Euclidean embedding
    大久保和訓(阪大)   
5-4    Online Evolutionary Collaborative Filtering      

Session 6: All about groups    (1月4日公開)
6-1    Affiliation recommendation using auxiliary networks      
6-2    Group‐Based Recipe Recommenations: Analysis of Data Aggregation Strategies
    奥健太(立命大)   
6-3    Group Recommendations with Rank Aggregation and Collaborative Filtering
    奥健太(立命大)   

Session 7: Recommending in social networks    (1月7日公開)
7-1    Interactive Recommendations in Social Endorsement Networks
    寺田健太郎(立命大)   
7-2    A Matrix Factorization Technique with Trust Propagation for Recommendation in Social Networks
    鈴木 優(名古屋大)   
7-3    Who is Talking about What: Social Map‐based Recommendation for Content‐Centric Social Websites
    中島伸介(京産大)   

Session 8: Recommending non‐standard items  (1月11日公開)
8-1    Breaking out of the Box of Recommendations: From Items to Packages
    志甫谷匠(兵庫県立大)   
8-2    Automatically Building Research Reading Lists
    王元元(兵庫県立大)   
8-3    Learning in Efficient Tag Recommendation
    志甫谷匠(兵庫県立大)   
8-4    Recommender Algorithms in Activity Motivating Games      

Session 9: Friends and lovers (1月12日公開)
9-1    Transitive Node Similarity for Link Prediction in Social Networks with Positive and Negative Links
    高岡幸一(甲南大)   
9-2    A Lightweight Privacy Preserving SMS‐based Recommendation System for Mobile Users

9-3    Recommending Twitter Users to Follow Using Content and Collaborative Filtering Approaches
    田村航弥(同志社大)   
9-4    RECON: A Reciprocal Recommender for Online‐Dating
    小林加織里(兵庫県立大)   

Workshop:
W-1    Music Recommendation and the Long Tail
    神嶌敏弘(産業技術総合研究所)   

|

第151回 データベースシステム研究発表会 メモ

DBS研で私の書いたメモです。

===========================================
第151回 データベースシステム研究発表会
11月12日(金)~13日(土)
http://www.ipsj.or.jp/09sig/kaikoku/2010/DBS151.html
http://www.ipsj-dbs.org/index.php?FrontPage

Pa0_0001_2

[16:20-17:35]■1A.検索・推薦   座長: 春本 要(大阪大学)
(1) レアクエリを対象とした非クリック分析によるクエリ推薦方式の提案
   ○宮原 伸二,片渕 典史,片岡 良治(NTTサイバーソリューション研究所)
・出現回数の少ないレアクエリを対象.クエリを推薦.
クリック情報だけではなく非クリック情報も利用.
・関連研究 Optimal Rare Query Suggestion With Implicit User Feedback
クリックグラフと何を選択しなかったというスキップグラフを利用
・提案手法
クリックグラフによるクエリ間の関連度を計算.
 ここの関連度の計算は,共起度とか使う方が自然なような気がする
検索順位を考慮した非クリックグラフによるクエリ間の関連度を計算.
 検索順位が高いほど,query-url間の重みを大きくする.
 またクリックされた時間が新しいほど重要なURLとする.
・評価
ベースラインはクリック履歴のみ用いた手法

[10:00-11:40]■2C.ソーシャルメディアⅠ   座長: 土方 嘉徳(大阪大学)

(19)ブックマーク類似度を用いたソーシャルブックマーク汚染対策手法の提案と評価
   ○畑中 貴弘,久松 潤之(大阪電気通信大学)
ソーシャルブックマーク汚染
多くの一般的なユーザには価値のないページが高く推薦されること
汚染を引き起こすユーザはあるタグがついたページのほぼすべてをブックマークしている.

ユーザ間u,vのブックマーク類似度を計算.ブックマーク類似度の高いユーザをブラックリストとして登録.vがすでにブラックリストに登録されていたら,uもブラックリストに登録.
ブラックリストに登録されているユーザのすべてのブックマークがオセンを導くわけではないので,
ブックマーク数を低減する(ちょっと理由が分からん)
(土方コメント)
やはりそうか,一般のユーザ間のブックマーク類似度は相当低いのか

(20)ソーシャルタグの上位下位関係に基づく散策的ブラウジング支援
   ○木村 清尭,湯本 高行,新居 学,高橋 豐(兵庫県立大学)
散策的ブラウジングの支援
良質なWebページ源としてソーシャルブックマークを利用(Pagerankではだめ?)
幅広い内容のWebページの取得を重視(Diveristyの向上やな) #dbs151
 汎化ページ,類似ページ,関連ページ
上下関係にあるタグのペアを取得
そのタグを使ってSBMに問い合わせ.
汎化は上の概念,類似は同じ概念,関連は兄弟タグを使うさらに下位概念が違う

(21)マイクロブログサービスの位置情報タグと発言コンテキスト解析を用いた行動推定システムの設計
   ○山田 和貴,斉藤 裕樹(東京電機大学)
Tweetmap -> http://tweetmap.info
ある地理位置における発言から利用者の次の行動を予測
予測される経路を基に適切なサービスの提供
GPS情報からは,なぜ通ったのかはわからない(近道?景色をみるため?)
 →つぶやき内容から判定
発言内容に基づ次の行動の予測をベイズ推定で
発言内容は一単語(「竜馬」)(任意の文章を対象とした任意の単語を対象にできるの?そんなにメッセージはあるの?)

(22)ミニブログにおける注目語抽出手法の提案と注目語を用いたメディア間での話題追跡
   ○加藤 慶一,秋岡 明香,村岡 洋一,山名 早人(早稲田大学)
複合語で構成される固有名詞をTwitterのログから抽出する
Twitterで番組のタイトルや作品のタイトルは放映日,公開日に集中することが多い.
急に出てきた語は固有名詞である可能性が高い.

出現回数が急上昇した名刺を注目.それから複合語を取得.
(バースト検出すれば良いのでは?)
Twitter  Sample Streem API使用

[13:00-14:15]■3A.検索・抽出   座長: 灘本 明代(甲南大学)

(23)デフォルメ地図検索のための地理的特徴抽出
   ○松尾 純輝,北山 大輔,李 龍,角谷 和俊(兵庫県立大学)
デフォルメ地図検索エンジン.ユーザの目的と合致する順にデフォルメ地図をランキングする.
ランキングに有用な特徴の抽出.26次元の地図的特徴+11次元の画像特徴.
二種類の目的に基づく特徴抽出実験
経路確認と位置確認(どんな観光地があるかどうかを知ること)
SVMで,経路選択に有用か,位置確認に有用かに分類.
実験では,ユーザに地図60枚を見せ,経路選択に有用か,位置確認に有用かを判定.
質問:地図は画像のはずだが,オブジェクトの数とかランドマークの数はどうやって抽出してるの?
質問:実験では,ランドマークを知っていたかどうかの調査はしているのか?
質問:なぜSVM?
(以下,コメント)
将来性のある面白いテーマだと思います.

(25)QAサイトにおけるS項目による回答検索システム   ◯見市 高一,川越 恭二(立命館大学)
情報量,参考サイトの有無,質問と回答との同じ語の数,お役立ち度,グレード
が読者の求める項目と仮定.どれを重視するかは読者によって異なると仮定?
予備実験から前者3つが重要であることを示している
さらに,抽象的な回答,丁寧語を用いていない回答,句読点の存在しない回答
が求めない回答を表すとして利用.
利用者は,これらのS項目に対して,0or1を選択することで,検索に反映できる.
質問:結局S項目とは何か?
質問:これらの項目はすでにいろいろな研究で扱われているのでは?
質問:文章の書き方に注目した手法のように見える.同じような文体の回答を求めるような検索に有効?
質問:S+とS-はひとまとめで評価?それぞれ別に評価はしてない?

[14:40-16:20]■4C.ソーシャルメディアⅡ   座長: 大塚 真吾(神奈川工科大学)

(40)ソーシャルブックマークにおける有用なユーザの発見
   ○田代 祐一,大石 哲也,越村 三幸,藤田 博,長谷川 隆三(九州大学)
   ソーシャルブックマークのユーザの中から,あるトピックに関して有用だと思われる
   ユーザを発見し,評価する
ブックマークネットワークにHITSを適用.
評価は,上記手法で上位にランクインしたユーザと,トピック内の情報をたくさんブックマークしているユーザの比較.
ランクインしたユーザ群がブックマークしているページとテスト用ユーザがブックマークしているページの適合度で比較
質問1:有用なユーザを探してどうしたいのか?
質問2:トピックもアルゴリズムに組み込んでは?
質問3:ネガティブなページも「それと認識するために」ブックマークしているユーザもいるのでは?

(41)ソーシャルメディア上での行動に基づく「意外な情報」の提供者になり得る人物の検索手法
   ○後藤 清豪,高田 秀志(立命館大学)
   ソーシャルメディア上でのユーザの行動を基に、「意外な情報」を発信する人物を検索
   可能にする
ソーシャルメディア上の人物間のつながりの強さ(類似度)を測る研究は結構やられている.
(詳細は参考文献参照)
普段意外な情報を提供すると思っている人が,頻繁に返答,引用,お気に入りをしている他のユーザを,新たな意外な情報を提供する人として推薦する
評価は,Follow Finder,Twitter公式おすすめ,提案システムと比較している.
精度がやや向上し,そのばらつきが減少している.

コメント1:意外な情報にこだわって欲しかった.情報をばらまいている人,それに飛びついている人を発見してしまう.
コメント2:実際どんな情報をつかまえたのかというのを見てみたら良いのでは?
コメント3:友達同士だから新しい気づきはないと言っているのに,周りの人の情報を使って推薦しているのはなぜ?

(42)User-Generated Contentにおける潜在情報抽出手法の提案
   ○内村 圭佑,灘本 明代(甲南大学)
   UGCに特有で且つ重要な情報を潜在情報と呼び,UGCと一般のWebを比較し潜在情報の
   抽出を行う
コミュニティ内に特有かつ重要な情報(潜在情報)を推薦
差分抽出手法と重要度計算手法の両方を用いて推薦.
差分抽出手法では,スレッドに特有な情報を持つコメントを取得
重要度計算手法はテーマに対して重要なコメントを抽出
差分抽出手法は,一般のHPで得られる情報とそのスレッドで得られる情報との差分を取得する.
差分は語単位で行う.
重要度は,テーマに対しての熟知度を計算(網羅性,特化性,専門性から判断)
 Wikipediaで使われている単語を使っていたら網羅度を上げる.
 特化性,Wikipediaページをセグメントに分割し,各セグメントに対してどれだけ詳しく述べているのかで判定.
 専門性,文書の理解容易性を測るために用いる単語.Yahoo!知恵袋で使われる単語を用いていれば上がる.
重要度は貢献度も利用.スレッドの呼応関係にあるものを上げる.
客観度は客観的な立場で書かれたコメントを上げる.形容詞が多いものはダメ.
被験者6名.スレッド,具体的な映画のスレッド
タスク:重要であると思ったコメントにチェック.

(43)SNSを利用した協調フィルタリングによる番組推薦手法
   ○澤井 里枝,有安 香子,藤沢 寛,金次 保明(NHK)
   SNSの書き込みを利用することで視聴プロファイルを作成し,番組推薦する手法の提案
   とその実装を行う

Twitter利用.フォローとハッシュタグを利用.
SNS上で関係のあるユーザ,代表的なユーザの発言を利用して番組推薦する.
番組名を表すキーワードは事前に与えておく
関連ユーザ集合を獲得.その関連ユーザの番組のEPG情報のテキストから構築したユーザプロファイルから,それらを統合したプロファイルを作成.推薦対象の番組から作成したコンテンツモデルと比較.
番組の希少性も利用.対象番組と同じ種類(EPG情報のジャンルを使用)の番組が少ないほど上げる.
質問:内容を用いない場合と推薦結果は変わる?内容を用いようと思った理由は?
質問:NHKの視聴者には高齢者が多いが彼らはSNSを使っているの?
質問:ハッシュタグは#NHKのみ使っているが,他の番組のハッシュタグを使った場合はどうなるの?

|

その他のカテゴリー

Web研究 | その他 | 学会 | 経済・政治・国際