« 2011年1月 | トップページ | 2011年4月 »

2011年3月

国際会議WWW2010論文感想その3 (Youtubeコメント分析,評判情報分析)

Stefan Siersdorfer, Sergiu Chelaru, Wolfgang Nejdl, Jose San Pedro: How useful are your comments?: analyzing and predicting youtube comments and comment ratings, Proc. WWW'10, 2010.

Youtubeコメント分析,評判情報分析,情報信頼性,極性判定,センチメント分析

Youtubeのコメントの評価に関しての調査研究である.2009年に収集した67,290個のビデオと約600万個のコメントを用いている.コメントに対するレーティングが主要な調査対象である.Youtubeのレーティングは,thumb upとthumb downに投票できるが,どのような数のレーティングを受けたのかは,その差しか分からない.これが調査を難しくしているのであるが,全体の投票数はともかく,絶対値としてその差がどれだけあるのかをレーティング結果として用いている点が特徴である.
調査内容と調査結果は次のようである.

・ビデオのコメント数の分布(図2).1つのビデオあたりのコメントの平均数は475.
・コメントレーティング(thumb upの総数とthumb downの総数の差)分布(図3).平均0.61でややpositiveに偏りがち.
・SentiWordNetを用いてセンチメント分析.評価が低いコメントに関連する単語のpositive値/negative値の分布と,評価が高いコメントに関連する単語のpositive/negative値の分布と(図4)
・SentiWordNetを用いてセンチメント分析.5Neg(レーティング-5以下のコメントセット),0Dist(レーティング0のコメントセット),5Pos(レーティング5以上のコメントセット)に分けて,それぞれのセットのセンチメント値(コメント中の単語の平均センチメント値?)(図5)
・SVMによるコメントレーティングの識別.5Neg, 5Pos, 0Distの分類.表2.F値で0.7程度の識別結果になっている.
・動画の議論の招きやすさを調査.動画ごとにコメントレーティングの分散を見ている.分散が高いと議論の招きやすい確率が高く,低いと議論を招きにくい確率が高いとしている.議論の招きやすさは5人の判定者にビデオを見てもらっている(1,2,3の3段階.3が議論を招きやすい).分散が高いビデオのスコアは2.085で,低いビデオのスコアは1.25.タグについても同様の評価を行っており,そのタグが付けられたビデオのコメントを対象として,分散が高いタグのスコアは1.53で,低いビデオのスコアは1.16.
・カテゴリごとのコメントレーティングの分布(図10)
・カテゴリごとのセンチメント値の分布(図12)

(総評)
調査内容はありきたりで,amazonや他のレビューサイトに対しては,同じことまたは似たようなことは行われていると思われる.結果も,当たり前のことがデータとして確認できたという域を出ず,サプライズはない.前半のコメント数の分布やratingの分布,+のratingのデータセットと-のratingのデータセットにおける単語の極性の分布,コメントの極性予測までの内容では,採録は難しかったと思われる.しかし,議論を招きやすい(意見が分かれる)動画であったかどうかという分析は面白い.調査内容にやや脈絡のなさはあるが,合わせ技で一本取ったような論文である.調査研究なので当たり前だが,統計的有意差も出している.

|

国際会議WWW2010論文感想その2 (ソーシャルネットワーク,情報信頼性)

Jure Leskovec, Daniel Huttenlocher, Jon Kleinberg: Predicting positive and negative links in online social networks, Proc. of WWW'10, 2010.
複雑ネットワーク,ソーシャルネットワーク,情報信頼性,極性判定

ソーシャルネットワークにおいて,エッジのpositive/negativeを判定する論文である.データセットは,Epinions, Slashdot, Wikipediaの3種類を独自にクローリングして用意している.ソーシャルネットワークにおいて,局所的なリンク情報を特徴量として,機械学習(ロジスティック回帰)により,ノードu→v間のエッジの極性(positive/negative)を判定している.
特徴量としては,(a) uの出次数やvの入次数(positive/negativeごと),共通の友人数,(b) 媒介人を介した時のその方向やpositive/negativeの値を用いている.

まず実験では,(a)と(b)の予測精度を比較している.共通の友人数が閾値より多いノードのみ対象にした場合と,全ノードを対象とした場合で,場合分けしており,前者では(b)の影響の方が強いが,後者では(a)の影響の方が強い.それらを組み合わせた場合は,最も良くなっている.

また,社会心理学理論との対応付けを行っている.その理論とは具体的には,バランス理論とステータス理論である.バランス理論とは「友人の敵は私の敵」のような,2ステップ先のノードと自分との関係を表したものである.ステータス理論は,自分から見て相手をpositiveに評価していれば,相手から自分はnegativeに評価するというものである.すなわち,社会全体に絶対的な人間への評価基準がある場合に有効に働くような理論である.
これらは,上記の特徴量に反映されているが,それがモデルにおける係数として,正なのか負なのかで判定しており,概ね社会心理学理論に対応付けられることを示している.

また,あるデータセットで学習したモデルが他のデータセットで有効に働くかどうかも見ている.EpinionとSlashdot間は,モデルが共通化できそうなことを示している.

また,バランス理論とステータス理論から,エッジ判定のヒューリスティックを人手で作成し,それを学習モデルと比較している.ヒューリスティックは,バランス法では(u,v)を含む三角関係において,バランス理論が成り立つ数が多い方を採用している.ステータス法では,positiveな入次数,(-)negativeな入次数,(-)positiveな出次数,(+)negativeな入次数を足し合わせている.これらと比較した結果,学習モデルの方が良いことを示している.

全体のネットワーク構造の定理と一致するかも見ている.定理1では,互いにpositiveに評価し合うノードが全体に存在するかどうかを見ている.定理2では,ネットワーク全体において全てのノードが1位からn位まで並べることができるかどうかを見ている.定理1のためには,ノードをランダムに2つにグループ化し,互いのノードを交換し合い,目的関数が最大になるようにしている.定理2のためには,ノードをランダムに並べて,その順序を入れ替え,目的関数が最大になるようにしている.目的関数は,Newmanのモジュール性のようなもので,クラスタ内ではpositive評価値のエッジが多く,異なるクラスタ間ではnegative評価値のエッジが多いということを用いている(バランス理論).ステータス理論は,順序間でpositveiのエッジの向き,negativeのエッジの向きが一方方向であるかどうかを見ている.
これをオリジナルのネットワークと,ランダムに改変したネットワークで差があるかどうかを見ている.結果として,バランス理論はネットワーク全体では成立していないことを示している.ステータス理論は,ある程度成立していることを示している.

最後に,positiveな情報だけを使った場合と,negativeな情報も使った場合も示している.学習したモデルの精度は,negativeな情報も使った場合の方が良いことを示している.

総合評価
エッジに方向とpositive/negativeの値がついている社会ネットワークに対して,ローカルな特徴に基づく極性の判定について,非常に多くの調査を行っている.この点は高く評価できるものである.

|

第19回WI2研究会ノート

第19回 Webインテリジェンスとインタラクション研究会で,私がとったノートです.
重要だと思ったTwitterからのコピーや,私の疑問やコメントも入っております.

WI2研究会公式HP
http://www.ieice.org/~wi2/index.html

=================================

10:15-12:15 セッション1(ロング発表):情報検索・抽出
座長: 西山 莉紗(日本IBM), 副座長: 松村 敦(日本IBM)
1.文書内の事象を捉えた潜在的トピック抽出手法の研究
北島理沙,小林一郎(お茶の水女子大学)

トピックの割り当てを単語からイベントへ
単語の組として表現(主語ー述語)

LDA(潜在的ディリクレ配分法)
トピック1-nから文書dができているとみなす.
を利用.

トピックはイベントの出現確率

クエリ:「ご飯が美味しい」→「朝食が美味しい」
のような検索が可能.

要約文生成課題
クエリに関連する文により大きい重要度を与える

質問:潜在的なトピックをモデルに組み込むという意味では,
LSIなどの他の方法もあると思うが,それとの違いは?

単語の組み合わせから確率を求めることを考えると,かなりの
学習データ数が必要そうだが...


2.類似文書検索における文書ベクトルの効果的な次元削減への取り組み
梅澤香矢乃、小林一郎(お茶の水女子大学)
ランダムプロジェクションを使った次元削減
LSIとかPLSと同等の検索精度で計算量が少なくて済む
有効な次元数についての考察が不足している.

3.Linked Dataを利用したユーザの興味に基づく情報拡張手法の開発
大西可奈子、小林一郎(お茶の水女子大学)

キーワード入力に頼らない情報拡張
Linked Dataを利用した情報拡張を行う
ユーザが興味を持っているテキストを選択することで,その詳細が拡張される.

Linked Data
「東京都」
東京都は日本の首都である.
東京都の人口は13000000人である
東京都の面積は400000km^2である
みたいなもの

ユーザが興味を持った語A(指定した語)から,DBpediaにより,そのLinked Dataを取ってくる.その後の関連語と同義語を抽出する.語Aとこの抽出した語との関連を,上記Linked Dataから取得する.この関連情報を用いて,情報拡張を行う.

4.外出行動の事前情報を提供するためのWebからのアドバイス文抽出
小澤俊介(名古屋大学), 岡本昌之, 長野伸一, 長 健太(東芝),
松原茂樹(名古屋大学)

ユーザの状況を考慮する情報推薦システム
Cheverst 00, Van Setten 08, Zheng 10

アドバイス文を事前・行動時のものを提供
アドバイス文かどうかを分類学習SVMで判定

「八合目より上は,傾斜がきついので,ゆっくり歩きましょう」
みたいな.

13:30-14:20 招待講演「リンクするデータの課題と展望」
講演者:神崎正英(ゼノン・リミテッド・パートナーズ)
司会: 大向一輝(国立情報学研究所)

Webとはユニバーサルである.SNSのようにリンクできないものはウェブを分断する.
by Tim Berners-Lee
URIでidentifyできなければ,Webではない.

データも外からアクセス,リンクできなければ,Webにある意味はない
by Tim Berners-Lee

Linked Dataの四原則
ものごとをURIで名前を付ける
HTTPのスキームを使う
URIをたどったらデータが出てくる
出てきたデータからさらに他のデータにアクセスできる
by Tim Berners-Lee

閉じた体系の名前は共有が難しい
プロパティ(フィールド)を共有することが目的であったが,
その値が同じであることを意味することから始めましょう.
値にURIをつけておけば,それで共有が可能

データからそのインスタンスの他の属性の値を取れるように
できることが大事なんだね.
そのつながりには,我々のスキーマ抽出の研究が有効

RDFの形で返す.
rda: dateofBirth とすると1867
とか返ってくる.
SPARQLによる検索

他の情報へのリンクを提供する
値がリテラルでなく,URIで参照されるインスタンスであるのが魅力

LOD(Linking Open Data)プロジェクト
DBpedia Wikipediaの情報をRDFで記述
LODにおける統制語彙 兼 固有名典拠としてリンクのハブとなっている

SPARQLエンドポイント
データベースをRDFで用意して,SPARQLで検索を受け付けられるようにしたもの

RDBのデータをRDFにマッピングする
D2R Sercver

RDFa HTMLの中に構造化データを埋め込む方法を標準化したもの #sigwi2

AutoPagerize
スクロールしていくと,次のページを読み込んでくれる
 そのページ内のリンクの書き方を蓄積したDataWikiから行う

おなじ仕組みを属性値の発見にDataWikiのようなアプローチを使う

リンクするデータの品質は一様ではない

文脈を含めて利用.Named Graph(名前付きグラフ)
グラフ(RDFで書かれたデータの部分木)に対して,URIを付け,
さらにそのグラフに対するデータも付ける

質問:人手が重要.Wikipediaなども人手で続けていると飽きてくる?HTMLは,Googleが利用したので続いた?自分のために続けるための制度設計は?回答:制度だけではうまくいかない.評判情報などがキーか.RDFのように機械で理解できる形で表現できることが重要 #sigwi2

なるべくつけてほしい。そのためには、それを行なうことの大きなメリットがあることを納得させられないとむずかしい。特に商利用では。 #sigwi2

質問:データを増やすキラーアプリが必要か?どのようなアプリケーションが現在あるか?回答:... #sigwi2

データは正しいものだと信じ切って利用するとまずい。そして、情報に昇華させるのは人間ということかなぁ。 #sigwi2
質問:間違いを恐れないことが重要?回答:その通り.かつ,使うときには間違っていることを織り込み済みで. #sigwi2
質問:同じものを違うURIを付けるようなことが起こった場合?回答:後で繋げればいい.same-as などで繋ぐ. #sigwi2
個人的に思うのですが,みなさん小さくても良いからLinkedDataを付けましょうというよりは,みなさん誤っていても良いからあなたが推定したデータを公開しましょうと言う方が,早いような気がする #sigwi2
一つのインスタンスや概念が,唯一のURIで紐づけられていたら,誤りはすぐに訂正してもらえると思うんだけどね #sigwi2

14:30-16:30 セッション2(ショート発表) :時系列データの応用
座長: 難波 英嗣(広島市立大学), 副座長: 高間 康史(首都大学東京), 庄司 裕子(中央大学)
5.Web閲覧履歴の空間的把握手法の提案
枝 隼也(筑波大学), 福原知宏(産業技術総合研究所), 佐藤哲司(筑波大学)

6.数式の予測入力インタフェースに関する基礎検討
堀江圭介,土方嘉徳,西田正吾(大阪大学)

どのぐらいログデータがあれば良いか?

数式の自動補完.ついでに$tfidf=tf\cdot idf$と意味的に妥当でない数式の自動修正みたいな機能も付けて欲しい.$\mathrm{tfidf}=\mathrm{tf}\cdot\mathrm{idf}$などと記述しないと,読みづらい. #sigwi2

#sigwi2 数式の予測入力インターフェースに関する基礎検討 内容:N-Gramモデルを用いた数式の予測入力 動機:数式記述の潜在的ニーズは高まっているが、効率的な入力方法はない 詳細:階層的なN-Gramモデルを定義し、次に入力される数式を予測

7.言語表現による時系列データ検索のための基礎検討
松下光範,末吉れいら(関西大学)

ある期間の石油の価格のデータを見せて,その変化に言語的な表現を被験者につけさせた.

グラフを見つけることが目的だとすると,インデックス(一意に特定可能な識別子)が必要なのかなと思うんだけど,多様な表現がつくことを期待しているようにも聞こえ,ちょっと混乱してるんですけど #sigwi2

なるほど.その言語表現を付けたユーザプロファイルが開示されたら有用かもしれません. RT @m2nr: これ自体は、むしろ探索的な場面を指向していると考えています。 #sigwi2

なるほど.では,多様な表現とそれをクエリとした検索という意味では,いかがでしょうか?あるグラフにたくさんの言語表現がついていると,それをインデックスとして用いるのが難しくなるのでは? RT @m2nr: 多様な期間単位での見方が取れると嬉しいです。 #sigwi2

@hijip 捉える期間で解釈が異なるので、その意味では多様な期間単位での見方が取れると嬉しいです。また、同じ変化を急激な変動とみるか、思ったより穏やか、とみるかが多数集まれば、総体としてその対象をどう見ているのか、ということも分かると思っています。 #sigwi2


8.意見情報の時系列を考慮した議論可視化システム
山口恭平,松村 敦,宇陀則彦(筑波大学)


9.文書内の潜在トピック数判定に基づくトピック追跡の試み
芹澤 翠、小林一郎(お茶の水女子大学)

文書に存在する潜在的なトピックを抽出し,それを時系列で追跡
トピック抽出はLDA(Latent DIrichlet Allocation)

トピックは語彙の確率分布で表現

トピックにトピックベクトルを付与
特徴語とその出現頻度


10.Webページ閲覧時におけるユーザ行動理解に向けたブラウザ操作ログ記録ツールの
  開発
杉田賢治(東京電機大学),福原知宏(産業技術総合研究所),
増田英孝(東京電機大学),中川裕志(東京大学)

Web上でのユーザ操作を記録するものだが,タブ切り替えやブラウザ上の検索バーやURLバーまで対象にした点は新しい.Firefoxの拡張昨日として実装.

ページ上への操作は,ユーザの興味を取得するのに使えそうだが,タブ切り替えや新しいタブで開くことがどこまでユーザの興味と関連しているのか?操作と興味に関する調査を行ってから実装するべきでは?

16:45-18:15 セッション3(ロング発表):ユーザ行動分析・推薦
座長: 山田 和明(東洋大学), 副座長: 小林 一郎(お茶の水大学)
11.オントロジーベースのユーザ行動モデルと実規模モバイルサービスでの評価実験
笹嶋宗彦,來村徳信(大阪大学),長沼武史,倉掛正治(NTTドコモ),
溝口理一郎(大阪大学)

目的志向の,モバイル探索の研究
目的からの検索は,初心者には有効とのこと,スケーラビリティを上げる必要があるとのこと
まさにその通りだと思う.

タスク&ドメインオントロジー:日常行動全般の記述に必要な語彙定義
ユーザ行動モデル:ユーザの行動モデル日常行動全般

iアプリとして実装している.
もちろん,このようなアプリを作り実験すれば良い結果が出ると思われる.
提案システムは,ドメインオントロジーと行動モデルの構築コストと
照らし合わせても,一から行動モデルを構築するより良かったことを
示すのが重要じゃない? #sigwi2

アプリケーションやドメインごとに,適したメニューがあるのが理想で,
それがヘビーオントロジー(これはすでに実装されているとして)から
手間なく作成できるのであれば,ありがたいと思う.


12.Analysis of Web News Browsing Behavior on the Micro-Blog
Hao Han and Keizo Oyama(NII)

ツイートとWeb上のニュース上の行動の比較を行う
データセットは,
140万のツイート,NetRatingsから提供された視聴率データ 37000人ほどのデータ(8000万アクセスレコード,時間,ユーザID,ターゲットURL, Referer URL),Yahoo!News 1671件のニュース #sigwi2

1週間ごとに分析.4つの週に分ける.

13.サイト固有のカテゴリ構造を考慮したサジェストインタフェースの提案
木村久美子,中清志都加,堀 雅洋(関西大学)

10:00-12:00 セッション4(ロング発表):分類・クラスタリング
座長: 熊本 忠彦(千葉工業大学), 副座長: 小林 亜樹(工学院大学)
14.楽曲推薦システムに向けた感性クラスタリング手法の提案
涌井秀和,湯川高志(長岡技術科学大学院大学)

感性のクラスタリングかぁ...特徴量は何になるんやろ? #sigwi2

ベースラインは,ユーザに特徴量を入力させ,それに合う音楽を推薦する.
特徴量は,tempo. melody, tune, Vocal voice typeなど.
これらの特徴量の抽出方法は?

筆者の主張(仮説)としては,音楽に対する色彩的印象が,推薦精度を高めるということですかね?そこには,定性的な理由は存在するのでしょうか?

15.RDFデータ検索のためのクエリグラフのクラスタリング手法
飯塚京士、村山隆彦、小林 透、赤埴淳一(NTT)

Linked Data関連の研究

RDFデータからの関係抽出
ラベル付き有効グラフとして表現できる
グラフパターンを抽出.出現頻度でフィルタリング

多くのRDFデータをマージすると,似たようなRDF構造が多くできてしまう.
それらをクラスタリングして,似たような構造を一まとめにする.
これにより,統合RDFデータに対してどのようなクエリで検索をすれば良いのかが
分かる.

16.携帯画面のキャプチャ画像を利用した携帯専用サイト識別手法の提案
服部 元、松本一則、小野智弘(KDDI)

携帯専用サイトか否かを,PCからアクセスした場合と,携帯電話からアクセスした場合とで,どのページの内容をカメラで撮影し,違いがあるか否かを判定する.

携帯キャリアの公開するIPアドレス(ゲートウェイ)帯域からを携帯電話アクセスと判定するのが主流なので,UA偽装では無理です. RT @hijip User-Agentを偽装したら良いんじゃない? #sigwi2

17.人はWeb上の同姓同名人物をどのように判別しているのか
三宅悠生、村上晴美(大阪市立大学)

Web上の同姓同名人物の自動判別のために知見を得るため,本物の人間に分離させる実験をしている
分離するのに有効なキーワードを上げさせている(HPや巣にペットに書いていても書いていなくても良い)
識別キーワードは,キーワード,職業,作品
全体的に:職業,キーワード,作品,顔確認の順

分離しやすい人物の特徴
職業や職歴がスニペットやサイトに記載
業績が記載
キーワードがサイト内に記載
Wikipediaに存在

同意. [コメント] そもそも有名人は著作や職業とかが明らか #sigwi2


13:15-14:45 特別企画「国際会議 ACM Recommender Systems 2010 参加報告」
講演者:奥 健太(立命館大学)
司会: 土方嘉徳(大阪大学)
14:45-15:00 休憩

RecSys2010 概要,研究動向,今後の展望とおまけ
採択率 フルペーパー 19.4%,ショート 41%

全体25件
ソーシャルネットワークに基づく推薦 9件
コンテキストアウェア推薦 1件
グループベース推薦 3件
推薦精度以外の評価指標 4件
伝統的な精度比較 3件
アルゴリズム 3件
ユーザ評価 2件

ソーシャルネットワークに基づく推薦
アイテム推薦,人物推薦,コミュニティ推薦

アイテム推薦
T. Lappas
M. Jamali

ソーシャル推奨ネットワーク
ユーザとアイテム間の推奨関係を表したネットワーク

二つのアイテムを共通で推奨しているユーザを見つける
ユーザはアイテムにタグを張っている.
上記ユーザ集合に共通で付けているタグ
クエリ「カフェ」「おしゃれ」にマッチする推奨アイテムグループを推奨

推奨ユーザ数が大きいほど良い.

ソーシャルネットワーク上の集合知を活用(タグのこと?)
推薦結果が理解可能

人物推薦
L. Pizzato
J. Hannon
E. Baglioni
P. S...

L. Pizzato
RECON
相性の良い人物を推薦

ユーザプロファイルを抽出.どんなメッセージを送っているのか?その履歴から,好みの年齢,体型など共通なところを抽出 #sigwi2

お互いに上記プロファイルと相手のプロファイルがマッチしている人を推薦
個人向け推薦ではなく相互推薦.

個人向け推薦では一つのアイテムを多くのユーザに推薦可能だが,相互推薦であれば,
他の多くのユーザには推薦されるべきではない.

J. Hannon
Twitterに基づくユーザプロファイリング
ネットワーク情報に基づく協調フィルタリングツイートの内容に基づくフィルタリング

コミュニティ推薦
V. Vasuki
ユーザ×ユーザのソーシャルネットワーク
ユーザ×コミュニティのソーシャルネットワーク

ユーザ×ユーザの行列とユーザ×コミュニティ行列を結合
Katz指標で,ユーザがどのコミュニティに属しやすいかを計算

グループベース推薦
L. Baltrunas
集約モデル方式 個々人のプロファイルを集約して,従来のアルゴリズムで推薦
集約候補方式 個々人のプロファイルに従来のアルゴリズムで推薦.その結果を集約化

誰の意見を重視するのかという重みづけ
(事前に定義する方法)
均等に重みづけ,常識的に定義
(インタラクションに基づく方法)
他の家族内の役割を参照して重みづけ
家族内の活動度に基づき重みづけ

Extreme case
最小不幸法 一人でも大嫌いなメンバーがいる場合は推薦しない
最大幸福法 一人でも大好きなメンバがいる場合は推薦する

評価はどうするんだろう?
定性的にどういうケースが多くあるのか,分析するしかないだろう.
そういう研究をした人はいないのではないだろうか?

ランク集約手法
・最小不幸
・メンバーごとでランク付けし,それを集約
 Spearman footrule 順位間の距離が最小となる順列を選ぶ
 Borda count 順位スコア(1st → 3回)でランキング

招待講演
HCI for Recommender Systems
 一般的なヒューマンインタフェースの話だった
推薦システム特有の課題
 推薦結果が理解可能である
 ユーザは推薦アルゴリズムだけでなくアプリケーション全体を見ている

コンテキストアウェア推薦システム
コンテキスト事前フィルタリング
コンテキスト事後フィルタリング
コンテキスト統合モデリング
#sigwi2

Karatzoglou
行列因子分解
ユーザ×アイテムの行列を
ユーザ行列とアイテム行列に分解し,潜在的特徴を抽出し,
推薦

ユーザ×アイテム×コンテキストのぎょうれつを,アイテムの行列,
ユーザの行列,コンテキストの行列に分解.
メリット:事前,事後の処理が不要.

推薦精度以外の評価精度
S.  Castagnos
G. Adomomavis
もう一個

安定性 Stability
推薦システムによる指向予測がどの程度一貫しているか?
新しい評価値データが入る前と後で予測値が一貫しない
 →安定しないシステム #sigwi2

Coverage

今後の展望とおまけ
技術的に高度なものではなく,既存手法をうまく組み合わせ,新問題を解いている
既存課題であるcold-start問題とか,sparsity問題とかに強いという点を主張する論文が多い

評価実験,様々な条件で詳細な実験を行っている
提案手法が良いという評価だけでなく,どういう場面で有効かという考察が多い.

公開データセット
MovieLens, DBLP, Epinions, Flixster

今後の展望
・種々のデータの取得がますます容易に
 ユーザ生成コンテンツ,ソーシャルネットワーク,
・推薦システム利用形態が多様化
 個人からグループ,一方向推薦から相互推薦
・既権課題への取り組み
 cold-start問題,sparsity問題,セレンディピティ


15:00-17:20 セッション5(ショート発表):コンテンツ閲覧と発見
座長: 服部 元(KDDI研究所), 副座長: 斉藤 ひとみ(愛知教育大学), 笹嶋 宗彦(大阪大学)
18. 軸キーワードによる観点選択を実現したインタラクティブ検索の提案
林大策(筑波大学),福原知宏(産業技術総合研究所), 佐藤哲司(筑波大学)

検索結果を把握しやすく,検索クエリの修正をしやすい
2次元の軸に各軸にキーワードを割り当てて,それらとの関連性から
ページをマッピング.その軸のキーワードを任意に変更し,すぐに
マッピングの結果が分かる.

19.情報推薦における気づきの調査に関する基礎検討
大久保和訓,土方嘉徳,西田正吾(大阪大学)

(質問)ユーザが知らなかったことに対しての気づきを促すことも目指す?

一部協調する画面のサンプル
 ロジカルだけどぱっと見,理解できるか分からない もっと強調してもよいかも.
 自分の認識との差異を出してやるのも面白い
 探索的な研究なので,実際にインタビューして,定量的にとれないことも聞いてみたら

個人差が大きいんじゃないか?被験者実験の規模.対象.
 一般人も入れてやった方が良い

気づきの内容・種類 反省的な気づき ネガティブな気づき, ポジティブな気づき
 これらによって満足度が変化するかどうかまで見るのでしょうか?

気づきについて,被験者に定義を示した方が良いか否か?

20.Webページからの注目領域抽出に基づく横断型情報閲覧システム
田崎雄一郎,島田 諭(筑波大学),福原知宏(産業技術総合研究所),
佐藤哲司(筑波大学)


21.新規性の高いユーザ生成コンテンツの自動発見
小川達也,馬 強,吉川正俊(京都大学)

文書に含まれる概念の組み合わせの珍しさに注目
パラグラフ単位で,めずらしい概念の組み合わせを見る
概念ごとに,概念ベクトル?

ページ単位でなく,パラグラフ単位で行っている点
キーワードの組み合わせで新規性を見るのではなく,
それから一般化した概念の組み合わせで新規性を見ている
点が研究の特徴だと思う.


22.携帯端末による位置情報の分布調査およびジオローカルコンテンツ収集システムの
  開発
石田和成(広島工業大学)


23.Webページを視覚的に要約する「表紙」生成エンジンの開発
重田桂誓,松村 敦,宇陀則彦(筑波大学)

スニペットだけでは分かりにくい
Webページに表紙をつける

24.Twitterにおける一連の事象へのつぶやき発見手法
大谷友貴,鈴木政巳,小林亜樹(工学院大学)

リアルタイム性の高い臨場感のあるツイートを探したい

臨場感のあるイベント報告型のツイート イベントツイート
 バースト的に投稿される



|

« 2011年1月 | トップページ | 2011年4月 »