« 2011年12月 | トップページ | 2012年6月 »

2012年3月

ACM SAC2012 SWA 参加報告

昨日は,主にSAC2012 SWA(Semantic Web and Its Application)のトラックに参加していました.
タグ,セマンティックWeb,Linked Data,オントロジーに関連するトラックです.発表は,RecommendationやPersonalizationに関連するものが多かったです.ただ,少々,私の研究アプローチと異なるため,私の理解度はかなり低いです.どのような感じの研究があったかだけ,報告いたします.

(SWA1-1)
Harnessing Geo-Tagged Resources for Web Personalization
Makus Zanker (Alpen-Adria Universitaet, Austria)
"Recommender Systems"の著者による発表.

Swa111
地図上のオブジェクト(建物や店,観光施設など)に付けられたタグを使って,それらのオブジェクトをユーザに推薦しましょう的な話.

Swa112

(SWA1-2)
Extending Open Directory Project to Represent User Interests
Seulgi So (Korea University, Korea)

Swa121

buy cosmeみたいな目的をクエリログから推定したいというのが目的です.

Swa122

ODP本体
サーチエンジンの検索結果
クリックログ
common sense databaseの一つであるconceptnet
の4つを使用して,ユーザの興味のある関連文書を特定するようです.

関連動詞の特定は,ユーザの注目する関連文書から行うようです.具体的な式の説明がなく分からなかったのですが,動詞と関連文書との関連性を,頻度などから求めているようです.(一種のtf-idf?)

Swa123

動詞と文書の関連性を,人手で与えた正解データを基に分析しています.

(SWA1-3)
Interlinking Educational Resources and the Web of Data
Stefan Dietze (L3S Research Center, Denmark)

Swa131

Linked Dataに基づく,教育サービスの統合の話でした.

教育リソースに関連付けられたDBPediaとFreebaseのデータから自動で関連データ?(インスタンス名やプロパティなど?)を抽出し,BioPortalからも半自動で同様に抽出し,クラスタリングのための素性?を獲得.

Swa132
これで教育リソースをクラスタリングすることで,教育サービスの統合とみなすという話.

Swa133

(SWA1-4)
A Distributional Approach for Terminological Semantic Search on the Linked Data Web
Andre Freitas (National University of Ireland, Ireland)

Swa141
ESAを改良するという話.内容は理解できなかったが,直感的にこれは良い論文だと思った.

Swa142
(SWA1-5)
Social Health Data Integration using Semantic Web
Soon Ae Chun (City University of New York, USA)

Swa151
複数のhealth information情報源を統合しましょう的な発表

3つの情報源からヘルス情報を抽出する.
それらの情報を統合してナレッジベースを構築
ユーザインタフェースを提供
というのが,やったことらしい.

Swa152

もう少し具体的には,PubMed,WebMD,PatientsLikeMeの各データ源からヘルス情報を抽出し,UMLSのオントロジーを参照することで,それらのヘルス情報を統合する.統合にも,事前に定義したセマンティクスを用いる.

セマンティックサーチの結果,質問応答の結果,単語のアノテーション情報,要約,可視化の各インタラクションのデータを用いて,セマンティッククエリを生成.

これらのヘルス情報とセマンティッククエリを用いて,セマンティックサーチを実現しているとのこと.

|

ACM SAC2012 IAR参加報告

昨日は,ACM SAC2012のIAR(Information Access Retieval)というトラックに参加しておりました.主に,マルチメディア情報を含む情報検索に関するセッションです.WI2研究会で扱っている内容に近いと思います.
このトラック,結構面白い発表がありましたので報告します.

(IAR1-4)
A Pilot Study for Mood-based Classification of TV
Jana Eggink, et al. (BBC, UK)

Osgood 1957を参考に,番組データ(特にドラマ)を,Evaluation, Potency, Activityという感性軸で表現する.
具体的には,
Evaluation: sad-happy, dark-light
Potency: Serious-funny, masculine-feminine
Activity: relaxing exciting, calm dramatic
のように表す.

Iar141

Iar142

映像データを分析し,faces(顔があるか?)とか,Luminance(画面の明るさ?),motion(画面の動きの大きさ)などを自動抽出する.これらの特徴量を用いSVMで分類を行う.結構多くの映像特徴量を抽出しているが,これは既存の手法やライブラリを用いているとのこと.

Iar143

感性ベースのアプローチは,こういう感性軸に対する値を手動で付けている場合が多いが,ちゃんと自動抽出しているところがすばらしい.評価実験を行って,ICMEに通ったとのこと.

Iar144

(IAR2-2)
Investigations into User Rating Information and Predictive Accuracy in a Collaborative Filtering Domain
Josephine Griffith  (University of Ireland, Ireland)

協調フィルタリングにおいて,あるユーザの全てのrating情報から抽出した各種情報と,協調フィルタリングによって算出した予測値を説明変数として,実際のrating値(ground truth)を目的変数として,機械学習するというもの.

Iar221

ratingから抽出する情報とは,rating数,平均rating値,ratingしたアイテムのpopularityなど.
機械学習は回帰木を使用.

Iar222

評価は,movielens, Lastfm,Bookcrossingのデータセットを使用.通常の協調フィルタリングよりも,パフォーマンスが良くなったとのこと.

Iar223

非常に面白いアプローチであると言える.全てのrating情報から抽出した情報の何が,パフォーマンス向上につながるのか,深い分析をしてもらいたい.いずれトップカンファレンスに通る論文だと思う.

(IAR2-4)
Effective Web Video Clustring using Playlist Information
Mariko Kamie (University of Tsukuba, Japan)

Iar241

youtubeの映像データについているテキスト情報から得た類似度と,プレイリストを一種のユーザと見なしプレイリストから得た類似度を統合して,映像データ間の類似度を算出し,それでクラスタリングを行うという研究.

Iar242

ちょうど,推薦システムにおける,コンテンツに基づくフィルタリングと協調フィルタリングとのハイブリッド手法と同じ考え方を,Youtubeのプレイリストに導入したというものである.

クラスタリング手法はBisecting K-meansを使用.

プレイリストを一人のユーザと見なし,推薦システムにおけるハイブリッド的アプローチを映像データのクラスタリングに用いた点は興味深い.

個人的には,playlistを一人のユーザと見なすことが,通常の協調フィルタリングとどういう違いがあるのかや,playlist特有の困難さなどについて知りたい.

|

ACM SAC2012 Keynote addressの感想

Context-aware System Design: A Data-oriented Perspective
Dr. Letizia Tanca

Img_0447_2

ミラノで行われているthe Green Move Projectという,車にいろいろセンサーをつけて,デバイスの状況とユーザの嗜好から適した情報を提示したり,車の貸し出し(個人所有でなくシェアカーやレンタカーのよう)の管理などを行うプロジェクトの紹介.

Img_0448_2

このプロジェクトで行われている機能やフレームワークの紹介.それぞれの詳細については話されなかった.どういうコンセプトで設計されているかという話が中心.また,写真のような概念的なモデルの話が多かった.

Img_0449_2

チャートは字ばかりで,本当に大まかな設計思想の話ばかりだった.デモぐらいは欲しかった.
どこを重要と思うかは,やはりヨーロッパ的だと思った.モデルとか,スキーマとか,オントロジーとか.これらをどう実現するかについては,あまり話がない.あるいは,実際に使ってどうだったという話がない.

いったいこのシステムをどう使うのか?どういう情報が提供されるのか?どうコンテキストが利用されるのか?どうコンテキストが獲得できるのか?ということについては話されず,本当に役に立つの?と思った.

Img_0454_2

下の写真に至っては,何がなにやら...

Img_0455_2

講演後,会場から以下のような質問が出た.
(1)どんなプログラミング言語,データベース言語を使っているのか?オリジナルのものか?
 →オリジナルのものではない.なるべく汎用のものを使っている.ドメインん依存ではない.

(2)プライバシーとセキュリティは保たれているのか?
 →興味深いが,我々はその点は考えていない.セキュリティの人たちに入ってもらって,設計することはできる.

(3)どうコンテキストを定義するのか?
 →デザイナーが考えて設計した.コンテキストの状況はマイニングされる.どういうコンテキストとどういうコンテキスト(あるいはコンテキストとクエリ)が関連があるかなどがわかる.

多分,会場の多くの視聴者も,私と同じ疑問を持っているはず.

余談だが,ホールのシートが足の長い西洋人仕様で,めっちゃ座りにくかった.途中から腰がだるくてだるくてしょうがなかった.座面が長いうえに,奥に沈み込む感じで,おかげで足が床につかない.ユニバーサルデザインとはほど遠く,デザイナーの顔が見たいものだ.

以下は,私のとったノート.

===
多種多様なシステム,センサー,データを,統一的に使い,ユーザは意識しないで済むようにしないといけない.
ユビキタス環境におけるパーソナライゼーションではコンテキストが重要.

Workshop on using knowledge in its contextx (IJCAI 93)
インタラクションをモデル化するのにコンテキストが使われる.
モデル化には人間の挙動が重要.
これらをエンジニアリングとするためのワークショップ.
多くの情報から,ユーザが適した情報を見つけられるようにしたい.

e-healthとwell-beingにおけるコンテキスト
人間のバイタル情報(血圧とか)
人間の現在の状況(走っているとかとか)
現在の場所
天気の状況

車の運転におけるコンテキスト
緊急時におけるコンテキスト
などの具体例が紹介される

the Green Move Project
講演者がやっているプロジェクトの紹介
ミラノでのプロジェクト
いくつかのドッキングステーション(車につなげる?)を配って行った.

車は多くのデバイスを備えており,運行状況を集めることができる
車の予約.車のセンサの情報から,予約の可否を判定

データ中心のパーベイシブコンピューティング

Context-awareなシステムでは,
Context-awareでドメインアウェアな挙動を融合しないといけない

コンテキストとデータの違いは?
SACのHPはオブジェクトデータ
コンテキストデータは???
なんやかんやと説明していたが,いまいちよく分からなかった.
もうちょっとうまい例を持ってきてほしかった.

コンテンツの表現を異なるチャネルや異なるデバイスに適応させる
CC/PP(Composite Capabilities / Preference Profiles) W3C Recommendation
ユーザプロファイル:デバイスの能力とユーザの嗜好について記述.

ユーザが今何をしているかと身体的状況をモデル化する.

Context-based information personalization
ユーザの嗜好とデバイスの状況から,適した情報を提示
implicitにユーザの特徴(嗜好?)を集める
具体的なことは説明なし

コンテキストマネジメントフレームワーク
アプリケーションに寄らずユーザのコンテキストを管理できるフレームワークが必要

コンテキストモデル
なにやら木構造で表されている
(上の写真参照)

コンテキストではdrive-styleでsafelyとかenergyとかあるが,これをどう判断するか疑問.
コンテキストスキーマの設計をがんばってやっているようだった.

途中,クエリという話が出てきたが,運転中にクエリを投げるのだろうか?

PerLaとかいうセンサーデータ抽出のたけの言語を設計しているよう.
===

|

« 2011年12月 | トップページ | 2012年6月 »