« 第1回WI2研究会招待講演スライド作成 | トップページ | IEEE/WIC/ACM WI'2012 参加メモ(1日目) »

WebDBフォーラム2012 参加メモ(1日目)

2012/11/20-21の日程で,WebDBフォーラム2012(Webとデータベースに関するフォーラム)に参加してまいりました.1日目の参加メモを公開します.
 
B1: 関係抽出 (座長:大阪大学 土方 嘉徳)
私が座長を務めさせていただきましたセッションです.
 
・語の認知度と同位語間の関係に基づく意外な情報の発見
佃洸摂(京都大学,日本学術振興会特別研究員),大島裕明(京都大学),山本光穂,岩崎弘利(デンソーアイティーラボラトリ),田中克己(京都大学)
 
Img_1610_b12  
「落合博満のボウリングの腕前はプロ級である」のような意外な情報を発見するための手法を提案している.主題語(先の例では「落合博満」)が見出しとなるWikipediaの記事内のリンク語を関連語とみなして抽出する.Webで公開されている同位語階層データを利用して,主題語と1つでも上位語を共有していたらそれを同位語とみなして抽出する.
 
Img_1611  
Img_1612  
Img_1613
 
ついで,主題語と関連語の関連度を計算する.具体的には,主題語の上位語を取ってきて,上位語の下位集合をとっていきて,主題語の関連語を取ってきて,関連語の上位語を取ってきて,グラフを作る.主題語から関連語へのリンクを切った時に,どれだけたどり着きやすいかをみる.たどりつきにくい語を意外な語とみなす.
 
Img_1615
 Img_1619
 
主題語から関連語へのリンクを切るという方法論が面白いと思う.Webの情報から得られた同位語・関連語というネットワークにおける,ノード間の到達性を利用すると,到達しにくいものは意外であるという発見が面白いと思う.
 
・WikipediaとFreebaseの知識を利用したテキストからの上位概念間の関係抽出
白川真澄(大阪大学),中山浩太郎,荒牧英治(東京大学),原隆浩,西尾章治郎(大阪大学)
 
Img_1622_b13
 
Web上のデータから,テキスト中シンボル(語句)-エンティティ-概念の構造を抽出し,概念間の関係を抽出するという研究である.この研究の注目すべき点は,概念間の関係を抽出するだけでなく,その概念に対応するエンティティ,さらにはそのエンティティを指し示すシンボルまでの対応関係も抽出する点にある.
 
Img_1624  
Img_1627  
具体的な方法論としては,Wikipedia中の語句から,Wikipedia記事の主題(エンティティ)を特定する.エンティティが含まれる概念を獲得するために,Freebaseを用いる.一方,Web中のテキストコーパスからシンボルに対応するエンティティを特定し,さらにその概念を得て,概念間の関係性を抽出する.
 
Img_1630  
Img_1633  
概念間の関係性は,テキストコーパスの各文における動詞に着目する."Apple Computer sells iPad."のような文から"<Computer manufacturer> sells <Computer product>"のような概念間のつながりを獲得する.
 
Img_1635  
かなり高い精度が得られている.
 
A2: DB問合せ・可視化 (座長:九州大学 牛尼 剛聡)
・視聴者反応と音楽的特徴量を用いたサムネイル動画の自動生成
中村聡史,山本岳洋(京都大学,JST CREST),後藤真孝,濱崎雅弘(産業技術総合研究所,JST CREST)
 
Img_1636_a31  
ニコニコ動画に投稿された動画ファイルから,15秒のサムネール動画を自動作成する研究である.視聴者のコメントの感情的な盛り上がりと,音楽特徴から推定したサビとを用いて,サムネールに適した映像部分を特定している.
 
Img_1640  
Img_1643
 
動画の中央部分15秒を取り出したものと,コメント数の多い部分を取り出したものをベースラインとして,提案手法と比較している.
 
Img_1646
 
Img_1645  
比較の結果,中央部分15秒が意外と健闘しているが,提案手法が最も良いことを示している.また,コメント数の多い部分を取り出したものは,中央部分15秒を取り出したものより悪いことを示している.特に後者の知見は面白いと思う.これは,ニコニコ動画のコンテンツの最初と最後にコメントが集中する傾向が,問題となっていることが分かる.
 
A3: ユーザ生成コンテンツ (座長:NTTコミュニケーション科学基礎研究所 櫻井 保志)
・視聴者の時刻同期コメントを用いた楽曲動画の印象推定
山本岳洋,中村聡史(京都大学,JST CREST)
 
Img_1647_a31a  
楽曲動画に対して,印象を推定して付与するという研究である.こうしておくと,印象から楽曲を検索できるようになる.楽曲動画に付与されるコメントから特徴を抽出し機械学習で印象推定を行っている.ニコニコ動画に付けられたタグから,11個の印象クラスを付与して,それを正解データとみなしている.
 Img_1649
 
 Img_1650
 
この研究の面白い点は,特徴量抽出における工夫である.感情を取り出すために,コメント中の形容詞に注目している点は当然だが,「かっっっけええええ」のような単語に対応するため,このような連続するシンボルがあるものを正規化「かっけえ」している.また,音楽特徴量からサビ区間も推定し,サビ区間で出てきた形容詞のみ利用することも行っている.
 
Img_1652  
Img_1653  
比較実験では,ベースラインとして,コメントからの素性抽出手法との比較と,歌詞・音響特徴量との比較を行っている.基本は形容詞がうまくいく.aggresiveのカテゴリでは正規化がうまくいく(先の「かっっっけえええ」がこのカテゴリに対応する),サビ利用はあまりうまくいかなかったという結果が出ている.
 
Img_1656
 
しかし,形容詞+正規化は,単に形容詞だけよりもうまくいく.形容詞+正規化+サビにすると最も高くなるという結果が出ており,提案する工夫を組み合わせることが有効であることを示している.

|

« 第1回WI2研究会招待講演スライド作成 | トップページ | IEEE/WIC/ACM WI'2012 参加メモ(1日目) »

Web研究」カテゴリの記事