« INTERACT2013一般セッション参加報告 | トップページ | TV視聴傾向の調査(性別・年齢別) »

国際会議WWW 2013感想文その1

Xiaohui Yan, Jiafeng Guo, Yanyan Lan, Xueqi Cheng: A biterm topic model for short texts, Proc. ACM WWW'2013, pp. 1445-1455, 2013.
キーワード:LDA,潜在トピック,単語共起,ショートテキスト,Twitter
 
通常のLDAは文書を単位として,文書中でトピックが選択される確率θとトピックが選択された時に単語が選択される確率φを計算する.しかし,文書を単位としているため,Twitterなどの短文には有効に働かなかった.
 
この論文で提案するBTMでは,2つの単語ペアをbitermと呼び,文書ではなくコーパス全体(ここでは複数のユーザの複数のTweet)において,biterm中の単語wiとwjが共通のトピックzを持つものと仮定して,計算を行う.通常のLDAは,文書が特定され,その文書におけるトピックの出現確率θに基づいてトピックzが決定され,トピックzから出現確率φに基づき単語wが決定する.しかし,BTMでは,文書の情報はなく,コーパス全体でのトピックzの出現確率θを計算する.繰り返し計算の最初のステップでθが計算されるが,後の計算過程でこのθはほとんど変化しないのがミソである.θに基づき,そのbiterm出現位置でのトピックzが決まり,そのトピックzに基づき,φにより新しい単語wi'とwj'を得る.φは,トピックが決定した時の単語(bitermではない!)の出現確率である.そして,φを計算しなおす.ここでθも計算しなおすが,この値はほとんど変化しない.
 
ここで,LDAでの計算の収束が各単語位置において文書という制約があるためであるが,BTMではbitermでは2つの単語が同じトピックに属するという制約があるためである.繰り返し計算の中で,wi'とwj'を出力し,それを同じトピックzとみなして,φ(wi')とφ(wj')を計算する.同じトピックがついた単語同士は,次の計算でも同じトピックから出力される確率が高まるため,計算が収束する.
 
トピックが決まれば,実際の利用では,例えばあるtweetがあればその中の単語ペア(wi,wj)から,wiからのトピックzの確率と,wjからのトピックzの確率をかけることで,bitermのzの確率を得る.これをすべてのbitermに対して和を取ることで,そのtweetのzの確率を求めることができる.これを素性とすることで,トピックベクトルを得ることができる.これを文書分類に適用し,従来のLDAやLDA-U(ユーザを文書とみなしたもの),混合ユニグラムの3手法と比較し,良い結果を得ていることを報告している.
 
文書に注目するのではなく,単語ペアに注目し,その制約を用いて計算収束をはかるというアイディアが面白い.また,評価も,twitter,Q&Aサイト,通常の文書と3つ試しており,汎用性を示せている点が良い.

|

« INTERACT2013一般セッション参加報告 | トップページ | TV視聴傾向の調査(性別・年齢別) »

Web研究」カテゴリの記事