« 棋士は直感で局面が分かる?@JWEIN10 | トップページ | FIT2010 ポスト情報爆発へ向けて »

国際会議WWW2009論文感想その3

Maria Grineva, Maxim Grinev, Dmitry Lizorkin: Extracting key terms from noisy and multitheme documents, Proc. of WWW 2010, pp.661-670, 2010.

Webページ中からキータームを抽出する研究である.自然言語処理において,キーターム抽出は,近年注目されているタスクである.注目される理由としては,Google AdSenseやYahoo! Contextual Matchのような,キーワードマッチベースのWeb広告が盛んであるからである.
従来のキーターム抽出は,(1) TFIDFを用いる方法,(2) 教師あり学習(ナイーブベイズ)を用いる方法,(3) Wikipediaのリンク情報を用いる方法,(4) N語のウィンドウ幅において共起した語からグラフを構築し,PageRankのアルゴリズムを用いが方法が提案されている.

(2)は,特徴としてTFIDF,語の文書内での出現位置,訓練データ中でキーフレーズとして出現する回数を用いて,学習している.(3)は,Wikify!というシステムであるが,keyphrasenessという指標を用いている.keyphrasenessは,その語がWikipedia内でリンクとして現れる記事の数をその語がWikipedia内で洗われる記事の総数で割った値である.

本手法は,提案手法そのものは既存の方法を組み合わせたもので,あっと驚くことはないが,うまく組み合わせている点,グラフベースの方法でPageRankではなく,Newmanのモジュール性を用いたクラスタリングを用いている点で新規性がある.

方法論としては,
(i) 入力文書からnグラムを抽出し,Wikipediaの記事集合を特定する.
(ii) Wikipeia内の曖昧語のページ(多義語に関して複数の意味を列挙し,その意味で説明しているWikipedia文書へのリンクお持っているページ)から,(i)の入力文書の単語と前記リンク先の単語から,おそらく共起頻度を用いて,1つの意味へ特定付けする.
(iii) 2つの語を説明するそれぞれのWikipedia内のページでの語の共起数より,単語間の距離を求めて,重み付きグラフを生成する
(iv) Newmanのモジュール性によりクラスタリングを行う.クラスタリングのための距離には,コミュニティのdensityとinformativenessを用いている.densityはコミュニティ内のエッジの重みの合計をコミュニティの頂点の数で割ったものである.informativenessは,keyphrasenessである.

評価は,TFIDF,Yahoo! terms Extractor,Wikify!,TextRank(PageRankを用いる方法)と比較している.ブログ本文,Webページ,複数トピックが入ったWebページにおいて比較し,従来手法よりも提案手法が良い結果を出すことを示している.

感想であるが,提案手法はあっと驚くものではないが,既存の手法をうまく組み合わせ,またモジュール性をキーターム抽出に用いたという点で,新規性があると思う.従来研究との比較実験もなされており,お手本のような研究・論文である.

|

« 棋士は直感で局面が分かる?@JWEIN10 | トップページ | FIT2010 ポスト情報爆発へ向けて »

Web研究」カテゴリの記事

学会」カテゴリの記事