« WISS2011 参加メモ(3日目) | トップページ | ACM SAC2012 Keynote addressの感想 »

国際会議WWW2010論文感想 その10(検索エンジン・Nグラム)

Jian Huang, Jianfeng Gao, Jiangbo Miao, Xiaolong Li, Kuansan Wang, Fritz Behr, C. Lee Giles: Exploring web scale language models for search query processing, Proc. of WWW 2010, 2010.
http://dl.acm.org/citation.cfm?id=1772737

<キーワード>
検索エンジン,言語モデル,Nグラム,アンカー,検索クエリ,本文,タイトル,スペル修正,ブラケティング,クエリ分割

<概要>
Microsoft Researchの研究.大規模なWebスケールのNグラムモデルを生成している.Bグラムモデルの生成は,文書全体に適用するだけではなく,Webページのタイトル,アンカー,本文,さらに検索クエリに分けて,構築する.データセットは検索エンジンのBingが保持するデータである.その後,いくつかのアプリケーションに対して,各データソースごとのNグラムモデルが有効に働くかどうかを調べている.

最初のアプリケーションはスペル修正である.スペル修正は,ユーザの入力する検索語に対して行っている.precision@1(rank 1のスペル提案が正しい時のパーセンテージ)を使って評価する.アンカーを使ったNグラムモデルでは,データ数が少ない時は2グラムが最も良いが,データ数が多くなるにつれて,3グラム,4グラムの方が,良くなっている.データソース間は,3グラムで比較すると,検索クエリが最もよく,ついでアンカー,タイトル,本文の順になっている.

次のアプリケーションは,クエリのブラケティングタスクである.ブラケティングとは,名詞合成物(ひとまとまりになっているのは名詞に限らないが)に対して,さらにどういう名詞のまとまりでくくるかを言う.例えば,以下の例が挙げられる.痛い歯の治療は,Left bracketingである必要がある.
Left bracketing: [sore gum] treatment
right bracketing: sore [gum treatment]
Nグラムに対して,条件付き確率(CP),相互情報量(PMI),カイ二乗検定統計(kai)のどれかを適用し,ブラケティングの予測を行う.各手法の比較を行う.その結果,本文を使ったPMIを用いた手法がもっともよかった.これは,アプリケーションによって,有効なデータソースが変わることを意味する.

最後は,長いクエリの分割タスクである.こちらは,データソース間の比較では,アンカー,タイトル,本文の順になっている.

(総評)
商用の検索エンジンが持つデータを使って,WebスケールのNグラムモデルを,データソースの種類ごとに構築し,異なるアプリケーションに対して,その特性を明らかにしたことは評価に値する.ただ,検索エンジンのデータを使ったことが評価されたところもあるので,またデータ自慢かという気もする.

|

« WISS2011 参加メモ(3日目) | トップページ | ACM SAC2012 Keynote addressの感想 »

Web研究」カテゴリの記事