« 国際会議WWW2010論文感想その6 (教育用ビデオの要約に関する調査研究) | トップページ | クイズ王と対戦したIBM ワトソン(Watson)のすごいところ »

国際会議WWW2010論文感想その7 (個人識別・大規模アクセスログの分析)

Ravi Kumar, Andrew Tomkins: A characterization of online browsing behavior, Proc. WWW'10, 2010
Web視聴率調査,ユーザ行動,検索行動
http://portal.acm.org/citation.cfm?id=1772748

Yahoo! Researchによる研究である.Yahoo!ツールバーにより任意のユーザ(調査に同意したユーザ)の任意のサイトに対するアクセス履歴を取得し,それを解析している.調査に同意したユーザの5000万回以上のページ閲覧を解析している.2009年5月18日~24日の一週間分のデータである.以下に調査結果を示す.

検索結果ページ
1000個のページ閲覧を抜き出して手動で調査したところ,検索結果ページは,全ページ閲覧の9%であった.検索結果ページは,Yahoo!やGoogleなどが提供するページ検索だけでなく,各サービス提供会社が行っているページ検索,マルチメディア検索,商品検索も含む.ページ検索は,6.2%,マルチメディア検索は1.4%,商品検索は1.4%であった.

検索結果ページの自動識別
大規模な調査を行うために,検索結果ページの自動識別を行っている.ページ検索に対しては,Yahoo!, Google, MSN, Ask, AOLを識別している.マルチメディア検索に対しては,Youtube, Hulu,Flicker, Picasaを識別している.商品検索に対しては,Amazon, eBay, Crigslist, Imdb, Singlesnet, Careerbuilder, Leboncoinを識別している.以下は,この大規模な調査の結果である.

ページ閲覧の木構造の逆探索
あるページからネットサーフィンを行うとすると,その履歴は木構造として表現できる.こうしてできた木構造の任意のノードに対し,そのノードから祖先をたどっていったときに,検索ページが存在するかどうかを調査している.その結果,16.2%のページが祖先として,ページ検索の検索ページが存在する.マルチメディア検索は3.3%,商品検索は0.9%,その他検索は4.4%であった.

オブジェクトの検索
オブジェクトの検索の調査もしている.本文では,SO(Structured object)と呼んでおり,レストラン,製品,車,不動産,セレブ,企業などを指す.検索クエリにSOを含む確率は,66.1%であると報告している.残りの33.8%がその他である.残りの内訳は10%がURLクエリ,12%がナビゲーショナルクエリ(直接サイトに行くための固有名詞)であった.

e-commerceにおける分析
e-commerceにおいて商品の決済を行うページをcheckout pageview(CP)と呼ぶ.このCPに対し,探索木の祖先に検索ページを持つものの割合を調べている.結果は,20.1%であった.
その後,外部検索エンジンからCPにたどり着いたパスのうち,外部検索エンジンからCPを行ったe-commerceサイトの最初のページへのホップ数と,前記最初のページ数からCPまでのホップ数との差を比較しているすると,おおよそ,全ホップ数の2/3ほどをECサイトにたどり着くまでに使い,ECサイト内では1/3ほどでCPに到達している.

(総評)
クライアントに計測プログラムをインストールする形での調査で,ここまで大規模に調査を行った例はないのではないかと思われる.やはり大手検索ベンダが,ツールバーという形で組み込める強みを最大限生かした研究と言える.データ規模だけでなく,この調査には面白い視点がある.一つは,検索の種類をページ検索,マルチメディア検索,商品検索と分けている点である.もう一点は,オブジェクトの検索を視野に入れ,全検索の分類をしている点である.最後は,商品購入までのホップ数を調査している点である.いずれも大規模な特定個人のアクセスログを手に入れることができたからできた調査であり,調査結果は価値のあるものと思われる.ただし,論文そのものは不明な点が多く,データパワーで押し切った印象が否めない.論文のプレゼンテーションはかなりひどいと言える.これが通るのであれば,日本人の論文も通してもらいたいものである.

|

« 国際会議WWW2010論文感想その6 (教育用ビデオの要約に関する調査研究) | トップページ | クイズ王と対戦したIBM ワトソン(Watson)のすごいところ »

Web研究」カテゴリの記事