« 2011年5月 | トップページ | 2011年7月 »

2011年6月

クイズ王と対戦したIBM ワトソン(Watson) 技術的詳細

情報処理学会誌 Vol.52, No.7
Watson:クイズ番組に挑戦する質問応答システム(金山 博 氏・武田浩一 氏)
http://www.bookpark.ne.jp/cm/ipsj/mokuji.asp?category1=Magazine&vol=52&no=7
に,
アメリカのクイズ番組「Jeopardy!(ジョパディ!)」で,二人のクイズ王と対戦し,勝利を収めた
IBMの質問応答システムWatsonの技術的詳細が載っていました.これを読んでのメモと感想です.

・番組中では,問題は最初に全文が一度に表示される.(司会者の読み上げは,視聴者向けのもので,Watsonを含む回答者はテキストで与えられる)
 一見,公平に思えたが,Watsonは与えられた瞬間から構文解析し,解の探索の処理を開始できるが,人間は文字を知覚するのに時間がかかる(詳しくは,S.K. Cardらの人間の情報処理モデル参照).まぁ,これを含んでの戦いということになるんでしょうけど.

・Watsonは,回答する際には,物理的にボタンを押す.
 ここは,公平ですね.

・質問は,ファクトイド(factoid)型の質問.
 ファクトイド型と言っても難しい.まずは,ここから始めるのは納得.

・処理手順
「質問の解析」→「解候補の生成」→「解答の根拠探し」→「確信度の計算」
これらをどう組み合わせるかが,システムの完成度に影響しそう.

・「質問の解析」
構文解析の上,照応解析も行っているとのこと.

・「解候補の生成」
質問に含まれる語との共起語などを,解候補にしているよう.一般には,Aprioriアルゴリズムが使われるが,組み合わせ数が多くなると,組み合わせ爆発を起こしてしまう.どの程度の組み合わせまで見て,解候補を選んでいるのか興味のあるところ.また,単に共起だけを見ているのか,係り受けまで見て,重みを設定したりしているのかも興味のあるところ.

・「根拠探し」
解候補の語句を問題文の該当箇所に埋め込んだものと同じ内容が,情報源のどこかに書かれているかを探すとのこと.ベクトル空間モデル?合致のさせ方を「観点」と呼んでおり,この観点を複数用意している.ここが研究開発の核であったとのこと.後の例では,「型が同じである(県とか市とか)」や,「条件の一部が一致(最も西にある)」などが観点として紹介されていたが,ややドメイン依存である上,正確な構文解析も必要そうで,ちょっと疑問.ここで,Power7アーキテクチャの2,880コアを用いた並列処理を行ったとのこと.

・「確信度の計算」
「観点」に重みを付け,確信度を求める.重みは,機械学習(ロジスティック回帰)で行ったとのこと.回答ボタンは,最大の確信度を持った解候補が,閾値を越えたときとなるとのこと.

・情報源
ニュース記事,百科事典,シェイクスピアの戯曲,聖書,歌の歌詞など
シェイクスピアの戯曲,聖書ってところが,いかにも欧米人らしい.
最終的には70GBとのこと.メモリに載せられる量と書いてあるところが,うらやましい.
うちも大量にメモリの乗ったマシンを保有しているが,64GB超というのはさすがに...

・前処理
事前に構文解析し関係抽出を行っておく.さすがに,リアルタイムで生のテキストを解析するようなことは行ってないらしい.私の研究も,この処理(情報抽出)を行っており,それゆえワトソンには非常に関心がある.

・人間らしさとコンピュータらしさ
記事の後半には,ワトソンが失敗した例が多く載っている.なるほどと思うことばかりであったが,最後の一文に共感するとともに,鉄腕アトムの実現は諦めなければならないのか?という残念感も感じた.
「見方を変えれば,人間とコンピュータは互いに補完的であるといえる.」

はたして,本当にそうなのだろうか?果てなき挑戦に期待したい.

(参考文献)
・金山 博,武田浩一:Watson:クイズ番組に挑戦する質問応答システム,情報処理,Vol.52, No.7, pp.840-849, 2011.
・S.K. Card: The Psychology of Human Computer Interaction, Lawrence Erlbaum Associates, 1983

|

クイズ王と対戦したIBM ワトソン(Watson)のすごいところ

「鉄腕アトムを作りたいんです.」私の所属する学科に入ってきた新入生から,しばしば聞かれる言葉です.当学科では,ロボットの研究を行っている研究室がいくつかあるため,ロボットにあこがれて入ってくる学生が多くおります.

しかし彼らの多くは,鉄腕アトムを作るために,本当に必要なことを理解していないと思われます.日本はロボット大国であり,国民のロボット愛は相当なものですから,メディアの熱の入れようも半端ではありません.しかし,多くのメディアでは,動き,形,自然言語での(疑似)会話をクローズアップするため,学生のロボットに対する理解もその域を越えません.では,鉄腕アトムを作るために,絶対に必要なこととは何なんでしょうか?

その実現に一歩近づける技術が誕生しました.それは,IBM Researchの開発したワトソン(Watson)です.本ブログでも以前に取り上げましたが,
http://e-biz.cocolog-nifty.com/blog/2011/01/ibm-9bd7.html
Watsonは,アメリカのクイズ番組「Jeopardy!(ジョパディ!)」で,二人のクイズ王と対戦し,勝利を収めました.しかも,このクイズはリアルタイムで出題され,答えなくてはなりません.長く,人工知能,自然言語処理を行ってきた研究者としては,これは驚愕の出来事でした.

なぜ一歩近づけるかですが,ロボットが人間らしいやり取りを行うのは,ドメインを限定し,会話パターンや,質問パターンをルール化してしまえば,ある程度可能です.さらにロボットに音声認識・音声合成の機能が備わっていれば,誰でも「おおっ~!」と思ってしまいます.ただ,その感動を得るには,ドメインが限定されているという大前提が必要です.このドメインを限定しないという制約解除が,ロボットの開発にとっては,非常に困難なのです.

Watsonは,ドメインに依存せず,人間と同じようにクイズに答えることができます.クイズの質問は,テキストデータですが,自然言語で与えられます.技術的詳細は,ここでは割愛しますが,人間が答えるのと同じ速さで答えを探索し,解を出力します.しかも,人間がコンピュータに知識を与える必要はありません(全くないわけではありませんが,ドメイン依存のルールのようなものを与える必要はない).質問を構文解析し,その解の候補を挙げ,その候補の評価を行うというのが一連の処理の流れになりますが,非構造化データであるテキストデータからこれを行うのは,非常に大きな計算コストがかかります.人間の世界のありとあらゆる知識に答えようとするならば,そのデータ量も膨大なものとなります.それをリアルタイムで答えを出すところがすごいところなのです.

こう書いても,まだいまいちその凄さが分からない方もおられるかもしれません.しかし,それは無理もありません.我々は,普段からWebを使って問題解決を行っています.分からないことがあれば,関連する単語を検索キーとして検索エンジンに入力し,出力結果のWebページを見れば,解を発見できることが多いです.Webやコンピュータシステムが,日常に溶け込んでしまっており,コンピュータで問題解決を行うということには新鮮味を感じません.

一方,ロボットは,まだ日常の生活に溶け込んでおりませんので,メディアで取り上げられれば,普段見たことがないがために,すごいと思ってしまいます.もちろん,その見た目や動きは,年々進化しており,私も驚かされるばかりですが,本当に難しいことに気づくことが難しくなりつつあるようにも思います.

Webは日常生活に溶け込みましたが,人間が読んで理解し解を得ることと,コンピュータが非構造化データから解を探索し結果を出力することには,大きな乖離があります.ロボット開発をさらに飛躍させるためには,乗り越えることが本当に困難な壁に挑戦していかないといけないと思います.

参考文献
http://www-06.ibm.com/ibm/jp/responsibility/report/
中の「日本IBM コーポレート・レスポンシビリティー・レポート2011 (2.84MB)」

|

国際会議WWW2010論文感想その7 (個人識別・大規模アクセスログの分析)

Ravi Kumar, Andrew Tomkins: A characterization of online browsing behavior, Proc. WWW'10, 2010
Web視聴率調査,ユーザ行動,検索行動
http://portal.acm.org/citation.cfm?id=1772748

Yahoo! Researchによる研究である.Yahoo!ツールバーにより任意のユーザ(調査に同意したユーザ)の任意のサイトに対するアクセス履歴を取得し,それを解析している.調査に同意したユーザの5000万回以上のページ閲覧を解析している.2009年5月18日~24日の一週間分のデータである.以下に調査結果を示す.

検索結果ページ
1000個のページ閲覧を抜き出して手動で調査したところ,検索結果ページは,全ページ閲覧の9%であった.検索結果ページは,Yahoo!やGoogleなどが提供するページ検索だけでなく,各サービス提供会社が行っているページ検索,マルチメディア検索,商品検索も含む.ページ検索は,6.2%,マルチメディア検索は1.4%,商品検索は1.4%であった.

検索結果ページの自動識別
大規模な調査を行うために,検索結果ページの自動識別を行っている.ページ検索に対しては,Yahoo!, Google, MSN, Ask, AOLを識別している.マルチメディア検索に対しては,Youtube, Hulu,Flicker, Picasaを識別している.商品検索に対しては,Amazon, eBay, Crigslist, Imdb, Singlesnet, Careerbuilder, Leboncoinを識別している.以下は,この大規模な調査の結果である.

ページ閲覧の木構造の逆探索
あるページからネットサーフィンを行うとすると,その履歴は木構造として表現できる.こうしてできた木構造の任意のノードに対し,そのノードから祖先をたどっていったときに,検索ページが存在するかどうかを調査している.その結果,16.2%のページが祖先として,ページ検索の検索ページが存在する.マルチメディア検索は3.3%,商品検索は0.9%,その他検索は4.4%であった.

オブジェクトの検索
オブジェクトの検索の調査もしている.本文では,SO(Structured object)と呼んでおり,レストラン,製品,車,不動産,セレブ,企業などを指す.検索クエリにSOを含む確率は,66.1%であると報告している.残りの33.8%がその他である.残りの内訳は10%がURLクエリ,12%がナビゲーショナルクエリ(直接サイトに行くための固有名詞)であった.

e-commerceにおける分析
e-commerceにおいて商品の決済を行うページをcheckout pageview(CP)と呼ぶ.このCPに対し,探索木の祖先に検索ページを持つものの割合を調べている.結果は,20.1%であった.
その後,外部検索エンジンからCPにたどり着いたパスのうち,外部検索エンジンからCPを行ったe-commerceサイトの最初のページへのホップ数と,前記最初のページ数からCPまでのホップ数との差を比較しているすると,おおよそ,全ホップ数の2/3ほどをECサイトにたどり着くまでに使い,ECサイト内では1/3ほどでCPに到達している.

(総評)
クライアントに計測プログラムをインストールする形での調査で,ここまで大規模に調査を行った例はないのではないかと思われる.やはり大手検索ベンダが,ツールバーという形で組み込める強みを最大限生かした研究と言える.データ規模だけでなく,この調査には面白い視点がある.一つは,検索の種類をページ検索,マルチメディア検索,商品検索と分けている点である.もう一点は,オブジェクトの検索を視野に入れ,全検索の分類をしている点である.最後は,商品購入までのホップ数を調査している点である.いずれも大規模な特定個人のアクセスログを手に入れることができたからできた調査であり,調査結果は価値のあるものと思われる.ただし,論文そのものは不明な点が多く,データパワーで押し切った印象が否めない.論文のプレゼンテーションはかなりひどいと言える.これが通るのであれば,日本人の論文も通してもらいたいものである.

|

« 2011年5月 | トップページ | 2011年7月 »