« ACM RecSys2010 勉強会のノート(セッション9) | トップページ | 異なるリスト間の順位相関係数 »

国際会議WWW2010論文感想その1

Haewoon Kwak, Changhyun Lee, Hosung Park, Sue Moon: What is Twitter, a social network or a news media?, Proc. of WWW'10, 2010.
ソーシャルネットワーク, Twitter, 複雑ネットワーク,べき則,スモールワールド,情報伝搬

Twitterの社会ネットワークとしての特徴,コンテンツであるツイートの特徴,話題の伝搬に関する特徴,ユーザのランキングなどを分析調査した研究である.これだけ,網羅的に詳細に調べた研究としては,本研究が初めてのものである.ツイッターの特徴を知るには,本研究が最も基本的な調査結果として利用できるであろう.

データはTwitterAPIを用いて3週間分集めている.ユーザは,ある一人のユーザから幅優先探索で41,700,00ユーザ分収集している.また,Twitter Search APIを用いて5分ごとに流行トピック(右サイドバーに出るやつ)を4262個取得している.また,それに対するツイートも収集している.

<複雑ネットワークとしての特徴>
・有向ネットワークの基本分析
まず,有向ネットワークの基本特性を分析している.図1は,フォローしている(Followings)とフォローされている(Followers)の数の相補累積分布関数(complementary cumulative distribution function, CCDF)を示している.結果は,100000Followings/Followersまでは,べき則に従うことを示している.また,100000人以上のFollowersのいる人は,べき則分布の予想よりも多くのフォロワーがいることを示している.有名人がツイッターをしているためであろう.これは,他のソーシャルネットワークでは報告されておらず,興味深い報告である.

・フォロワーの数とツイートの数の関係
多くのフォロワーを獲得するには,多くツイートする必要があると考えられる.図2はその関係を示している.フォロワー数が100までは急激に伸びているが,100を超えると横ばいになる.1000を超えるとほとんどツイートをしない人や非常に多くのツイートをする人など分散する.これも,有名人の影響であろう.

・相互関係(双方向リンク)
Twitterでは相互関係の度合いは低く,全ユーザの組の22.1%しかお互いにフォローし合っていないことを報告している.Twitterはソーシャルネットワークサイトというよりもむしろ情報源である.

・最短パス
ユーザ間の最短パスを調査.中央値と最頻値は4.平均パス長は4.12.90パーセンタイル(低い方から並べて90%のところ)は4.8.Twitterのネットワークに対し,平均パス長が4.12というのは非常に短い.単方向リンクの影響か?

・Homophily
Homophilyとは,似ている人々の間では似ていない人々の間よりも高い確率でコンタクトが起こること.フォローし合っているユーザ間の時差について調査.ユーザ数が2000人以下では,相互リンク数が多くなると時間差も増加.

<ユーザのランキング>
ユーザのランキングをフォロワー数上位ユーザ,PageRank,リツイートの合計数でランキングする.フォロワー数上位20ユーザとPageRank上位20位は,リストがほぼ一致する.しかし,リツイートの合計数上位20ユーザは,前者2つとはリストがあまり一致しない.リツイートが多いのはニュース機関となっている.

<流行トピック>
Twitterで取得した流行トピックとGoogle Trendでの流行トピックを比較している.Googleにおいては毎日平均95%が新しい流行トピックであるが,Twitterには72%しかない.Twitter内でのユーザ間のインタラクションが流行トピックが持続する原因となっているかもしれない.同じく,CNNでの流行トピックも取得.すると,多くのものがCNNで発生した流行トピックがTwitterに移っているが,スポーツや事故などは逆のものもある.

流行トピックについて言及したツイートを,singleton, リプライ,mention,リツイートに分けて分析したところ,流行トピックによりさまざまであった.

各流行トピックごとに,新規にツイートしたユーザ数を調べたところ,"apple (computer)"は,徐々にユーザ数が増えているが,"#iranelection"のようなハッシュタグでは,急に伸びたのち,ユーザ数はほとんど増えない.

<リツイートの分析>
フォロワー数とリツイートを受信したユーザ数との関係を調べている.その結果,フォロワー数が1000人までは受信者数の平均は,フォロワー数の影響を受けていない.
一度,リツイートが始まると,そのユーザのフォロワー数には寄らず,ある一定数のユーザに届く傾向があることを示している.

リツイート木を作成してみると,多くのつながりが1パスか2パスとなっている.
リツイートの半分は1時か担いに行われ,75%が1日以内にリツイートされている.

|

« ACM RecSys2010 勉強会のノート(セッション9) | トップページ | 異なるリスト間の順位相関係数 »

Web研究」カテゴリの記事

学会」カテゴリの記事