GoogleのエンジニアがGoogle公式ブログの中で、Googleの検索エンジンがウェブのインデックス作成とその処理に関してどのように動作するかを述べている。
ウェブのインデックス作成は、あるサイトのリンク構造の中から最初のページを割り出し、次々にリンクを辿り新しいページをクロールし、最終的に巨大なリンクのリストを作る。
次に、ページ同士のリンクの状態を表現した「リンクグラフ」を解析し、Googleがウェブページをランク付けする仕組みである「PageRank」の計算の元となる。
現在ではGoogleは一日に数回、このリンクグラフを再計算している。この計算は、米国内の交差点の交差の仕方を探索するようなものだが、リンクグラフは「米国のすべての交差点と道路の5万倍の数がある」という。
こうした膨大な計算量は検索エンジン市場への新規参入の困難さを表しているが、米国Yahoo!では「BOSS(Build Your Own Search Service)」というプログラムを導入し、この困難さの一部を緩和している。検索市場に参入する企業は、ヤフーの持つクローリング、インデックス作成、検索テクノロジを利用し、通常のウェブを検索する。その上で自分たちのオリジナルの情報源からの検索結果と混ぜて、その結果をユーザーに表示できる(この点で通常の検索マッシュアップなどと異なる)。BOSS利用の企業は、Yahoo!の技術を利用する代わりにYahoo!と提携している企業の広告の表示などが義務となる。
[ニュースソース]
・We knew the web was big... Google Official Blog, 2008/7/25/2008
・Yahoo! Search BOSS
[関連サイト]
・Google、把握しているURLが1兆を突破 - 2008/7/29
・フィンランド:hakia、PubMed専用検索エンジンを提供 - 2008/6/13
hakia もBOSSを使用