SEM対策なら専門家に!Googleのシステム
sem対策を成功に導くためにも検索エンジンGoogleのシステムを理解してクローラが、どのようにクロールして情報を集めているかを理解することはsem対策をするうえで、必要なことではないか。Googleの進化のスピードは速く、既にこのシステムは古くなっている可能性も否定できないが。
Googleは大規模計算を実現するために、スーパーコンピュータを使うのではなく、安価なパソコンクラスのコンピュータをたくさん組み合わせる方法を採用している。1つ1つのコンピュータは、パソコンでつかわれているマザーボードそのままで、当初はCPUもpentiumⅢを使ったものだった。これにハードディスクを付け、Linuxをインストールしたものを1つのノードとして、数千台組み合わせたシステムを作っている。こうしたシステムのあるデータセンターが全米に5箇所ある。このシステムは非常に複雑だ。
中心となるプログラムには、Webページとリンクを集める「クローラ」とデータベースを作る「インデクサ」、キーワードとページを結び付ける「ソータ」といったものがある。また、作業データを保管する主なストレージとして、ページデータを蓄える「リポジトリ」、インデックス(索引)を格納する「バレル」の他、アンカ、リンクといったストレージがある。
作業の流れを追いかけると次のようになる。先ず、クローラはインターネット内でリンクを追いかけながらページ情報を収集する。収集したページデータは、ストアサーバで圧縮されてリポジトリへ保存される。各ページには[DocID]と呼ばれるIDが割りあてられ、内部ではこのIDと個々のページを区別している。そしてリポジトリを元にインデクサがデータベースを作成して行く。インデクサは、アンカや単語、その他のレイアウト情報を抽出し、単語には[WordID]を割り当てた上でDocIDとWordIDでインデックスを作成する。これに対してソータはWordIDからDocIDへのインテックスを作成する。そして、作成されたインデックスはバレルへ保存される。
ページから取り出されたアンカー情報は、アンカーストレージに保存され、ページ間のリンク情報はリンクストレージに保存される。こうしたリンク情報はURLとして別途保存され、そこから抽出されたURLは、次回Webページを収集するために使われる。
◇ 片手にソロバン、片手に論語 ◇
子曰く、われいまだ徳を好むことと色を好むがごとくする者を見ず。
(わたしはまだ、美女を好むほどの熱心さで、徳の涵養につとめる男にお目にかかったことがない)。(孔子)
コメント