SEO研究所サクラサクラボ

SEO・コンテンツマーケティングを成功に導くパートナー

検索エンジンの仕組み – クローラ、インデクサの役割をわかりやすく解説!

本稿では、日々進化する検索エンジンの根幹である、サイト情報の取得と解析を担う「クローラ」および「インデクサ」という二つの仕組みについて、Google公式ページ「クロールとインデックス」を参考に、初心者の方にもわかりやすく解説いたします。

■Google公式ページ「クロールとインデックス」
https://www.google.com/intl/ja_ALL/insidesearch/howsearchworks/crawling-indexing.html

クローラとインデクサ

検索エンジンの根幹は大きく分けると、WEBページの取得と解析を行うフェーズと、入力されたキーワードの解析とマッチングを行い検索結果を出力するフェーズの2つにわけられます。

まずは、WEBページのデータ取得を担うクローラと、ページの解析を担うインデクサの2つについて解説いたします。

  • クローラによるデータ収集

    検索エンジンにはクローラと呼ばれる、データを収集するためのプログラム、通称「ボット(bot)」があり、WEBに公開されているページのリンクを辿ってデータを収集します。

    各クローラは、通常のWEBサーフィンと同じようにサイトを閲覧しますが、Googleの場合はGooglebot、Bingの場合はBingBotというように、ユーザエージェントでそれと判断できるようになっています。
    ※Googleクローラのユーザエージェント一覧
    https://support.google.com/webmasters/answer/1061943?hl=ja

    クローラは任意のページを取得すると、そのページにあるリンクから新たなURLを抽出し、さらにクロールの対象に加えます。これを繰り返すことで、膨大なWEBページを探しだしデータを収集することが可能になります。

    クローラは一回限りのアクセスではなく、一度URLを見つけると、定期的にクロールしてくるようになります。
    これにより、多少の時差はありますが、検索エンジンは継続的に最新の更新データ取得することが可能になっています。
    ※クロール頻度の算出についてもアルゴリズムがありますが、本稿での説明は割愛致します。

  • インデクサによるデータ整理

    クローラが収集するデータは生のHTMLデータですので、それを整理整頓し、検索結果を出力するのに最適な形に解析するのがインデクサとなります。

    インデクサが整理整頓することを、「インデックスする」と言い、単にクロールされるだけでなく、インデックスまでされないと検索結果には反映されない事になっています。

    一般的に検索アルゴリズムと呼ばれるものの大部分はこの部分で適用されるとされており、内容の解析、コンテンツの品質、記事の更新性等の数百にも及ぶ評価軸を元にインデックス処理が走ります。

    インデックス処理の詳細を理解する事は難しいですが、一般的に「目次を作る」作業と例えられるように、あるキーワードに関連する項目として文書を登録していく作業のイメージになります。

    Googleではインデックスされた状態になると、下記の検索コマンドで確認することが可能です。
    ※インデックス確認検索コマンド「 site:ページのURL 」

キーワードの分析と検索結果

ここまでで検索エンジンの中には、大量のデータが蓄積されています。
この後、入力された検索キーワードの解析、マッチングを行い、検索結果の出力をします。

  • 検索キーワードの解析

    ユーザーが検索エンジンに入力したキーワードを解析し、検索結果を表示する準備をします。

    キーワードを解析するアルゴリズムは複数あるとされていますが、その中の1つで有名なものとしてRankBrain(ランクブレイン)という人工知能アルゴリズム(AI)が挙げられます。

    このアルゴリズムは2015年の初旬から中旬の間に導入されたと推察されますが、ディープラーニングを取り入れ、きわめて強力な機械学習の元、キーワードの解析を行うようです。
    ※RankBrainについては諸説あり、キーワード解析以外についても行っているとされていますが、本稿では詳細は割愛致します。

    キーワード解析と並行して、キーワードのコンテキスト(背景)についても解析を行います。
    キーワードが入力されたコンテキストとしては、例えば位置情報であったり、時刻、前回検索したワードなどがあり、これらも検索エンジンが取得できる範囲ではありますが、全て解析対象となり、検索結果に影響を及ぼすと考えられます。

  • 検索結果に表示

    ここまでくれば、後は検索結果を表示するだけです。

    インデクサによって作られたインデックスデータを元にランキング付けされたデータと、検索キーワードの解析を経てまとまったデータとをマッチングし、最終的な調整を経て検索結果が表示されます。

まとめ

ここまで検索エンジンの仕組みについて、「クローラとインデクサ」「キーワードの分析と検索結果」の2つに分けて、Google公式ページの内容をもとに解説してきました。

検索エンジンは日々進歩していますが、「データを集め、マッチングを行い、出力する」 という検索エンジンの根幹の仕組みを正しく理解することがSEO施策を展開する上での第一歩といえるかもしれません。

今後も検索エンジンが進化・変化していく中で、本稿が長く通用する知識としてお役に立てれば幸いです。

2021年6月8日山崎 好史

執筆者 / 監修者

執行役員 CTO
コンテンツマーケティング部 部長
プロダクトエンジニアリング部 部長

株式会社CSK(現株式会社SCSK)にて保守運用マネージャとして活躍後、独学でプログラミングおよびSEOを学び、サクラサクマーケティングの前身である株式会社ブルトアに入社。
SEOの知識と技術力を生かして主にSEOにおけるツール開発、R&Dなどを進め、中核事業に成長させる。

現在はエンジニア以外にシステム運用チーム、コンテンツマーケティングチームも合わせてを取りまとめ、プロダクト全般を統括中。

◇担当サービス
・SEO:システム設計、開発(インフラ、サーバサイド)
・コンテンツマーケティング:プランナー / ディレクター
・ASO:コンサルタント / システム設計、開発(インフラ、サーバサイド)


◇得意言語
・PHP
・JavaScript
・C#


◇その他(個人の活動)
・アプリ開発
個人アプリの企画、開発を手掛け、50万DLを超える実績を持つ。

・Webサービス開発
個人でもWebサービス開発を行い、「共起語」で長く1位を獲得している共起語ツールなども手がけている。

Blog | Twitter | Facebook | Note | Qiita

その他のブログ記事

Return Top