ブログ

検索エンジンの仕組み – クローラ、インデクサの役割をわかりやすく解説!

本稿では、日々進化する検索エンジンの根幹である、サイト情報の取得と解析を担う「クローラ」および「インデクサ」という二つの仕組みについて、Google公式ページ「クロールとインデックス」を参考に、初心者の方にもわかりやすく解説いたします。

■Google公式ページ「クロールとインデックス
https://www.google.com/intl/ja_ALL/insidesearch/howsearchworks/crawling-indexing.html

この記事の目次

クローラとインデクサ

検索エンジンの根幹は大きく分けると、WEBページの取得と解析を行うフェーズと、入力されたキーワードの解析とマッチングを行い検索結果を出力するフェーズの2つにわけられます。

まずは、WEBページのデータ取得を担うクローラと、ページの解析を担うインデクサの2つについて解説いたします。

  • クローラによるデータ収集

    検索エンジンにはクローラと呼ばれる、データを収集するためのプログラム、通称「ボット(bot)」があり、WEBに公開されているページのリンクを辿ってデータを収集します。

    クローラは、通常のWEBサーフィンと同じようにサイトを閲覧しますが、Googleの場合はGooglebot、Bingの場合はBingBotというように、ユーザエージェントでそれと判断できるようになっています。
    ※Googleクローラユーザエージェント一覧
    https://support.google.com/webmasters/answer/1061943?hl=ja

    クローラは任意のページを取得すると、そのページにあるリンクから新たなURLを抽出し、さらにクロールの対象に加えます。これを繰り返すことで、膨大なWEBページを探しだしデータを収集することが可能になります。

    クローラは一回限りのアクセスではなく、一度URLを見つけると、定期的にクロールしてくるようになります。
    これにより、多少の時差はありますが、検索エンジンは継続的に最新の更新データ取得することが可能になっています。
    ※クロール頻度の算出についてもアルゴリズムがありますが、本稿での説明は割愛致します。

  • インデクサによるデータ整理

    クローラが収集するデータは生のHTMLデータですので、それを整理整頓し、検索結果を出力するのに最適な形に解析するのがインデクサとなります。

    インデクサが整理整頓することを、「インデックスする」と言い、単にクロールされるだけでなく、インデックスまでされないと検索結果には反映されない事になっています。

    一般的に検索アルゴリズムと呼ばれるものの大部分はこの部分で適用されるとされており、内容の解析、コンテンツの品質、記事の更新性等の数百にも及ぶ評価軸を元にインデックス処理が走ります。

    インデックス処理の詳細を理解する事は難しいですが、一般的に「目次を作る」作業と例えられるように、あるキーワードに関連する項目として文書を登録していく作業のイメージになります。

    Googleではインデックスされた状態になると、下記の検索コマンドで確認することが可能です。
    インデックス確認検索コマンド「 site:ページのURL 」

キーワードの分析と検索結果

ここまでで検索エンジンの中には、大量のデータが蓄積されています。
この後、入力された検索キーワードの解析、マッチングを行い、検索結果の出力をします。

  • 検索キーワードの解析

    ユーザーが検索エンジンに入力したキーワードを解析し、検索結果を表示する準備をします。

    キーワードを解析するアルゴリズムは複数あるとされていますが、その中の1つで有名なものとしてRankBrain(ランクブレイン)という人工知能アルゴリズム(AI)が挙げられます。

    このアルゴリズムは2015年の初旬から中旬の間に導入されたと推察されますが、ディープラーニングを取り入れ、きわめて強力な機械学習の元、キーワードの解析を行うようです。
    ※RankBrainについては諸説あり、キーワード解析以外についても行っているとされていますが、本稿では詳細は割愛致します。

    キーワード解析と並行して、キーワードのコンテキスト(背景)についても解析を行います。
    キーワードが入力されたコンテキストとしては、例えば位置情報であったり、時刻、前回検索したワードなどがあり、これらも検索エンジンが取得できる範囲ではありますが、全て解析対象となり、検索結果に影響を及ぼすと考えられます。

  • 検索結果に表示

    ここまでくれば、後は検索結果を表示するだけです。

    インデクサによって作られたインデックスデータを元にランキング付けされたデータと、検索キーワードの解析を経てまとまったデータとをマッチングし、最終的な調整を経て検索結果が表示されます。

まとめ

ここまで検索エンジンの仕組みについて、「クローラとインデクサ」「キーワードの分析と検索結果」の2つに分けて、Google公式ページの内容をもとに解説してきました。

検索エンジンは日々進歩していますが、「データを集め、マッチングを行い、出力する」 という検索エンジンの根幹の仕組みを正しく理解することがSEO施策を展開する上での第一歩といえるかもしれません。

今後も検索エンジンが進化・変化していく中で、本稿が長く通用する知識としてお役に立てれば幸いです。

◇この記事もおすすめ!
・SEO対策(検索エンジン最適化)とは?初心者にもわかりやすく解説します





■関連情報:サクラサクマーケティングのSEOコンサルティングサービス
中小・ベンチャー企業の売上をサポートするSEO対策低価格・高品質なSEOコンサルティング

無料メルマガのご登録(無料)

SEOの最新情報を無料でお届けします!





プライバシーポリシー

監修者:根岸 雅之

記事一覧

取締役社長 COO

2006年株式会社オプトにてSEMコンサルタントとして、大手企業のリスティング広告の運用に従事。

その後、サクラサクマーケティング株式会社に転職し、SEOコンサルタントとして、10年以上、100サイトの以上の顧客のWEBマーケティングのパートナーを担う。また、セールス、新規企画開発、アライアンスと幅広く従事し、2014年より取締役社長として会社を牽引。



無料資料ダウンロード

サービス資料ダウンロード

用語集

ソースコード集

お役立ちリンク集

無料メルマガのご登録(無料)

SEOの最新情報を無料でお届けします!





プライバシーポリシー

お役立ちツール

カテゴリ一覧

タグクラウド

新着記事一覧

  1. インスタグラムの公式な投稿埋め込み方法がSEOに不向きな理由

    ブログやWebサイトだけでなく、インスタグラムやtwitterなどのSNSを運営していて、ブログ上でSNSの紹介や、逆にSNS上でブログの紹介をされる方も多いかと思います。 ブログ上でSNS投稿を紹介する場合、投稿埋め込 […]...

      1. サクラサクラボ9月のツイートまとめ

        当サイトのツイッターアカウント(@sakurasakulabo)のツイートから、9月のイベントを振り返ります。 ツイッターのフォローはこちらからお願いします。 Follow @sakurasakulabo 目次 9月の順 […]...

おすすめコンテンツ

  1. SEO対策(検索エンジン最適化)とは?初心者にもわかりやすく解説します

    SEO対策とは「検索エンジン最適化」のことで、数あるWeb集客手法の中でも、検索エンジンからの成果を最大化することです。基本的にはユーザーや検索エンジンからより評価されるように、WebサイトやWebページの変更・改修を続 […]...

    1. コンテンツマーケティングとは?特徴と事例、社内でできる方法を解説します

      ここ数年で急激にコンテンツマーケティングという言葉を聞くようになりました。しかし、「興味があるがまだ着手できていない」という人や、「そもそもどんなコンテンツを作ればいいのかわからない」、「社内で運用しているが成果がでない […]...

      1. SEOに強いコンテンツは回答性×網羅性×文字数×ユーザー体験

        目次 SEOに強いコンテンツとは回答性網羅性文字数ユーザー体験[回答性×網羅性×文字数×ユーザー体験]を考慮したSEOに強いコンテンツ制作お問い合わせフォーム SEOに強いコンテンツとは 検索エンジンで上位表示をさせるた […]...

最新情報を取得する

PAGE TOP