SEO研究所サクラサクラボ

SEO・コンテンツマーケティングを成功に導くパートナー

Caffeineとは?【Search Off the Recordシリーズより】

10月8日更新されたGoogleのSEO podcastシリーズ、”Search Off the Record”では、GoogleのGary Illyes, John Mueller, Martin Splittの3氏が、YouTubeよりくだけた形でトークを展開しています。

この中で、botの1つであるCaffeineについて言及される場面がありましたので、その内容をまとめます。
少々マニアックな内容になりますので、知っているかどうかがSEOの成果を左右するものではないと思いますが、興味がある方はご覧ください。

【予備知識】Caffeineとは?

Caffeine(カフェイン)とは、Googleが使用しているbotの1つです。
Googlebotがクローラーと呼ばれ、HTML情報の取得を担っているのに対し、Caffeineはレンダリングを担っているbotで、ページのインデックスにおいて非常に重要な役割を持っています。

Googleデベロッパーガイドでは、以下のような図でクロール、レンダリング、インデックスの関係が説明されています。

インデックスの仕組み

JavaScript SEO の基本を理解する – Googleデベロッパーガイド

また、2020年8月10日頃に、Caffeineに起因するインデックス障害が起きた際には、Caffeineの役割として以下のように説明されていました。

要約:インデックスシステムであるカフェインはさまざまなことを行っています。

  1. 取得したデータを取り込む
  2. データをレンダリング、変換する
  3. リンク、メタデータ、構造化データを抽出する
  4. シグナルを抽出し計算する
  5. 新規クロールをスケジュールする
  6. 検索結果に表示されるインデックスを作成する

今回のpodcastエピソードでは、Caffeineの役割の一部についてより掘り下げた言及がありました。

Caffeineの役割

以下、podcastでのトーク内容をまとめますが、注意点があります。

※注意
podcastでは3氏がかなりくだけた雰囲気で対話しており、Caffeineについておそらく網羅的・完璧に話されているわけではないと思われます。
また、かなり冗談も飛び交っていますので、この記事の内容も誤解して受け取ってしまっている内容が含まれている可能性があります。
Podcastに並行してスクリプトも公開されていますので興味がある方はご覧ください。

Podcast:Spilling the beans on Caffeine (Google’s indexing system), and more!
Transcript:スクリプト

まず、Caffeineは魔法のようなことを行っているインデックスシステムの一部である、とのことです。
Googleの社員もCaffeineがどのようなことを行っているか詳しく把握していないようでした。

プロセスのはじめでは、Googlebotがプロトコルバッファーを生成する、とのことです。
プロトコルバッファーについて詳しい説明はされていませんが、「必要とするすべての情報」と言及されています。サイトの内外を問わず、どのような情報を取得するかを規定するものだと思われます。

Ingest(取り込み)

Googlebotが作成したプロトコルバッファーをCaffeineがピックアップします

Conversion(変換)

取り込んだデータをインデックスするために処理を行う段階だと思われますが、前処理のようなことも行うようです。
以下のような処理について言及されていました。

HTML normalization

一般的にインターネット上のHTMLは壊れているため(※やや過激な言い方ですが、正規の書式に沿っていない場合が多いということだと思われます)、HTML lexorによって標準化するとのこと。
これによりたとえば、見出しタグhxの相対的な重要性を理解できるようになるようです。

また、PDFに関してはAdobe社のデコーダーをライセンス契約してHTMLに変換しているとのこと。

meta tag

たとえばnoidnexを見つけた際にはドキュメントの処理を停止します。

なお、head内にiframe やdivなどのタグがあると、直前でheadを終了してbodyを開始するとのこと。

collapsor(エラーページの扱い)

HTMLだけでなく、HTTP的に誤ったページを理解しようとする段階。HTTP200で返ってくる404ページ(ソフト404)など。
ソフトエラーがどのようなときに表示されるのか理解し、インデックスに入れないようにしているとのことです。
そのような基準に該当するページの処理を停止するよう、Caffeineに促します。

・エラーページ処理システムは使用しているキーワードも参照する。そのため、ソフト404ページにありがちなテキストを使用していると誤検知されてインデックスされないおそれがある
・対象は404に限らない
・ログインページも同様にこのフェーズで検出している
・ECサイトの在庫切れページも、(ページで使用されているテキストによるが)おそらくインデックスされない。ただし、変更があった際に通知される登録機能をつけておけば、インデックスされるかもしれない。

以降のプロセスは言及されませんでした・・・

今回のエピソードでは、上記まで話したところで話題が別のところに移ってしまい、戻ってくることはありませんでした(笑)

そのため、クロールデータの変換プロセスは話題が及んだ以外にもあるのかもしれませんし、レンダリングやインデックス作成についてはそもそも触れられていません。

まとめ

一部とはいえ、Caffeineについて具体的な内容まで踏み込んでトークされていました。
Caffeineの異常はランキングへの大きな変動を引き起こすなど、検索の仕組みに非常に重要なプロセスを担っているbotです。
SEOに関わっているのであればGooglebotとは別に、そのようなbotが存在することは知っておいて損はありません。

サクラサクラボではGoogleの最新情報をキャッチアップしてブログやtwitterで配信しています。
ぜひフォローください!


follow us in feedly

執筆者 / 監修者

監修者:根岸 雅之
監修者:根岸 雅之
サクラサクマーケティング株式会社 取締役社長 COO

1980年生まれ 東京都稲城市出身、都立三鷹高等学校、専修大学文学人文科学を卒業後、2003年に学校関連の広告・出版を扱う株式会社JS コーポレーションに入社。
3年勤務した後に、学生時代より、ベンチャー企業への興味関心が高かったこと、より企業の課題解決に向き合っていきたいという想いから、WEB マーケティング業界へ転身。
2006年にSEM コンサルタントとして、インターネット総合代理店、株式会社オプトに入社。リスティング、ディスプレイ広告の運用から、SEOの施策提案など主にキーワードマーケティング領域に特化した業務に従事。

同年10月に、当時4名のベンチャー企業であった当社の役員と共鳴し、転職。入社後は、営業をはじめ、SEOコンサルティング、新規事業開発、自社マーケ、人事、財務と幅広い領域を経験し、営業部長、執行役員、取締役と経て、2015 年に社名変更とともに取締役社長に就任。

SEOコンサルタントとして大規模サイトから新規サイトまで、売上向上に繋がるコンサルティングを武器に200サイト以上の実績。9年連続でラスベガスで開催されるPUBCONに参加するなど海外の最新のSEO情報の収集にも尽力。
現在は、サクラサクラボの編集長、サクラサクラボチャンネルでの情報発信などの自社マーケティングを通じてBtoBマーケティングにも精通し、ここで培ったノウハウをもとにコンサルティングを展開。

3歳から現在に至るまで、サッカーを続けており、組織マネジメントにおいて、この経験値を大いに活用している。

その他のブログ記事

Return Top