インデックス促進作業・サイトマップ・クロークについて

～インデックス促進作業を行う～

インデックスとはｸﾞｰｸﾞﾙクローラーが収集したWEBページデータが検索エンジン内の検索結果リストに格納されることですが、これが前提で、検索結果に表示されることなります。反対に、インデックスされていないと検索結果に表示されません。

インデックスされたページは、検索ボックスに「site：ドメイン」を入力すると、一覧表示できます。また、インデックスされた総数も表示されます。

ｸﾞｰｸﾞﾙに頻繁なインデックスをうながすための方法としては

・更新頻度を高くする
・サイトマップを送信する
・インデックスを申請する

インデックスをを申請する

Fetch　as Googleを利用すれば開設したばかりのWEBページなど、まだｸﾞｰｸﾞﾙに認知されていないWEBサイトなどで、「このURLを登録してほしい」とｸﾞｰｸﾞﾙに申請するためのツールです。通常はｸﾞｰｸﾞﾙは常時WEBサイトを巡回しているため、特に問題がない場合は必要ないため補助的なツールとして使うべきです。主なシチュエーションとして

・新規でアップしたページ
・タイトルタグなどページの重要部分やコンテンツが大幅に変更されたページ

をインデックス申請するべきです。

またあまりにもインデックスが遅い場合、原因として

・リンク階層を浅くする
・リンク切れをなくす
・ソースコードにエラーがないかを確認する
・被リンクを併用する（外部対策）

上記内容でも効果を得られなかった場合は、ディレクトを階層を必要以上に深くしすぎていないか、確認してみる。

インデックス申請方法

ｸﾞｰｸﾞﾙウェブマスターツール（google search console）へログインし、クロール→Fetch as Googleの順にクリック、申請したいURLを入力し、取得をしてレンダリングをクリック。最後にポップアップ画面でラジオボタンを選択の上、送信をクリックします。

おすすめは｛このURLと直接リンクをクロークする」らしいです。

XMLサイトマップとRSS/Atomフィードを作成しよう

XMLサイトマップは、サイト内のウェブページ一覧を記した、検索エンジン向けのファイルです。このファイルをｸﾞｰｸﾞﾙに送信することで、クローラが効率的にサイト内に存在するURLを発見することができます。このXMLサイトマップはユーザー向けにページの一覧を記述したｈｔｍｌで作成するサイトマップページとはことなり、ユーザーが目次としてりようするためのサイトマップページとは別に、検索エンジンにサイトのページ構成を伝えるための手段として作成します。

XMLサイトマップには通常、ｸﾞｰｸﾞﾙにクロール・インデックスさせたいURLをすべて記述しますが、その分サイズが大きくなります。そこでｸﾞｰｸﾞﾙは最適なクロールを行うために、XMLサイトマップだけでなく、RSS/Atomフィードを併用することをすすめています。RSS/Atomフィードには最新の更新情報が優先的に抜粋されるため、ｸﾞｰｸﾞﾙは旧来の情報との差分をしることができます。またファイルサイズが小さいため、ｸﾞｰｸﾞﾙが読み込む際の負担も軽減されます。

つまりはXMlサイトマップによって、ｸﾞｰｸﾞﾙはサイト内のすべてのページに関する情報を取得することができ、RSS/Atomフィードによって、サイト内の更新情報を取得することができます。

XMLサイトマップ作成ツール

XMlサイトマップ→「XML-Sitemaps.com」（https://www.xml-sitemaps.com/）

RSS/Atomフィード→「Fumy RSS & Atom Maker」(http://www.nishishi.com/soft/rssmaker/)

XMLサイトマップとフィードを送信する

作成したXMLサイトマップやフィードをサーバにアップロードします。次にｸﾞｰｸﾞﾙにサイトマップを認識させます。ｸﾞｰｸﾞﾙウェブマスターツールでクロール→サイトマップをクリックし、右上の「サイトマップの追加/テスト」をクリックします。入力欄にXMLサイトマップやフィードのファイル名を入力しサイトマップを送信をクリックします。フィードも同様に行います。

最後に、RSSフィードを送信したら、次の｛RSS Auto-Discoveryw」をhead内に記述しておくことで、RSSフィードの場所が明示され、ユーザーにも親切です。

RSS Auto-Discoveryの例

重要な画像をサイトマップに登録しよう

sitemap.xmlの作成時、インデックスに登録してほしい画像情報をサイトマップに追加することでグーグルに画像のインデックスを促すことができます。特にグーグル画像検索などにも表示させたいような画像は、ＨＴＭＬ側のimgで記述するようにし、加えて、sitemap.xml内部にも記述しましょう。サイト上の画像に関する情報をグーグルに提供するには、ＸＭＬサイトマップに画像固有のタグを追加する必要があります。

詳しい内容はウェブマスターツール参照。

robots.txtでクロールを制御しよう

SEO対策とクロール制御の関わり

ページのクロール数は、各々のＷＥＢサイトで異なっています。グーグルのクロール数には日々波があり、各サイトごとにその数も異なっているようです。これは、サイトごとにグーグルが判断したうえで、クロールするページ数を決定しているためです。またインデックスの際は数だけでなく、同時にその質・中身も問われています。これらを踏まえた上で、重要な点は・・・

有限であるクロール数（資源）の中で、検索エンジンに対していかに重要なコンテンツを巡回の上、認識してもらえるかです。

クロール制御はrobots.txt（.htaccessでも可能）、その他のサイト内に関係するものは、一般的に.htaccessやPHP、HTML内部などで制御します。

robots.txtによるアクセス拒否

robots.txtというテキストファイルをサーバーに設置し、対象ページに対し、クローラの巡回制御をおこなう方法があります。これは、アクセスを制限するページをrobots.txt内部に記述の上、アップロードすることで、結果的にグーグルがインデックスできないようにする、という方法です。状況として・・・

・ユーザーにとって価値のないページ
・ショッピングカート
・お問合わせ後のサンクスページ

robots.txtの設置方法

robots.txtは、テキストファイルとして作成し、アクセスを制限したいページのあるディレクリなどを指定します。例えば下記のような記述の場合、「secret]フォルダ内のすべてのファイルにアクセスしない、という指示になります。

User-agent: *

Disallow: /secret

ここで、ディレクトリ名の大文字や小文字等、指定に間違えがないかをしっかりと確認していく。間違っていると別のディレクトリとして認識されてしまいます。

作成したrobots.txtは、サイトのトップ階層にあたるディレクトリにアップロードします。悪い例のように、「hone」というサブディレクトリに保存したのでは意味はありません。

○よい例　http://abc.com/robots.txt

✖悪い例　http://abc.com/home/robots.txt

robots metaタグ

アクセスを制限したはずのページのＵＲＬがどこかほかのページからリンクされていると、それを頼りに、検索エンジンにインデックスされてしまう可能性があります。そのような場合に備え、アクセスを制限したいページのhead要素内にrobotsmetaタグを記載することで、ページ単位での制御を行うことが可能です。

これは検索結果にこのページを表示しないようにする、そして、ページリンクを巡回しないようにすると意味です。グーグルのロボットがnoindexメタタグを検出すると、そのページはグーグル検索の検索結果から完全に削除されます。ほかのＷＥＢサイトからそのページにリンクが張られていた場合も同様です。

注意点

・robots.txtと併用しない
・通常の閲覧してほしいサイトには記述不要
・検索結果に表示したくないページがある、または、ある程度の規模のＷＥＢサイトに限ったものです。通常のサイト等においては使用する機会はほどんどないです。