Googleサーチコンソールのインデックスカバレッジについてのまとめ記事です。
前回は主にエラー対処法を解説させていただきましたが、今回はその続きである、「有効」ステータスの中で、よろしくないページがインデックスされている場合と、「除外」ステータスの扱いについてのまとめを書いています。
※前回の記事は↓こちらです。「エラー」ステータスの対処法について知りたい方は、以下の関連記事の方を参考にしていただければと思います。
目次
「有効」ステータスの中で、あまりよろしくないページがインデックスされている場合は対処する
インデックスカバレッジの「有効」には以下の2つのパターンがあります。
※またまた、Google先生のヘルプページを拝借します。
送信して登録されました: インデックスに登録する目的でこの URL を送信し、インデックスに登録されました。
インデックス登録されましたが、サイトマップに送信していません: この URL は Google によって検出され、インデックスに登録されました。重要な URL はすべて、サイトマップを使用して送信することをおすすめします。
https://support.google.com/webmasters/answer/7440203
これは、インデックス登録に際してサイトマップファイル(sitemap.xml)を送信したか、送信していない(されなかった)かの違いです。
つまり、どちらもインデックスされているので、あまり気にする必要はないと思いますが、1点だけ以下のポイントをおさえておくと良いでしょう。
- 「インデックス登録されましたが、サイトマップに送信していません」の中で、あまりよろしくないページがインデックスされていれば対策する
「あまりよろしくないページ」とは何なのか?
それを説明する前に、参考までにこのブログではどんなページが「インデックス登録されましたが、サイトマップに送信していません」になっているかをご紹介します。
- 年月日のアーカイブページ(例)ドメイン名.com/date/2019/
- ページネーションで分割されたぺージ(例)ドメイン名.com/page/4/
- アバウトページやプライバシーポリシーページなどの固定ページ
- たぶん、1〜2日くらい前に公開したばかりであろう記事のページ
- パーマリンクやカテゴリー名が変更される前のページ
(今はリダイレクトされ、別のパーマリンクで表示される) - 今はページが存在しないために、404 Not Foundになっているページ
(記事が消えたか、紐づいていたカテゴリーやタグがなくなったことが原因)
こんな感じです。
この中で❶❷❸については、All in One SEOでnoindexにしていたり、Google XML Sitemapsプラグインでサイトマップファイルから除外しているため、ここに上がってきます。
❹については、これはしばらく(次のクロールまで)様子見かな…と思います。
(クロールに問題あれば、エラーの方に回ると思う。)
❺はリダイレクトは効いているので、問題ないといえば問題なさそうです。が、気になるようだったら301恒久リダイレクトをして様子をみるのも手かなと。
で、問題は❻。これは存在しないページがインデックスされたままになっているということで、「あまりよろしくないページ」がこれに当たります。なので、個別に301リダイレクトするなどの対策が必要になってきます。
- 存在しないページ(404)がクロールされてしまっている場合、301などで適切にリダイレクトしてあげる
WordPressでページをリダイレクトする方法として、.htaccessをダイレクトで編集する方法と、プラグインを使う方法があります。All in One SEOプラグインがあれば、管理画面から.htaccessファイルを編集することができるので、気になる方は以下の関連記事を参考にしてもらえればと思います。
除外ステータス
最後に「除外」ステータスです。除外はたくさんパターンがあるので、各所Googleのヘルプページを引用させていただきながら、個別に見ていくことにします。
※対応が必要なものが出てくれば、その対応策も合わせて紹介させていただきますね。
- noindex タグによって除外されました
- クロール済み – インデックス未登録
- ページにリダイレクトがあります
- 代替ページ(適切な canonical タグあり)
- 見つかりませんでした(404)
- クロールエラー
- 検出 – インデックス未登録
- 重複しています。送信された URL が正規 URL として選択されていません
- ページ削除ツールによりブロックされました
- robots.txt によりブロックされました
- 未承認のリクエスト(401)が原因でブロックされました
- 重複しています。Google により、ユーザーがマークしたページとは異なるページが正規ページとして選択されました
- ページは法的な申し立てによりインデックスから削除されました。
- 重複しています。送信された URL が正規 URL として選択されていません
では、1つずつ見ていきましょう。
noindex タグによって除外されました
Google がページをインデックスに登録しようとしたときに noindex ディレクティブが検出されたため、インデックスに登録されませんでした。このページをインデックスに登録したくない場合は、正しく作動しています。このページをインデックスに登録したい場合は、noindex ディレクティブを削除してください。
https://support.google.com/webmasters/answer/7440203?hl=ja
わたしのブログだと、除外ステータスの多くがこの「noindexタグ」によるものです。
具体的にどんなぺージURLが検出されるかと言うと、以下のとおり。
- feed URL(例)ドメイン名.com/feed/
- サイトマップファイル(例)sitemap.xml
- 投稿者アーカイブページ
feedのURLが大半を占めてます。
投稿者アーカイブ(author/)のように、All in One SEOプラグインでNoindex指定しているページは別として、feedのページはnoindexをつける/つけないをコントロールできないため、このまま放置でも問題ないかと思います。
クロール済み – インデックス未登録
今後、インデックスに登録される可能性がありますが、登録されない可能性もあります。この URL のクロールのリクエストを再送信する必要はありません。
https://support.google.com/webmasters/answer/7440203?hl=ja
このブログでもいっぱいURLが検出されましたが、「インデックス登録待ち」ということなので、しばらく様子見ですね。
ページにリダイレクトがあります
URL はリダイレクトであるため、インデックスに登録されませんでした。
https://support.google.com/webmasters/answer/7440203?hl=ja
具体的なURLを見ると、WordPressのデフォルトのパーマリンク設定のページURLが上がってきているようです。
- ドメイン名.com/?p=303
ただ、結論から言って、正常にリダイレクトすることが確認できれば問題ないです。
- ドメイン名.com/?p=303などにアクセスして、パーマリンク変更後のページが表示されるかを確認
- URL検査ツールを使って、リダイレクト前後のページの詳細なステータスを確認
❷のURL検査ですが、例えば?p=303の方をURL検査してみると、「このページはインデックスに登録されていませんが、エラーではありません。」と表示され、クロールのステータスも正常です。この場合は「問題なし」と見ていいでしょう。
念のために、リダイレクト先のURLも検査ツールにかけてみると、こちらも「Googleに登録されています」と表示されているのでOKです。
代替ページ(適切な canonical タグあり)
このページは Google が正規ページとして認識しているページと重複しています。正規ページへのリンクが正しく指定されているため、これ以上の対処は必要ありません。
https://support.google.com/webmasters/answer/7440203?hl=ja
結論から言って、このまま放置していても問題ないものなんですが、1点気になったのが以下のURLです。
- ドメイン名.com/?from_pc
見つかりませんでした(404)
このページのリクエスト時に 404 エラーが返されました。Google は明示的なリクエストやサイトマップなしで、この URL を検出しました。Google は、別のサイトからのリンクとして、この URL を検出した可能性があります。または、ページは以前存在していましたが、削除された可能性があります。このような URL に対して、Googlebot は以後しばらくの間アクセスを試みます。クロールの頻度は次第に低下しますが、検出済みの URL を Googlebot から完全に削除する方法はありません。意図的に 404 レスポンスを返している場合は問題ありませんが、ページを移動した場合は 301 リダイレクトを使用して新しいアドレスに転送してください。404 エラーの修正方法についてご確認ください。
https://support.google.com/webmasters/answer/7440203?hl=ja
当ブログで該当するページは以下のとおりです。
- 昔使っていたカテゴリーのページ
(今は別のカテゴリー名になっていて存在しないページ)
これは、適切にリダクレクトされないまま404で残ってしまっているページたちなので、可能な限りリダイレクトしてあげる方が良いです。
- 正規のページへリダイレクト(301など)してあげる
クロールエラー
この URL の取得時に不特定のエラーが発生しました。レスポンス コードが 4xx または 5xx レベルのエラーの可能性があります。URL 検査ツールを使用してページを取得してみて、問題が発生するかどうかを確認してください。ページはインデックスに登録されていません。
https://support.google.com/webmasters/answer/7440203?hl=ja
サーバーエラーの可能性もあるらしいですが、このブログでヒットしたページは以下のとおりです。
- パーマリンクやカテゴリー名が変更される前のページ
(今はリダイレクトされ、別のパーマリンクで表示される)/ - 今はページが存在しないために、404 Not Foundになっているページ
(記事が消えたか、カテゴリーやタグがなくなったことが原因)
これもリダイレクト対応案件です。いつまで経ってもここに残ってしまっているものは、301などで適切にリダイレクトしてあげるようにします。
- 正規のページへリダイレクト(301など)してあげる
検出 – インデックス未登録
ページは Google により検出されましたが、まだクロールされていません。これは通常、Google が URL をクロールしようとして、サイトが過負荷だったために、クロールの再スケジュールが必要となった場合です。そのため、レポート上で最終クロール日が空欄になっています。
https://support.google.com/webmasters/answer/7440203?hl=ja
これはGoogle先生が仰せのとおり、「インデックス時にエラーが起こっていた可能性があるURL」です。なので、基本的には次回クロールを待って、解消されていればOKです。
2019.07.07追記
ある日を境に、大量のページがインデックス未登録に上がってくるようになりました。具体的には以下のページです。
- attachment/のページ
これは、WordPressでメディアから画像をアップロードすると生成されるページです。今までは検出されることがなかったんですが、「なぜ最近になって大量のURLが報告されたんだ?」といろいろ調べていたら…
おそらくAll in One SEOの「XMLサイトマップ」モジュールで、サイトマップに含む投稿タイプに「メディア・添付ファイル」が含まれていたので、これが原因だと思う。。。
なので、XMLサイトマップのモジュール自体を無効にして、様子を見ることにしました。
重複しています。送信された URL が正規 URL として選択されていません
この URL は、正規ページとして明示的に指定されていない重複した URL の 1 つです。この URL はインデックスに登録するよう明示的にリクエストされましたが、重複ページであるため、Google は別の URL を正規ページとして適切と判断しました。この URL の代わりに、Google の選択した正規ページがインデックスに登録されています(Google では、重複のセットに含まれる正規ページのみをインデックスに登録します)。インデックス登録が明示的にリクエストされていない場合は、「Google により、ユーザーがマークしたページとは異なるページが正規ページとして選択されました」のステータスになります。この URL を検査すると、Google が選択した正規 URL が表示されます。
https://support.google.com/webmasters/answer/7440203?hl=ja
2019.07.07追記
一時期は該当ページが0になったものの、最近になって大量に検出されるようになりました。
なので、やはりメディアファイルのぺージがサイトマップファイルに含まれていたことが原因のような気がするので、XMLサイトマップモジュールの無効化後の様子を見たいと思います。
・・・
除外の例はほかにもありますが、以下の6点はこのブログでは発生しないエラーのため、Googleのヘルプページを参考にさせていただきながら、さらっとだけ触れていきます。
※今後、該当する問題が出てきたら、解説を追加していこうと思います。
ページ削除ツールによりブロックされました
ページは現在、URL 削除リクエストによりブロックされています。確認済みのサイト所有者であれば、誰が URL 削除リクエストを送信したかを URL 削除ツールで確認できます。削除リクエストでページがブロックされるのは、約 90 日間のみです。その期間が過ぎると、インデックス登録リクエストを再送信しなくても Googlebot が再びページにアクセスし、ページがインデックスに登録されることがあります。ページをインデックスに登録したくない場合は、noindex を使用するか、認証機能を使ってページを保護するか、ページを削除してください。
https://support.google.com/webmasters/answer/7440203?hl=ja
おそらく、GoogleにURL 削除リクエスト出せばここに上がってくるんだと思います。
robots.txt によりブロックされました
このページは robots.txt ファイルによって Googlebot のアクセスがブロックされています。この確認には robots.txt テスターを使用できます。robots.txt でブロックされていても、他の方法によってページがインデックスに登録されることがあります。 たとえば、Google がページを読み込む以外の方法でそのページに関する他の情報を検出した場合に、ページがインデックスに登録される場合があります(ただし、そうした事例はごくまれです)。Google のインデックスに確実に登録されないようにするには、robots.txt によるブロックを削除して noindex ディレクティブを使用します。
https://support.google.com/webmasters/answer/7440203?hl=ja
Robots.txtを編集していれば起こる可能性があります。
未承認のリクエスト(401)が原因でブロックされました
このページへのアクセスには認証が必要なため、Googlebot のアクセスがブロックされています(401 レスポンス)。Googlebot がこのページをクロールできるようにするには、認証機能を使ったページの保護を削除するか、Googlebot によるページへのアクセスを許可してください。
https://support.google.com/webmasters/answer/7440203?hl=ja
重複しています。Google により、ユーザーがマークしたページとは異なるページが正規ページとして選択されました
この URL は、あるページセットの正規ページとして指定されていますが、Google は別の URL のほうが正規ページとして適切と判断しています。Google は、このページではなく、正規ページとして適切であると考えるページをインデックスに登録しました。このページを正規 URL の重複ページとして明示的にマークすることをおすすめします。このページは、明示的なクロール リクエストなしで検出されました。この URL を検査すると、Google が選択した正規 URL が表示されます。
https://support.google.com/webmasters/answer/7440203?hl=ja
ページは法的な申し立てによりインデックスから削除されました。
法的な申し立てにより、ページが削除されました
https://support.google.com/webmasters/answer/7440203?hl=ja
重複しています。送信された URL が正規 URL として選択されていません
重複しています。ユーザーにより、正規ページとして選択されていません: このページには重複するページがあり、そのどのページも正規ページとして指定されていません。Google ではこのページが正規ページではないと判断しています。明示的にこのページの正規ページを指定する必要があります。この URL を検査すると、Google が選択した正規 URL が表示されます。
https://support.google.com/webmasters/answer/7440203?hl=ja
インデックスカバレッジの「有効」「除外」ステータスの確認ポイントまとめ
最後に、インデックスカバレッジの「有効」「除外」ステータスの中から、確認と対処が必要なポイントを以下にまとめます。
- 404のページが検出されたとき、なるべくリダイレクトする
- ある日を境に大量にURLが検出された場合、直近で作業した内容を振り返り、問題がなかったかを見直す
なので、「急にエラーが増えた!」「大量のURLが検出された!」という場合、サーバーの問題でなければ、直近でWordPress側の設定を変更しなかったかどうかを確認するとよいでしょう。
・・・
以上で、インデックスカバレッジのエラー対処法と、各種ステータスの解説のまとめを終わります。最後まで読んでいただき、ありがとうございました★
ただ、このURLを検査ツールに回しても問題ない(このページはインデックスに登録されていませんが、エラーではありません。が出る)ので、このままでも良いとは思うんですが・・・なぜこの?from_pcがつくのかは未だ不明です。