回答

以下のような仕様になります

クローリングするページ

Web改ざんチェックサービスにて実行されるクローラーは、以下のリンクをたどり、解析対象のデータを取得します。

<meta> タグの refresh に記載されているURL
<script>タグの src に記載されているURL
<frame>タグのリンク先
<iframe>タグのリンク先
<link>タグで参照しているスタイルシートファイル
<a>タグ※
<area>タグのリンク先
<script>タグに含まれている “.php” , “.cgi” , “.asp” , “.aspx” が含まれる文字列はURLに復元を試みてリンク先とします。

<a>タグ内のリンクがHTMLやJavaスクリプトでは無い場合にはクロールしません。

※リンク先ページがパラメータ付き(?で値が後ろに付いている)で、?より前の部分が現在のページと同一の場合は除外されます。 (ただし、“?” がドメインの直下にある場合は例外で解析の対象となります。)

ドメイン指定について

クローラーは、指定されているドメインをクローリング対象とします。
ドメイン名は後方一致で確認します。
抽出した URL のドメインの後方に、指定されたドメインが含まれていれば該当ドメインであると判断します。
ディレクトリは前方一致で確認します。

例1
「example.jp」がドメインとして指定されている場合、http://www.example.jp/index2.html や、http://example.jp/index2.html , http://shop.example.jp/index2.htmlexample.jp が含まれているので条件を満たしクローリング対象となります。

例2
「www.example.jp」がドメインとして指定されている場合、http://www.example.jp/index2.html はクローリング対象となりますが、http://example.jp/index2.html や、http://shop.example.jp/index2.html は、クローリング対象となりません。
Category: Web改ざんチェックサービス
Tags: クローラー, Web改ざんチェックサービス