Webページのクロールまたはインデックスのブロックについて

2013/05/30

本文書では、SmartNewsによるWebページのクロールまたはインデックスをブロックし、SmartNewsアプリケーションへの情報配信を拒否する方法について説明します。


SmartNewsロボットは、Twitterのパブリックストリームに含まれるURLを広く収集し、ユーザーエージェント"Crowsnest"を用いてWebページをクロールします。それに続き、取得したWebページのコンテンツを解析して自動的なカテゴリ分類を行い、インデックスに登録します。

以下の方法により、WebページがSmartNewsロボットにクロールまたはインデックスされないよう制御することが可能です。

1. robots.txtファイルによるブロック

Webページがホストされているドメインのルートにrobots.txtファイルを設置し、Disallowルールを用いて、特定のパターンにマッチするURLのクロールをブロックします。robots.txtファイルの仕様については http://www.robotstxt.org/robotstxt.html をご参照ください。

2. metaタグによるブロック

WebページのHTMLコードにmetaタグを設置し、noindex指定を用いて、Webページのインデックスをブロックします。metaタグの仕様については http://www.robotstxt.org/meta.html をご参照ください。

3. メールによるお問い合わせ

クロールまたはインデックスの停止依頼は、メールでも受け付けております。 info@smartnews.co.jp 宛にお問い合わせをお願いいたします。

(以上、2012年12月10日より適用)