2013/05/30
本文書では、SmartNewsによるWebページのクロールまたはインデックスをブロックし、SmartNewsアプリケーションへの情報配信を拒否する方法について説明します。
SmartNewsロボットは、Twitterのパブリックストリームに含まれるURLを広く収集し、ユーザーエージェント"Crowsnest"を用いてWebページをクロールします。それに続き、取得したWebページのコンテンツを解析して自動的なカテゴリ分類を行い、インデックスに登録します。
以下の方法により、WebページがSmartNewsロボットにクロールまたはインデックスされないよう制御することが可能です。
Webページがホストされているドメインのルートにrobots.txtファイルを設置し、Disallowルールを用いて、特定のパターンにマッチするURLのクロールをブロックします。robots.txtファイルの仕様については http://www.robotstxt.org/robotstxt.html をご参照ください。
WebページのHTMLコードにmetaタグを設置し、noindex指定を用いて、Webページのインデックスをブロックします。metaタグの仕様については http://www.robotstxt.org/meta.html をご参照ください。
クロールまたはインデックスの停止依頼は、メールでも受け付けております。 info@smartnews.co.jp 宛にお問い合わせをお願いいたします。
(以上、2012年12月10日より適用)