【htaccess】検索エンジン巡回ロボットのアクセスを拒否したい
ロリポップのサーバーを借りて使用しているのですが最近になってテスト環境を作ろうと思い、htaccessについて調べて実際に導入してみたものを備忘録として残したいと思います。
htaccessでサーバーサイドへ命令を!
htaccessの存在は知っていたのですがこれからwebについて精通していこうという上で実際に使えるようになった方が良いと思い、自分でレンタルしているサーバーで動作確認をしてみました。
ちなみにhtaccessファイルは実際にサーバーにアップする際は.htaccessの様に.(ドット)がつきます。
ドットをつけると不可視ファイルとなってしまいますのでファイル名をhtaccess.txtなどとして記述してサーバーにアップした際に.htaccessへとリネームして使います。
テスト用のディレクトリを制作
テストのディレクトリを作り、実際にサーバーにアップした際の動作確認をする為の環境を作ろうと思います。
テスト環境なので検索エンジンに登録されないようにロボットのアクセスを拒否する必要があります。
metaタグのrobotsを使えばできるのですが、htmlファイルにrobotsを入れて実際にアップする時に外すなんて面倒すぎます。
そこでhtaccessの出番なわけです。
検索エンジン巡回ロボットのアクセスを拒否する
SetEnvIf User-Agent "Googlebot" ng_ua
SetEnvIf User-Agent "Yahoo! Slurp" ng_ua
SetEnvIf User-Agent "msnbot" ng_ua
Order allow,deny
Allow from all
Deny from env=ng_ua
上記のコードを記述して.htaccessとしてファイルをアップするとロボットからのアクセスを拒否します。
htaccess様々ですね。
htaccessはアップロードしたディレクトリのルートとその下層すべてに反映するのでサイトごとの設定なんかも簡単にできるので、自分の中でよく使うコードをまとめてスニペットにしておいたら今後のサイト制作をする時に役立ちそうです。
他にも調べた時に色々な事ができるのがわかりましたので、少しずつ試してみたいと思います。