恒例のアクセス解析調査、第16弾。
調査期間は、[2005/9/16-10/15]。

vol. 1 / 2 / 3 / 4 / 5 / 6 / 7 / 8 / 9 / 10 / 11 / 12 / 13 / 14 / 15

BOT/CRAWLER
掲示板SPAM BOT
UA:gtmeOe tajkilrsaxfqbusrjrr b HOST:p54b4c82d.dip.t-dialin.net 薄々感づいていたけど、SPAM書き込みをするBOTはUAをランダムに変化させるようである。ここで紹介したBOTは、連続して2回、掲示板の書き込みを試みているけれども、HOSTは同じなのに、UAは全く違う。そもそも、意味不明な文字列が並び、制限のしようもない。HOSTだって、今時コレが正しいとは限らない。ゾンビPCの可能性だって大いにある。こういうものはどうやって弾いていけば良いんだろうか…(プログラムベースではなく、サーバベースで)


YahooSeeker
UA: YahooSeeker/bsv3.9 (compatible; Mozilla 4.0; MSIE 5.5; http://help.yahoo.com/help/us/ysearch/crawling/crawling-02.html )
UA内の説明ページによると、これはヤフーのblog収集用クローラーだ、とのこと。robots.txtに従うと明記されており、事実そのように動いてるようだ。ヤフーもいろんなことやるなぁ。


SOFTWARE

FaEdit
UA: FaEdit/2.0.3
『FaEditはエクスプローラー風の画面でURLを整理保存するための多機能ブックマークツールです。Webページの更新時刻チェック、Webページの保存(Professional 版のみ)、IEのお気に入りやNetscapeのブックマークとのデータ相互変換などの機能を備えています。』だそうだ。それはいいんですけど、ebのサイトはもうありませんよ。巡回から外していただけると幸いです。


BlogNutch
UA: BlogNutch/0.7 (BlogNutch; http://lucene.apache.org/nutch/bot.html; nutch-agent@lucene.apache.org)
『Nutch is open source web-search software. It builds on Lucene Java, adding web-specifics, such as a crawler, a link-graph database, parsers for HTML and other document formats, etc.』ということで、オープンソースのクローラーだそうです。


SERVICE

FEEDBRINGER
UA: FEEDBRINGER/0.1 (http://feedbringer.net/; 0 subscribers)
『RSS リーダー FEEDBRINGER.net はサーバー型のRSS収集システムです。』だそうだ。ていうか言ってみれば、はてなぶっくまーくだ。RSS中心の個人のリンク集を作成できるそうだし。どうでもいいが、ソフトウェアと言い張ってrobots.txt無視でRSSフィードを持っていくのは正しいのだろうか。ここに限ったことではないけど、散々言っているとおり、RSS発信者側を向いていないサービスが多すぎる。よって、遮断させていただきます。使用者には罪はないけれどもね。


MJ12bot
UA: MJ12bot/v1.0.2 (http://majestic12.co.uk/bot.php?+)
以前報告した、イギリスの検索エンジン、Majestic-12のクローラー。以前は、UAが異常に長くてうんざりだったが、改善したみたい。


WinMX
UA: WinMX3.93
アメリカの訴訟の関係で、閉鎖を余儀なくされているP2Pサービス。草の根的に復活へ向かっている情報もあるが、それってただ単により深いところへ潜行しようとしているだけなのでは。なんでもいいけど。所詮イタチゴッコだし。


BlogBot[community-engine.co.jp]
UA: BlogBot Test Version Ver 0.01
まぁ普通だったら正体不明のBOTで片づけられてしまうんだけれども、ホストが『gw.community-engine.co.jp』ということで、恐らく、vol.13で取り上げた『PhrasePicker』と同じか…な?アクセス先は、直接ファイルにきてるので、なんらかのクローラーだと思うけど。問い合わせても良いけど、まぁ別に良いかなーとも思いつつ。気が向いたらね。


謎。

Buzzilla
UA: Buzzilla 0.1
Bugzillaなら聞いたことがあるが、Buzzillaはないなぁ…挙動を見ると、mutterのトップディレクトリにアクセス、次にRSSフィードにアクセスしてるから、もしかすると、RSSリーダーまたはblogクローラーかと。今のところ、はっきりしたことは不明。


EZW
UA: EZW/10.0(Windows95 or NT)
謎のBOT。ページファイルにがっつり直で来てます。


SimpleCrawler
UA: SimpleCrawler/0.1
何だろう…mutterディレクトリに来て、次にatom.xmlにアクセス。多分また新しいRSS系サービスが始まるんだろうなぁ。うざ。


naga
UA: naga/1.2
よく分からないプログラム。robots.txtを読んで素直にお帰りになってるので、検索サイト系かなぁ…と思うのだけど、なにかこう自己紹介して欲しいなぁ。まぁそこまで求めるのも、求めすぎだけどさ。robots.txtを変更して、泳がせてみることにする。


MacNetwork
UA: MacNetwork/1.0 (Macintosh)
はて何だろうと思ったが、WebmasterWorldにヒントらしきトピックが。それによると、『Japanese image harvester』では?とのこと。harvestは、『収集』ね。いや、トップディレクトリに来てるんだよなぁ…それだけで帰ってるから、どうもよくわからん。謎。


MapoftheInternet.com
UA: MapoftheInternet.com (+http://MapoftheInternet.com)
よくわかんないけど、多分、海外のインターネットプロジェクトで。目的は、サイト情報の収集…か。カテゴリ分けして、インターネットのマップを作る、とか言ってそう。いや、その目的は良いけど、まずrobots.txtくらいよませろと、何遍言ったら…(以下略)


WebFilter Robot
UA: WebFilter Robot 1.0
IP: 216.248.177.131
WebmasterWorldではたちの悪い報告も来ているが、今回は、robots.txtを見て帰っている。しかしその代わり、このアクセスの4秒後と、約2分後に、人間のアクセスと同じUAで、同じIPからアクセスが来ている。可能性としては、偽装していないBOTと、偽装したBOTの組み合わせ、または、UAからして、アクセスに先行してフィルタリングチェックをするプログラムとも考えられる…IPが全く逆引きできないので、詳細はわからないが。