恒例のアクセス解析調査、第10弾。
調査期間は、[2005/6/1-14]。

vol. 1 / 2 / 3 / 4 / 5 / 6 / 7 / 8 / 9

SOFTWARE
Mnogosearch
UA: Mnogosearch-3.1.21 Mnogosearchは、フリーの検索エンジンソフトウェア。namazuみたいなもんかなぁ。GNUに基づいて配布されているHTTPベースの検索エンジンで、導入するとスパイダーが動く。また、PHPの関数を利用してコレにアクセスすることが出来る。というわけで、コレかな、と。robots.txtは見ずにルートディレクトリにアクセスして、それだけで帰ってます。迷って来たんかなー。ちなみにこのアクセスがやってきてるのは、『counterexample.org』。アクセスしても何もありませんが。
Iria
UA: Iria/1.07a Iriaと言えば、その昔、泣く子も黙るダウンロード支援ソフトでしたが、開発は『Irvine』に引き継がれています。ていうか、1.07って随分前のリリースじゃないの?まだ現役なのかなぁ…ちょっと郷愁にひたってしまいました。
Mozilla/4.0 (compatible; MSIE 6.0;)
UA: Mozilla/4.0 (compatible; MSIE 6.0;) IP: 211.18.54.233 何の変哲もないようなUAなんですけど、そして、IPも、DION (KDDI株式会社)なんですけど、なんだかなぁ、ひたすらrobots.txtにアタックしてくるんですよね。それですぐに帰る(?)1分ごとのアクセス3回、約30分ごとのアクセスを4回。うーん。そんなに頻繁にアクセスするくらいなら、無視すればいいのに(苦笑) 多分、どなたかが個人的に動かしてるBOTなんかなぁとも。謎だけどピックアップしてみました。
FeedDemon
UA: FeedDemon/1.5 (http://www.bradsoft.com/; Microsoft Windows XP) Bradbury Software社謹製のRSSリーダー。普通に使いやすそうです。英語だけど。


SERVICE

FeedBurner
UA: FeedBurner/1.0 (http://www.FeedBurner.com)
RSSフィード機能拡張サービス、FeedBurnerによる巡回。RSSの更新を、FeedBurnerに反映させてくれる。

wadaino.jp-crawler 0.2
UA: wadaino.jp-crawler 0.2 (http://wadaino.jp/) 話題の.jpという、口コミ情報を集めて掲載するサイト。巡回先のエントリを収集して、最も多かった情報から順に並べるって感じですかね。クローラーに関する説明なし。アルファ版だから良いとかいう問題じゃないだろう。このサービスの開発者もやっぱり、頭の一部にしか血が巡ってないようだ。技術の善し悪しじゃない(実際、画期的で便利なサービスになると思う、だからこそ)、礼儀の問題だ。→追記参照


BOT/CRAWLER

sohu-search
UA: sohu-search
恐らく、中国の検索サイト、捜狐[SOHU]のクローラー。まぁ、中国からって言うだけで警戒するのに十分なわけだが、さらに動作もちょっとおかしい。まず、ルートディレクトリにGETリクエストを出し、次に、『//robots.txt』を確認して帰る。最初にルートディレクトリにアクセスしちゃってる時点でrobots.txtを守る気があるのか怪しいし、『/』がかぶってるのもなんだか微妙。遮断しようかな。

::_detectURL
UA: ::_detectURL IP: 59.120.143.122 ☆☆白いはインターネット☆☆さんの報告によりますと、これはトレンドマイクロのクローラーらしい。確かに、IPは、台湾のHI-NET。例によって巡回目的は全く不明。ウイルスバスターの問題があったから言うわけではないんだけど(て言うか昔からクローラーに関しては節操無い)、本当に迷惑な会社だなぁ。もうだいぶここからのBOTは弾いてるけど(IPで) ちなみにこのクローラーは、突然、カウンターのディレクトリにアクセスしてきて403を出され、その後、また突然MUTTERのアーカイブ・ディレクトリにアクセスするという、よくわからん動作をしてます。まぁ、もう2度と200出しませんが。
MVAClient
UA: MVAClient これも同じくトレンドマイクロ。IPから判断できます(by☆☆白いはインターネット☆☆)。そして同じく巡回目的不明。ファイルに直にアクセスして、見事に追い返されておりました。なお、その後、『3』というUAでアクセスしてきてますが、これも同じIP。
Trend Micro
UA: Mozilla/4.0 (compatible; Trend Micro tmdr 1.0-1139) UA: Mozilla/4.0 (compatible; Trend Micro tmdr 1.0-1000) ついでだし、トレンドマイクロをもう一つ。フィルタリングとの情報。これもファイルに直にアクセスして追い返されてます。何でいろんなバージョンの物が次々来るのかは不明。
Feed::Find
UA: Feed::Find/0.05 多分、RSSリーダーか、RSS収集目的のBOTだと思うんだけど…名前がありきたりな単語過ぎて引っかからない(苦笑)こういうセンスも重要だなぁ。いきなりルートにアクセスしてきてるので、多分、BOTの方かな、とは思うけど。
noxtrumbot
UA: noxtrumbot/1.0 (crawler@noxtrum.com) 謎のボット。noxtrum.comにアクセスしてみても、認証を求められるばかり。一応、Webmasterworld.comにもトピックがあったが、結局『スペイン語のページを漁る、ということ以外よく分からない』という結論のようだ。ただ、robots.txtを読んですぐに帰っているところを見ると、ここで書かれているよりもずっとお行儀は良くなっている気はする。



(\xdf\x84D\xdf)
UA: (\xdf\x84D\xdf)
一瞬、なんだコレは、と思ったけど、過去の経験(→Vol.8)から、ある程度予測可能。というわけで、正しくエンコードすると、こんな感じ。(゚Д゚)

glx v0.1
UA: glx v0.1 "glx"というモジュールが、OpenGL向けにあるんだけど、どうもそれとは違うようだ。Webmasterworld.comの情報によると、メールアドレスを収集して回るBOTでは…という説もあるけれども、詳しいことは分からず。謎のアクセス。
MAD_Engine
UA: Mozilla/4.0 (uncompatible; MAD_Engine3.73; Windows;) "MAD_Engine"で検索すると、なんだかアパレル関係がやたらとヒットするんだけど、まぁそれではないわなぁ…よくわかんないっす。ていうか、互換性がないならわざわざ『unconpatible』って書く必要はないんじゃないのか?そもそも互換性もないのに、Mozilla/4.0でUA始めたらそりゃ詐欺じゃないんだろうか。などと、思ってみたりして。謎。
-
UA: Mozilla/4.0 (compatible; MSIE 6.5; Windows NT 5.5) いやまぁBOTじゃないんですけど、このUA。下らないことする人もいるもんだなぁ…と。まだ、顔文字とか、AAとか、DISの方が分かるんだけど。一説によると、あやしいOSとかあやしいブラウザとかでこういうUAを出す場合もあるらしいけれども、まぁ、健康には悪そうですなぁ。
Mozzila
UA: Mozilla IP: 141.20.35.71 ドイツからのアクセス。謎。
MSIE 7.0 / Windows NT 5.2
UA: Mozilla/5.0 (compatible; MSIE 7.0; Windows NT 5.2) うーん…IEの最新版は6だし、Windowsの最新版XPはWindows NT 5.1だし、これはいったいどういうことなのだろうか…謎。


総括

今月もそこそこ。でも、はっきりと分かるようなものは減ってきたかな。
それと、RSS関係のBOTやら何やら本当に多い。
blog使ってるから仕方のないこととはいえ。
ちなみに今回は個人的な事情で、14日までの調査でお届けします。


追記:Yahoo! SlurpがCrawl-delayに対応してた

6/5-6のアクセスログを見て驚いたのだが、Yahoo!が頑張りすぎ…24時間の総リクエスト数が、1109。
普段は、300以下くらいなので、これはちょっと頑張りすぎ。
何とかならんかなぁ…と思ってヘルプを見てみたところ、
How can I reduce the number of requests you make on my web site?』という項目があり、
そこを見ると、頻度を減らしたい人は、『Crawl-delay』を指定してください、とある。
記憶が曖昧だけど、確かCrawl-delayって、Googleの拡張じゃなかったっけ…。
まぁどうでもいいけど、速攻で対処。
Crawl-delay: 3600
検索エンジンなんて、1日数回来れば良いんじゃないの?

追記:クローラーは営業である。
UAを詐称したり、robots.txtを読まなかったり (RSSその辺微妙だよね…開発者はRSS収集=RSSリーダーとか思ってるんだろうけど、 こっちから見ればただのBOT以外の何もんでもない)、 BOTに関する説明無いままサービス運営してたり、 なんか、開発者のヒトって本当にその辺無頓着だと思う。 少し大きなサイト(うちは違うけど)の管理者なら、アクセスログくらいチェックするのは当たり前で、 その際、様々な事情(転送量確保とか)で、あやしいBOTは弾くわけですよ。 BOT弾かれたらサービス終わりでしょう。 なら、出来るだけ情報公開して、サイト管理者(またはサーバ管理者)の合意のもと、 プロジェクトを進めていくべきなのに、それが出来ない。 プログラミングで手一杯なんでしょうか。 似たようなサービスが溢れている現在、簡単に遮断されてしまいます。

クローラーを巡回させることは、営業と同じだってことがわからんらしい。
特に最近の新規サービスってのは、頭が技術系オンリーで、
営業先で名刺も渡せないような稚拙なクローラー遣ってるサービスが多いよね。
サービス内容は、そんなこと出来るんだ!っていうようなものも多いだけに、本当にもったいない。
YahooやGoogleが強いのは、単に収集ルーチンが凄いから、だけじゃないと思いますよ。
悪徳業者じゃないんなら、きちんと、サービスの原点を見つめてもらいたいと思う。