botのアクセス状況第2弾。(→第1弾 / →第3弾
これまで、自作の簡単なアクセスログを対象にチェックしてたんですが、
botの状況というとなかなか正確ではない。そもそも、目で見えるファイルしかログを取らないわけだし。
というわけで、サーバーログ側からチェックしてみました。
対象期間は、2005/2/13-21。
その結果、もうなんだか書く気も失せるほどの大量のbot/ソフトウェアが来襲していることが判明。
とりあえず書きますが…ココ見た人で、追加情報をお持ちの方は
コメントで補足していただけると嬉しいかな、と。

では行ってみましょー。

【定番のbot類】



Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

誰もが知ってるYahoo![http://www.yahoo.co.jp]のクローラー。一日100アクセスくらい。登録サイトに関するリンクチェッカーもあり、こちらは、Down Site Checker V2.0。詳しくは『検索エンジン備忘録(Yahoo!の足跡)』などを参考に。



Googlebot/2.1 (+http://www.google.com/bot.html)

これまた誰もが知ってるGoogle[http://www.google.co.jp]のクローラー。一日100アクセス程度。



msnbot/1.0 (+http://search.msn.com/msnbot.htm)

第三の勢力MSN SEARCH[http://www.msn.co.jp]。日によっては一日300アクセス弱来るなど、食欲旺盛。



ichiro/1.0 (ichiro@nttr.co.jp)

goo[http://www.goo.ne.jp]のクローラー。



Infoseek SideWinder/2.0R (Linux 2.6.6-1.381smp i686)

有名検索サイト。個人的には使わないけど。30アクセス未満くらい。



BlogPeople Java/1.4.2_05

blog情報ポータルBlogPeopleからの巡回。個人的には参加してないのになぜかよく来る…参加しろと?(苦笑)


【その他クローラー】



PAIPO-Bot@paperboy&co. 0.02b

Paperboy&co(ロリポの運営会社)のRSSサービス?PAIPO READER[http://paipo.jp/]のクローラー。



lmspider (lmspider@scansoft.com)

Scansoft[http://www.scansoft.co.jp/]のクローラー。何しに来てるかはよく分からん。



Mozilla/2.0 (compatible; Ask Jeeves/Teoma)

ASK Jeeves のプログラムを使った検索サイトTeoma[http://www.teoma.com/]のクローラー?多分アメリカ。



User-Agent: Mozilla/4.0 (http://www.fast-search-engine.com/

海外の検索サイトFast-Search-engine[http://www.fast-search-engine.com/]。名前がいかにも過ぎてダサイ。



Technoratibot/0.6

Technorati[http://www.technorati.com/]って検索サイトの方。有名なんですか?(初耳)



CaptainNAMAAN/0.01

株式会社ウェブシャーク関連のbot。現在のところblog検索サイトNAMAAN[http://www.namaan.net/]のクローラー説が一番有力。
参考:SKY WATCH



Openfind data gatherer, Openbot/3.0+(robot-response@openfind.com.tw;+http://www.openfind.com.tw/robot.html)

台湾の検索サイトOpenfind[http://www.openfind.com.tw/]のクローラー。



Holmes/1.0

はっきりしたことは分からないが、IP的には、Co-Location社[http://co-location.com/]のbot。



Drecombot/1.0 (http://career.drecom.jp/bot.html)

ドリコムのクローラー。UAにあるURIの説明によると、営業準備中の求人検索サイト開設のための情報収集、らしい。



updated/0.1beta (updated.com; http://www.updated.com; crawler@updated.com)

検索サイト、updated.com[http://www.updated.com]のクローラー。知らん。



Swooglebot/2.0. (+http://swoogle.umbc.edu/swooglebot.html)

Swoogle[http://swoogle.umbc.edu/]のクローラー。この名前は…(苦笑)



Faxobot/1.0




MJ12bot/v0.8.7 (http://www.majestic12.co.uk/projects/dsearch/mj12bot.php?V=v0.8.7&NID=B0E44C4EE98B33C4&MID=EE1DD60ABC2AE863&
BID=FD61639345DCE53C04224A9647833F44

イギリスの検索エンジンらしい。くそ長いUAがうっとおしい。



EmeraldShield.com WebBot (http://www.emeraldshield.com/webbot.aspx)

Emerald Shield[http://www.emeraldshield.com/]っていう会社の、WEBフィルター生成用botと思われ。


【サービスに関するbot】



Hatena Antenna/0.4 (http://a.hatena.ne.jp/help)

はてなアンテナ[http://a.hatena.ne.jp/]による巡回。これも自分は利用してない…



Mixi RSS Fetcher

SNS mixi[http://mixi.jp]からの定期チェック。



ia_archiver




BLOGNAVI/0.1 [ja] (http://www.blognavi.com)libwww-perl/5.69




Bloglines/2.0 (http://www.bloglines.com; 1 subscriber)




Bulkfeeds/1.01 (http://bulkfeeds.net/)




blogmap crawler(http://1470.net/)

blogmap[http://1470.net/bm/]からの巡回。個人サイト…なんだろうか。




Mozilla/4.0 (compatible; grub-client-2.3)

LookSmart[http://www.looksmart.co.jp/]によるbot。☆☆白いはインターネット☆☆によるとかなりウザイ様子。挙動っていうか目的が。



blogWatcher_Spider/0.1 (http://www.lr.pi.titech.ac.jp/blogwatcher/)

blogWatcher[http://blogwatcher.pi.titech.ac.jp/]からの巡回。東京工業大運営。



Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Rojo; http://rojo.com/) Gecko/20021130

SNS Rojo[http://rojo.com/]のRSSアグリゲーター。…参加してるわけではないんだけど。何で来るんだろう?


【個人サイト/ソフトウェア】



MagpieRSS/0.61 (+http://magpierss.sf.net)

RSSアグリゲータ。僕がLINK/携帯用TOPで使ってるのが0.7らしいんですが、その他、0.61もやってきます。



RSS_READER (mctwist@mail.dr-k.info)

多分RSSリーダー。まんまですが。



WWWC/1.04

サイトの更新状況をチェックするソフトウェア。気持ちは分かりますが僕は嫌いです。



Wget/1.9.1

UNIX上で動くダウンロード支援/ホームページ自動巡回ツール。敵ですね。



SiteSucker/1.6.5

なめた名前のMacOS X 対応ダウンローダー[http://www.sitesucker.us/]



Download Ninja 7.0

サイトダウンローダー。これも敵です。



Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; AIRF; .NET CLR 1.0.3705)

コメント爆撃野郎疑惑。危険。
参考:ふわふわふるる@はてな



Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent

SPAM系のメールアドレス収集用botらしい。かなりしつこいとのこと。遮断必須だな。



Zao-Crawler

東京大学の情報収集bot。


【謎】



NoName

名乗らないんじゃなくて、『NoName』と名乗る人またはbot。謎。



-

UserAgentを吐かないbot。一概には言えないが…。メール収集用など他用途が疑われる。



1.0

一時期流行ったらしい1.0。これもまた正しい行いをしてるとはとても思えない。




謎UA。



W3CRobot/5.4.0 libwww/5.4.0

韓国より来訪?謎。



lwp-trivial/1.38

実はAppleからのアクセス(PROXYだけ?)何やってるかは謎ですけど。



murabit/0.1

素性不明なbot。うーむ。



WireAction URLCheckSpider

NTTコミュニケーションズ(株)経営企画部.com bit?出自も目的も謎。



SurveyBot/2.3 (Whois Source)

なんでしょ?whoisのための情報収集…?