恒例のアクセス解析調査、第12弾。
調査期間は、[2005/7/1-15]。

vol. 1 / 2 / 3 / 4 / 5 / 6 / 7 / 8 / 9 / 10 / 11

SOFTWARE
KIKI
UA: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.1.4322; KIKI/0.86.3) UAの主張が地味で見落としてしまっていましたが(苦笑)IEコントロールを利用したブラウザ、KIKIが来ていました。シンプルに軽く、をモットーに開発されたウェブブラウザで、ページをツリー状に表示できるのがウリのようです。
Donut RAPT
UA: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.1.4322; Donut RAPT #51) Donut系ブラウザの生き残り、というべきRAPT。僕はPを使っているので縁がありませんでしたが、まだ開発は続いてるんですねぇ。まぁ、Donutは、本線から多くの亜種が出ていて僕もよく分からないほどなんですが(苦笑)RAPTはよく聞きますね。
KamiProfessional
UA: KamiProfessional WEBページを、スクラップブック感覚で取り込めちゃう、個性的且つ高性能ソフト。窓の杜などで紹介されて、かなり有名ですね。販売は、ユルミリンク(株)にて。これの及ぼす負荷とか気になるけど…まいっか。それより、誰がどのページをスクラップしたのか、も気になるな(苦笑)
Galeon
UA: Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.7.8) Gecko/20050513 Galeon/1.3.20 (Debian package 1.3.20-1) Geckoベースの、Linux用WEBブラウザ。軽くて、タブブラウザ、なんだそうです。 (参考:Windows To Linux移行支援プロジェクト
Shiira
UA: Mozilla/5.0 (Macintosh; U; PPC Mac OS X; ja-jp) AppleWebKit/412 (KHTML, like Gecko, Safari) Shiira/1.0 キツネよりシイラ、というキャッチコピーで公開されているウェブブラウザ。Safariと同じ、Web Kitと言うレンダリングエンジンを用いている。その界隈では、結構有名らしい。僕としては、Safariと同じこと(もしくはそれ以上のこと)をオープンソースベースでやろう、と言うように見えたんだけど、違いますかね?思い通りにならない既製品よりは、自分で作れるブラウザを、というような。面白いですね。
Sylera
UA: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.8) Gecko/20050513 Sylera/2.1.26 Geckoを使ったタブブラウザ。特徴は…特になし。 ていうか、わからないんだよね…作る理由はともかく、使う理由が。最近、誰々が作った、と言うこと以外特徴が全くないブラウザが、あまりにたくさんあるような。オープンソースとしては、正しい面もあるのかもしれないですけれども。
Chimera
UA: Mozilla/5.0 (Macintosh; U; PPC Mac OS X Mach-O; en-US; rv:1.0.1) Gecko/20030111 Chimera/0.6+ Chimeraは、Firefoxと同じGeckoを採用した、Mozillaのプロジェクトの一つ。現在は、Caminoという名前に変更されている。
wagilla
UA: Mozilla/5.0 (Macintosh; U; PPC; ja-JP; rv:1.3) Gecko/20030621 mozilla-gumi/wazilla-macos9-1.3f-7 Mozillaブラウザをベースに、もじら組が独自にビルドしたブラウザ、それが和ジラ(Wazilla)。なんだか、語呂が良いのか悪いのかよくわかんないところが、特徴です。決して、『日本語化されたMozilla』と言うことではない、と強調されています。
NetNewsWire
UA: Mozilla/5.0 (Macintosh; U; PPC Mac OS X; ja-jp) AppleWebKit/125.5.7 (KHTML, like Gecko) NetNewsWire/2.0b37 Web Kitベースの、RSSアグリゲーター、かな。
TencentTraveler
UA: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; TencentTraveler ) 中国製のタブブラウザ。チャットソフトだ、としているサイトもあるけれども、正確には、チャットソフト『QQ』にバンドルされている、タブブラウザらしい。(→ 参考:【レポート】中国コンシューマPC市場を席巻するキラーソフト「QQ」 (2) QQとは何か? (MYCOM PC WEB))QQと同じく、『騰訊(tencent)』開発のソフトで、『中国語簡体字版と同繁体字版と英語版がある』そうである。別にチャットソフトにバンドルしなくても…と思うが、CEOの馬氏のインタビュー(上記記事より引用)によれば、『これをインストールするとポップアップ広告によるブラウジングの煩わしさが軽減され、ユーザーのためになる。もうひとつはこれをインストールすることにより、当社のポータルサイトがホームページとなり、より多くの人が常にそのページをみることになる。』だそうである。
InterRadio!
UA: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; InterRadio!; G_3.0; .NET CLR 1.1.4322) InterRadio!は、インターネットラジオをやっているサイト、InterRadio! JAPAN NETWORKSのこと(多分)。で、そこのプレイヤー?か何かをダウンロードするとプラグインか何かとしてIEに取り込まれ、UAに追加される…んじゃないかと思います。推測ですけど。
OmniExplorer
UA: OmniExplorer_Bot/1.1 (+http://www.omni-explorer.com) WorldIndexer VOL.6で一回ピックしてるけど、そのときは説明ページが『comming soon_』だったこともあって、謎だったが、今回1.1にバージョンが上がっていて、ページを見てみたら解説が載っていました(英語)。サイトの情報を収集して概要を作る、と言うような内容だったような…まぁ別にかまいませんけどね。ただ、文中後ろの方に、『If you feel that the crawlers are not matching the behavior stated on this page, please include the HTTP log file lines and your robots.txt file (or site) so we can verify the issue.』(クローラーが良くない動きしてたら、ログとrobots.txtを送ってくれ。調整するぜ)と自信満々に書いてある割にうちのrobots.txt読んでくれてないなぁ。あ、あれか、以前読んだものをキャッシュするタイプか。とりあえず、Crawl-delayにも従うみたいだし許可してちょっと様子見てみようか。まぁ正直、動作目的はさっぱりわからんのだけど(苦笑)
WeBoX
UA: WeBoX/0.98 WeBoXは、『ウェブコンテンツの取り込みツール』。コンテンツを取り込んでローカルに保存したり、内容をスクラップしたり…なんてことが可能なんだそうです。便利そうですね。RSSリーダーとしても使えるようですが、ログを見た限りでは、今回はそのようには使われていないようです。


SERVICE

Snoopy
UA: Snoopy v1.0 / HOST: www2.wadaino.jp
HOSTから推察するに、『blogクチコミポータル 話題の.jp』のクローラーのようだ。以前は、『wadaino.jp-crawler 0.2』と名乗っており、UAにリンクも含めていたのでわかりやすかった(VOL.10参照のこと)のだが、今回、UAが変わってわかりにくくなっている。Snoopyというのは…うーん、検索しても、Xoopsのモジュールしか出てこないな。Xoopsで構築してるようには思えないし。でもアクセス方法が、『index.rdf→最新エントリ』なので、ある種RSSアグリゲーター的動きをするプログラムなんだろうと推測できるかと。
ところで、『話題のjpとは』というページで、著作権は各著作者に帰属し、二次利用の許可は各著作者に云々の記述がありましたが、そもそも、話題のjp自体にエントリの二次利用を許した覚えはありませんが。そして、許可を求められた覚えもありませんね。プログラム的には、robots.txtを確認する、拒否方法を明確にするなどで、十分『許可を求めた』と言えると思いますが、それすらせずに自らの責任だけは回避しようというのはどういう神経なんでしょうか。別にこのサービスに限ったことではないので、槍玉に挙げるのは申し訳ないんですけれども、もしこういう態度がこういうサービスの常識なら、むしろその常識の方が間違ってると思います。だいたい、こういうサービスって情報の羅列であって、本来二次利用が認められる『引用』ですらないわけで。偉そうなこと言う前にもう少し考えたらどうですか。

FC2
UA: FC2/1.1 (compatible; MSIE 5.5; Linux) FC2ブログからのトラックバック。ソーシャルブックマークなども同じ仕様なのかは不明…。
BlogShot
UA: Mozilla/5.0 (compatible; BlogShot Crawler /1.0; http://www.blogshot.net/) また新しいサービスらしいですね。なんか、ここに書くことで、宣伝に利用されてるような気がして、なんだか腹立たしい。まぁそんなつもりはないとは思いますが。僕自身に限って言えば、僕は、ポータルサイトに登録してもらって多くの人に来てもらいたい…という希望は一切無いです。ランキングも興味ないしね。このサービスは、検索結果のサムネイルを表示させるのが売りの一つらしいけど、トップ画像が表示されても、管理者としての僕にはあんまり関係ない。むしろ、そのことを、サイトの管理者に説明する義務を怠っている点で、このBotの設計理念には根本的な欠陥があると判断しました。利用者としてみたときには便利な機能であるだけに、そのあたりをきちんとしてもらいたかった。 世の中では、検索クローラーには厳格だが、RSSクローラーには寛容、というのが常識になりつつあるようですが、僕はRSSクローラーにもrobots.txtを読むことを求めます。だって、やってること同じじゃん。より良いサービスになっていくことを願いつつ、遮断。


BOT/CRAWLER

NWSpider
UA: NWSpider 0.9 / IP: 72.9.96.2
名前からして、ページ収集型のBOTであることは明らかなんだけど、出自がいまいち不明。WebmasterWorld内のページも、『Googleに載ってないんだけど誰か知らない?』というだけで、結論無し。ちなみに、アクセス元はこのIPで固定らしく、このIPは、ezzi.netという、ニューヨークのISPのもの。アメリカ出身か。

Accelatech RSSCrawler
UA: Accelatech RSSCrawler/0.4 VOL.6でピックアップした、『ACCELA CRAWLER』に非常によく似ている(ACCELA CRAWLERもindex.rdfにしつこくアクセスしてきた)ACCELA CRAWLERは、アクセラテクノロジ株式会社の製品によるクローラーらしく、またベータ版と名乗っていたことを考えると、それが正式版(またはRC版)としてリリースされたと考えるのが妥当か。一応、robots.txtを確認してはいるものの(そういう意味では評価できる…RSS系CRAWLERは大概robots.txt素通りだから)、その結果を無視して、index.rdfにアクセス。rbots.txtへのアクセスのこちらの返答は、304(Not Modified)。つまり、以前許可されていて、それ以来内容が変わっていないから今回も許可と判断した…という理屈なのだが、一度たりとも許可した覚えはありません!まぁ深読みしすぎかもしれませんが。ちゃんと説明出してくれれば、こうやって深読みする必要もないんですけどねぇ。
Java/1.5.0_03
UA: Java/1.5.0_03 / IP: 133.20.16.170 Java自体は別によくあるUAなんですけど、このアクセスには特徴がありまして、同時に『Jakarta Commons-HttpClient/2.0.2』を連れてきて、Jakartaはmutterディレクトリに、Javaは、index.xmlにアクセスします。ちなみにアクセス元は、東京電機大学 総合メディアセンター。どこかの研究室から飛んできてる、と考えるのが妥当かもしれません。よくわかりませんが。Jakartaプロジェクト内の、HttpClientによるGETリクエストってことは、ブラウザかRSSアグリゲータか…まぁとにかくそんなもんでしょう。
株式会社サーフモンキー・アジア
UA: Mozilla/4.78 [ja] (Win98; U) 悪名高い、株式会社サーフモンキー・アジア。基本的には、フィルタリングソフトウェア開発のための情報収集みたいなんですが、例によってその辺の情報公開が全くない。多分、下手に情報公開すると、クローラーが遮断されて情報収集の効率が悪くなり、製品の質、ひいては社業に響くというようなことなんでしょうけれども。人のデータで飯食ってんのに、そりゃねえだろう、と思いますね。僕なんかは。とりあえず、IPで遮断します。(UAで弾くと、冤罪の可能性があるので)
BlogShot
UA: Mozilla/5.0 (compatible; BlogShot/1.0; http://www.blogshot.net/) ブログ検索ポータル、BlogShotによるクローラー。まぁ例によって、index.rdf直打ちってことで。確かにこういう登録タイプのものだと、robots.txtをわざと読まないってのも、ユーザサポートとして成立するかも(自分でrobots.txt設定しておいて巡回に来ないとか騒ぐヤツ、絶対いそうだ)でもやっぱり、僕が登録したワケじゃないし、robots.txtわからんヤツが悪いんだし、きちっと通すべきところは通して欲しいよ。サービス始めるのは良いからさ。だいたい、サイトに、このサービスの案内すらないじゃない。手、抜きすぎだなー。なんか呆れたので、本来blog系クローラーは弾かないんだけど、これはご遠慮申し上げます。出直して来いや。
Onet.pl
UA: Onet.pl SA, http://szukaj.onet.pl .plはポーランドのこと。つまり、ポーランドの検索サイトからのクローラーらしい。うーむ。robots.txtを見るそぶりさえ見せず、速攻でページにアクセスしてるな。うーむ。まぁ、ポーランドからではページも満足に見れないだろうし(ポーランド在住の知人がいても多分直接苦し)、このクローラーは遮断の方向で。

???
HOGE
UA: HOGE 謎。うーん、まぁ、多分喧嘩売ってるんでしょう(笑) (単純に何かのソフトの設定がデフォルトとかだったりして)
DEVONtech
UA: Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en) AppleWebKit (KHTML, like Gecko) DEVONtech UAから、Web Kitを利用したブラウザ、ではと予測したのだが、Devontechすなわち、DEVONtechnologies社の製品には、はっきりとブラウザ、とわかるものは見あたらなかった…まぁ、メールソフトでも何でもいいわけだけど。
Googlebot/2.5
UA: Googlebot/2.5 (+http://www.googlebot.com/bot.html) IP: ntoska019231.oska.nt.isdn.ppp.infoweb.ne.jp 普通の、Googlebotのバージョンは2.1。バージョンアップしたのか…と思ったのだけど、どうも怪しい。Googlebotは大抵、IPでも、Googleからだと判別できるのに、これはなぜか、日本の、それも@niftyのIPからアクセスしてきている。それも、ページにアクセスして、そこにあるファイルにすべてGETリクエストを送る…ってこれ、普通のブラウザと同じ挙動じゃないのか?(Googleはそんな動作はしない) あくまで推測だけど、恐らく個人による、UA詐称かと。まぁ、個人で、且つたいした被害がなければ、全然問題ないことなのだけど、でもやっぱりなんか気持ち悪い。ISP経由でも、たちの悪い企業のBOTという可能性は捨てきれないしなぁ。
HttpDownloader
UA: HttpDownloader どうやら、Javaのクラスに同名のプログラムがあるらしいのだが。詳細は不明。まぁ、あんまり嬉しくない動作をしていることは明らかなんだけれども。ちなみにファイルに直接来てますね。
NyanNyanBrowser
UA: NyanNyanBrowser0.02 (Win 2k; U) [ja] 萌え系スキンのブラウザとかかなぁ…よくわからんけど。検索しても出てこないので、今のところ、謎のブラウザ、です。


総括。

若干プログラムに手を加えたせいか、Gecko系のブラウザがたくさん拾われてます。
それから、RSS系のサービスの増加は相変わらず。
初期blogサービスのような、ユニークなサービスではなくなってきており、
また、にもかかわらず、まだ、RSSアグリゲータとクローラーの間に位置する、
これらクローラーの動作に関しては定義がなされておらず、
サーバ負荷と言うよりも、著作権保護という面で、問題があると思います。
出来の悪いクローラーになると、robots.txtを見ない上にアクセス過多という、
RSSを読んでる割に本末転倒な有様だったりするし。
本当に、もう少し考えて欲しいなぁ、と。
僕は、出来るだけ記事をピックアップされたくないので、
そういう配慮のない、RSS系サービスは、すべてhtaccessで遮断させていただきます。
まぁ、僕みたいな人は多分希有なので、サービス運営には問題ないでしょう。


では、まぁ、今回はこの辺で。