タグ: bot
Twitterのbotって凄いのな。
ふとTwitterのbotが気になったので、東方関連のをちょっと集めてフォローしてみた。 参考にした@hahaha3さんによるまとめ。 Twitter / @hahaha3/TOHO_bot_only で色々見てみて思ったんだけど、botって凄いなぁ。 色んなこと出来るのな。
サービスやクローラーの名前で使う単語も気をつけて。
清水さんのこちらのエントリを読んで。
テレビ朝日の情報収集能力の低さには呆れるばかりですが、 (要は責任をソースに丸投げしたい、それを保証してくれるソースが欲しいってことでしょう) それはともかくとしてこの大元のお話、ちょっと衝撃を受けたのでブログします。 先ほど、テレビ朝日の「爆笑問題の検索ちゃん」という番組から電話がかかってきて、2005年に僕が日刊ゲンダイの記事の中で「人気ブログをつくるには、”つれづれ”というタイトルは数が多く埋もれてしまうのでできるだけ避けるべき」と説明していることに対し、具体的・数値的な根拠や資料はあるのかという問い合わせが来ました。 しかも今日中に回答しろということです。
人の記憶に残っても「つれづれ」などのありふれた言葉をタイトルに使っていると、検索して見つけてもらえる可能性が低くなってしまうのでタイトルとして採用するべきではないこの件について清水さんがおっしゃっているようなことは、そういえばあるよねーと。 簡単に言えば、一般的すぎる単語を用いたものは検索の海の中に沈むことが多いってことね。
Googlebotさん大暴れ…
なんかどうも、アクセスログが大きいなぁ… と思ってみてみたら、Googlebotさんが大暴れしてはりました。 特に、7/18-19のアクセスは、ページへのアクセスだけで、1700件強。 単純計算して、平均毎分1.2回のアクセス。 …何をそんなにあわててページ収集してるんだと(汗) どのクローラーもそうだけど、 たまにこういうことをやってくるよなぁ… 特にblogだと、ページ数も尋常でなく多かったりするんで、 本当にもの凄いトラフィックが炸裂することになる。 なんかどういうタイミングでアクセスが集中するのか (ログの有効期限があるのか、検索を通したアクセス数によって変えているのか…) 全くよく分からないんですけど、 びっくりするから止めて欲しいなぁ…。 ちなみに、さすがにGoogle。 かなりのページが収集されていて、キーワード無しで検索すると、 『www.nobodyplace.com からの約 3,640 件』 との表示。 (Yahoo!Japanのページ表示だと、68件だった) それってほぼすべて網羅してるってことだろうか。 Mutter+Diaryのページ数が大体それくらい。 …恐るべし。
.htaccess/robots.txt再定義。…冤罪救済のため。
以前からお伝えしているとおり、 BOTや不明なUAに対して、かなり厳しいアクセス制限を敷いているわけですが、 知人の連絡を受けてアクセスログを細かくチェックしてみると、 どうも、冤罪の方が多くいるらしい。 僕としてはそれほど変化球なアクセス制限ではなく、 在る程度理屈の通った指定しかしていないつもりなんですが、 403出されている事実は、事実だし。 ということで、アクセスルールを一旦リセットして、 再度、構築し直すことにします。 アクセス制限は、SPAMとサーバ負荷の削減が目的です。 なので、基本的には、怪しい収集をするBOT、ダウンローダー、 SPAM書き込むが目立つ海外プロバイダなどを制限します。 要するに、従来通り、WWWCなどによる更新チェックや、 Webfetchなどによる、ローカル保存はお断りします…と、 あらかじめ申し上げておきます。 そもそも、RSS配信しているサイトに対して、WWWCなどを巡回させること自体、 現代ではナンセンスなことだ、と僕自身は思いますけど。 (いや、その昔、僕もユーザでしたけど。アナログ回線時代) 皆様のご協力をお願いいたします。