デジタルアーカイブのための日本のウェブサイトの実態調査
昨日から今日に掛けて、かなり大がかりな根こそぎ行動を仕掛けてくるクローラーが来てたので、 おいおい、と思ってたら、どうやらこういうことらしい。
「デジタルアーカイブのための日本のウェブサイトの実態調査」のお知らせ [目的] インターネット上に存在する電子情報は、近年、急速に増大しており、また、後世に残すべき「文化財」としての重要性も高まっています。しかし、ウェブ情報は、日々更新されており、歴史的観点から見て貴重な情報が記録されることなく消滅する危険性に直面しています。そこで、国立国会図書館では、将来、これら消え行くウェブ情報を収集・保存し後世に残すことを計画しております。今回は、その実施可能性や方法の検討を行うため、実態調査を実施いたします。 [調査期間] 平成16年12月?平成17年3月(予定) >> 全文を読む一応、robots.txtには準拠するらしい。 なので、嫌なら拒否してくれってことなんだろうけど。 ずいぶん自分勝手な、と思うけど、 こっちがそもそも『公開』しちゃってるんだから仕方ないわな。 このサイトでは基本的にクローラーは拒んでいないので、 (WWWCなどの腹立つ更新チェックはカットしてますが。チェックはRSSでよろしく) 放置の予定。 それにしても、blogだけで2500ページくらいあるんだけど 全部持ってく気なんでしょうかねぇ…