Twitterで何度か呟いていて、何らかのテキストを書きたいと思っていたのだけど、タイミング悪くブログの移行中だったので書けず。個人的にうんざりしたし、まぁ今考えたら下書きくらい書いておけば良かったと思うわけですが、まぁ、こういうのは勢いで書きたいしね。

あ、このエントリの件です。

ニコニコ動画のコメントの年齢分析したら中学生がほとんどだった件 - いろいろ作りたい

このエントリの問題点は、調査対象が極めて偏っているにも限らず、それをあたかも全体の事象のように書いていることです。どういうことか?こういうことです。

  1. ユーザーの生年月日を統計に利用するにはその生年月日の信憑性が問題になる
  2. コメントからユーザーを特定するにはそのコメントが「常に匿名(184)コメントで投稿」を外した状態で投稿される必要がある


1についてはまぁいいです。誰にも解らないし。


でも、2については重要。なんでってこの「常に匿名(184)コメントで投稿」という設定はデフォルトで有効なのです。だから普通の人がコメントするときは匿名コメントになるのですよ。

週刊VOCALOIDランキングで先週1位のこの動画で試してみましょう。



調査時点でのコメント数は「35,387」です。
5分ちょっとの動画なので表示されるのは最大600件。
匿名でないコメントを抽出するにはコメントの設定で「匿名(184)コメントを表示」を外してやればよいです。

08_01_01.jpg

その結果がこれ。

08_01_02.jpg

現時点で匿名でないコメントは、4件、2人しかない!しかもコメント3件のユーザーは生年月日非公開でした。つまりこの動画のコメントを分析した結果、データを得られるのはたった1人です。再生数26万超なのにね!

「サンプル調査」というのはそういうものだと言う考え方もあるかも知れません。でも先に述べたように非匿名のコメントというのは意図してその設定をしないとできないものです。コメント全体に占める割合が極少数であることから見ても一般的なユーザーとは言えないんじゃないでしょうか。これが母集団からの無作為抽出した30000サンプルであれば十分でしょうけど、そうではなくある程度偏りが予想できる集団からの抽出なわけですから、この抽出が母集団であるコメント全体と比較して特殊ではないという裏付けが必要なんじゃないでしょうか。それがなければこの抽出方法が理に適っているか証明し切れていないのでは?

解りやすく例えれば、宇都宮でとった「餃子を食べる頻度」のアンケートを元に、「日本人の食卓に一番多く上るメニューは餃子」などと語るようなもんです。それは事実かも知れないし、事実ではないかも知れない。それを事実だと断じるためには「日本人全体の傾向を把握するのに宇都宮の傾向だけを調べれば十分」と言う裏付けが必要ですし、逆に事実ではないというなら「宇都宮の傾向は日本人全体の標準とかけ離れている」という裏付けが必要なわけです。それが分析ってもんです。

このデータを元に研究が進んで、実際に動画コメントのほとんどが小中学生だと判明する可能性は否定出来ません。でも少なくとも今は何一つ証明されていない。そうかもしれないというデータだったらまだいいですよ?でもこれまだ今は、完全な与太話でしょう?

そういうわけなので、先のエントリを読んで、「そういえば最近のコメントはレベルが低いと思ってた、なるほどね小中学生なんだったら納得だわー」とか言うのは恥ずかしいので止めた方がよいです。なんもわかんないんですよ、実際のところ。大人にしてみたらそれを自分らじゃない誰かのせいに出来たら都合はいいでしょうけどね。あいにく、それを言うタイミングはまだここじゃないです。




なんのデータがあれば「分析」できるか?

id:myrmecoleonさんのアイディアではこんなのも。

データから観る『ニコニコ動画のコメントの年齢分析したら中学生がほとんどだった件』 - Togetter

つまり年代別に生年月日の公開率をとって、それを基礎に今回のサンプルを擬似的な母集団に拡張していこうという提案(ただし条件が色々ある)。確かに実現性はあるけどユーザのランダムサンプリングってだけで凄い大変では…id:myrmecoleonさんなら出来ちゃいそうだけど(苦笑)


まぁ、当たり前だけど、ドワンゴは当然把握できると思うのですよね。特に今は先日導入された「NG共有」という機能があるので、ある一定以上のNGポイントを獲得しているユーザー層の傾向を分析するのは十分に可能なはずです。「株主総会で質問する」は殆ど冗談ですけどでも広告媒体向け資料でもいいから手にはいんないかなぁ。




おまけ:非匿名コメントはなんのためにするの?

ニコ生に詳しい人ならわかると思いますが、これ、要するにコテハンです。動画投稿者が一般コメントで解説するときや、「うぽつー」を動画投稿者に解るように書きたいときには有効です。でも、正直それ以外は特になんというメリットもありません。

それともなんかメリットあるの?(→メリットについて追記)



追記

  • 画像の赤枠が間違った場所に付いていたので画像を差し替えました。
  • よく考えると30,000件の中の4件が取得可能なのではなくて、現在表示されているコメントのうち4件なので、その辺加味して文章を書き換えました。



追記:非匿名コメントのメリットについて

@orz_pppさんに教えていただきました。

コメ職人は生IDで永続的にNG出来るように視聴者の便宜を図ります。コメ職人全体へのメリットのためです。

おお、なるほど!確かにそれは合理的ですね。



追記:書き直し

後段の部分、読み返してみたら「サンプル調査ってそういうもんじゃないの?」と思ってしまったので書き直し。

あと「調査は間違ってる」と言いたいんじゃなくて、十分に正しいとは言えないと言いたかったんですが、個人的な予想が混じって解りづらくなってたのでばっさりカットしました。

それからid:myrmecoleonさんのアイディアも全然間違えて把握してたので該当個所、全取っ替え。飲みながら書くとダメね。