データの分析を行うこと

私はニコニコ動画周辺に様々存在するクラスタの中で、ランキング動画クラスタに位置していると思います。ランキング動画クラスタはデータ分析クラスタという大枠に存在していて、ニコニコ動画周辺に存在する様々なデータを元に解析・分析を行う人々です。
そうしたクラスタにいる私が心がけているのは、「データから確実にいえる」ことなのか、それとも「そういうことだろうけど推測に過ぎない」ことなのかを明確に分けるということです。
例えば、
の集計結果から「2012年のTOP3はすべてネタ系歌ってみた動画でガチ系歌ってみた動画ではなかった」というのは「データから確実にいえる」ことです。しかし、「2012年はネタ系動画が強かった」というのは推測に過ぎず、さらにTOP3だけでは判らない分析です。この分析が正しいかを調べるには、TOP100に入った全動画と昨年と比較して、その本数が増えているということを示す必要が、最低限求められます。できればその分析は本数だけでなく、再生総数やマイリストの動向などをきちんと複数年にわたって数字で比較する必要があります。それでもとことんまで推測でしかないのですが、例えば「全部数字が増えているからネタ系動画が強かった」ということであれば「ほぼ確実な推測」といっても良いと思います。

そして、分析するということの重要な要素として、「再生総数が減っているのに本数が変わらずにいるのか」「再生総数が増えているのに本数が変わらずにいるのか」など、比較して出てきた数字の中身によっても評価軸が大きく変わるということです。単一の数字も伴わない結果だけ目の前に出されてもなんの評価も出来なければ、それが憂慮すべきことなのか、それとも楽観視して良いことなのかは、全く不明確だということです。データ分析というのはそういう類いのことでして、人はどうしても出てきた結果に踊らされがちなのですが、そうした「煽る」数字が出てきたときには「まてよ、これは前年はどうだったのかな、全体としてはどうなのかな」ということを念頭に置くとデータに煽られることなく、「ああ、これはこれだけでは何ともいえない数字なんだな」ということが判って、心穏やかになれることでしょう。

つまり何がいいたいかというとニコニコ動画の全タグ別アクティブユーザー数の推移なんていうデータがあるなら今すぐよこせ下さい。
参考:
VOCALOIDカテが料理カテよりもアクティブユーザが少ないとか初耳。:Myrmecoleon in Paradoxical Library. ブロマガ分館
話題の動画「ジエンド」を書き起こししてみた:Fredrika Data Mining