信頼区間測定
評価値の信頼区間を計ってみました。今回は95%信頼区間という、「100回感想調査をやったら95回はこの範囲になるだろう」という範囲について計算しました。この範囲が広ければ、結果は偶然得られた可能性が高くあまり信頼できないデータ、範囲が狭ければ偶然に左右されない信頼できるデータということになります。詳しくは2005年春感想率調査 別口解析に書いてあります(手抜き)。
平均値と95%信頼区間
結果はこのようになりました。「下側95%」は95%信頼区間の下側の値(95%はこれ以上になるだろう、という値)、「上側95%」は95%信頼区間の上側の値(95%はこれ以下になるだろう、という値)です。
今回はbootstrap(シミュレーション)で求めた信頼区間のほかに、正規分布を仮定して計算で求めた結果も出しています。計算で求める方法としては、平均値±標準誤差(標準偏差/サンプルサイズの平方根)×1.96が、95%信頼区間になります。また、bootstrapのサンプルサイズは10000にしています。
| 下95%(np) | bootstrapで求めた下側95%信頼区間。 | 上95%(np) | bootstrapで求めた上側95%信頼区間。 | 幅(np) | bootstrapで求めた95%信頼区間幅。 | 下95% | 計算で求めた下側95%信頼区間。 | 上95% | 計算で求めた上側95%信頼区間。 | 幅95% | 計算で求めた95%信頼区間幅。 | SE | 標準誤差。つまり(評価値の標準偏差ではなく)平均値の標準偏差。 |
項目欄の▲とか▼を押すとソートできます。
| 順位 | アニメ | 平均 | 下95%(np) | 上95%(np) | 幅(np) | 下95% | 上95% | 幅 | SE |
| 1 | SPEED GRAPHER | 2.88 | 2.66 | 3.11 | 0.45 | 2.66 | 3.1 | 0.45 | 0.11 |
| 2 | 攻殻機動隊S.A.C. 2nd GIG(地上波) | 3.42 | 3.22 | 3.62 | 0.4 | 3.22 | 3.62 | 0.4 | 0.1 |
| 3 | かみちゅ! | 3.6 | 3.45 | 3.75 | 0.3 | 3.45 | 3.76 | 0.31 | 0.08 |
| 4 | ギャラリーフェイク | 2.78 | 2.6 | 2.96 | 0.36 | 2.6 | 2.96 | 0.36 | 0.09 |
| 5 | 機動戦士ガンダムSEED DESTINY | 1.78 | 1.65 | 1.91 | 0.26 | 1.65 | 1.91 | 0.26 | 0.07 |
| 6 | フルメタル・パニック!The Second Raid | 3.5 | 3.33 | 3.67 | 0.35 | 3.33 | 3.67 | 0.34 | 0.09 |
| 7 | 陰陽大戦記 | 3.44 | 3.23 | 3.64 | 0.41 | 3.23 | 3.65 | 0.42 | 0.11 |
| 8 | 奥さまは魔法少女 | 1.71 | 1.57 | 1.84 | 0.27 | 1.57 | 1.84 | 0.27 | 0.07 |
| 9 | 冒険王ビィト | 2.42 | 2.24 | 2.6 | 0.36 | 2.24 | 2.6 | 0.36 | 0.09 |
| 10 | 極上生徒会 | 3.06 | 2.91 | 3.2 | 0.29 | 2.91 | 3.21 | 0.3 | 0.08 |
| 11 | バジリスク〜甲賀忍法帖〜 | 3.3 | 3.1 | 3.51 | 0.41 | 3.1 | 3.51 | 0.41 | 0.11 |
| 12 | ロックマンエグゼStream | 2.38 | 2.17 | 2.63 | 0.46 | 2.15 | 2.61 | 0.46 | 0.12 |
| 13 | ハチミツとクローバー | 3.4 | 3.23 | 3.56 | 0.33 | 3.23 | 3.56 | 0.33 | 0.08 |
| 14 | 円盤皇女ワるきゅーレ 星霊節の花嫁 | 2.69 | 2 | 4 | 2 | 1.81 | 3.69 | 1.88 | 0.48 |
| 15 | MONSTER | 3.43 | 3.18 | 3.69 | 0.52 | 3.18 | 3.69 | 0.51 | 0.13 |
| 16 | エレメンタル・ジェレイド | 2.18 | 2.06 | 2.31 | 0.25 | 2.06 | 2.31 | 0.25 | 0.06 |
| 17 | ボボボーボ・ボーボボ | 3.27 | 2.88 | 3.66 | 0.77 | 2.88 | 3.65 | 0.77 | 0.2 |
| 18 | わがまま☆フェアリー ミルモでポン!ちゃあみんぐ | 2.89 | 2.7 | 3.09 | 0.39 | 2.7 | 3.09 | 0.39 | 0.1 |
| 19 | おくさまは女子高生 | 1.92 | 1.75 | 2.09 | 0.33 | 1.75 | 2.09 | 0.33 | 0.08 |
| 20 | ぺとぺとさん | 2.35 | 2.22 | 2.49 | 0.26 | 2.22 | 2.49 | 0.26 | 0.07 |
| 21 | あまえないでよっ!! | 2.3 | 2.06 | 2.55 | 0.49 | 2.05 | 2.54 | 0.49 | 0.13 |
| 22 | 創聖のアクエリオン | 3.34 | 3.2 | 3.49 | 0.29 | 3.2 | 3.48 | 0.28 | 0.07 |
| 23 | 機動新撰組萌えよ剣TV | 1.52 | 1.37 | 1.68 | 0.32 | 1.36 | 1.68 | 0.32 | 0.08 |
| 24 | ツバサ・クロニクル | 2.19 | 2.03 | 2.35 | 0.32 | 2.03 | 2.35 | 0.32 | 0.08 |
| 25 | プレイボール | 2.83 | 2.57 | 3.09 | 0.52 | 2.58 | 3.09 | 0.51 | 0.13 |
| 26 | VIEWTIFUL JOE | 3.15 | 2.85 | 3.46 | 0.62 | 2.84 | 3.46 | 0.62 | 0.16 |
| 27 | わがまま☆フェアリー ミルモでポン!シリーズ総括 | 3.31 | 3 | 3.63 | 0.63 | 2.99 | 3.63 | 0.63 | 0.16 |
| 28 | 苺ましまろ | 3.24 | 3.09 | 3.39 | 0.31 | 3.09 | 3.39 | 0.31 | 0.08 |
| 29 | TIDE-LINE BLUE | 2.08 | 1.91 | 2.26 | 0.36 | 1.9 | 2.26 | 0.36 | 0.09 |
| 30 | 超ぽじてぃぶ!ファイターズ 〜燃えるぜ焼けるぜシリーズ〜 | 4 | 3.4 | 4.57 | 1.17 | 3.43 | 4.57 | 1.13 | 0.29 |
| 31 | Trinity Blood | 2.23 | 2 | 2.46 | 0.46 | 2 | 2.46 | 0.46 | 0.12 |
| 32 | あかほり外道アワー らぶげ | 2.17 | 2.01 | 2.33 | 0.31 | 2.01 | 2.33 | 0.31 | 0.08 |
感想
bootstrapで求めた信頼区間と、計算で求めた信頼区間がここまで一致しているとは。感動だ・・・。しかし、これでは初めから計算したほうが速かったな。頭を使うか手を使うか・・・みたいな。
それはそうと。やはりサンプル数の少ない超ぽじは信頼区間も広い(=あまり信頼できない)。幅が1以上だと場合によっては評価が変わってしまうことがあるということで、許容範囲としては0.9程度まで?とすると、評価数26のボーボボでも幅が0.77になっているので、サンプル数としては20ほど集めればそれなりに信頼できるかな、という気がします。
暇があったら、もう少し具体的にxx%信頼区間がxx以内、という制約の元でのサンプル数の見積もりなんかを計算してみたいです。
データについて
今回使用したデータは、光希桃 Anime Station内の
からいただきました。このような貴重なデータを公開していただき、大変感謝しております。