信頼区間測定

評価値の信頼区間を計ってみました。今回は95%信頼区間という、「100回感想調査をやったら95回はこの範囲になるだろう」という範囲について計算しました。この範囲が広ければ、結果は偶然得られた可能性が高くあまり信頼できないデータ、範囲が狭ければ偶然に左右されない信頼できるデータということになります。詳しくは2005年春感想率調査 別口解析に書いてあります(手抜き)。

平均値と95%信頼区間

結果はこのようになりました。「下側95%」は95%信頼区間の下側の値(95%はこれ以上になるだろう、という値)、「上側95%」は95%信頼区間の上側の値(95%はこれ以下になるだろう、という値)です。

今回はbootstrap(シミュレーション)で求めた信頼区間のほかに、正規分布を仮定して計算で求めた結果も出しています。計算で求める方法としては、平均値±標準誤差(標準偏差/サンプルサイズの平方根)×1.96が、95%信頼区間になります。また、bootstrapのサンプルサイズは10000にしています。

下95%(np) bootstrapで求めた下側95%信頼区間。
上95%(np) bootstrapで求めた上側95%信頼区間。
幅(np) bootstrapで求めた95%信頼区間幅。
下95% 計算で求めた下側95%信頼区間。
上95% 計算で求めた上側95%信頼区間。
幅95% 計算で求めた95%信頼区間幅。
SE 標準誤差。つまり(評価値の標準偏差ではなく)平均値の標準偏差。

項目欄の▲とか▼を押すとソートできます。

順位 アニメ 平均 下95%(np) 上95%(np) 幅(np) 下95% 上95% SE
1SPEED GRAPHER2.882.663.110.452.663.10.450.11
2攻殻機動隊S.A.C. 2nd GIG(地上波)3.423.223.620.43.223.620.40.1
3かみちゅ!3.63.453.750.33.453.760.310.08
4ギャラリーフェイク2.782.62.960.362.62.960.360.09
5機動戦士ガンダムSEED DESTINY1.781.651.910.261.651.910.260.07
6フルメタル・パニック!The Second Raid3.53.333.670.353.333.670.340.09
7陰陽大戦記3.443.233.640.413.233.650.420.11
8奥さまは魔法少女1.711.571.840.271.571.840.270.07
9冒険王ビィト2.422.242.60.362.242.60.360.09
10極上生徒会3.062.913.20.292.913.210.30.08
11バジリスク〜甲賀忍法帖〜3.33.13.510.413.13.510.410.11
12ロックマンエグゼStream2.382.172.630.462.152.610.460.12
13ハチミツとクローバー3.43.233.560.333.233.560.330.08
14円盤皇女ワるきゅーレ 星霊節の花嫁2.692421.813.691.880.48
15MONSTER3.433.183.690.523.183.690.510.13
16エレメンタル・ジェレイド2.182.062.310.252.062.310.250.06
17ボボボーボ・ボーボボ3.272.883.660.772.883.650.770.2
18わがまま☆フェアリー ミルモでポン!ちゃあみんぐ2.892.73.090.392.73.090.390.1
19おくさまは女子高生1.921.752.090.331.752.090.330.08
20ぺとぺとさん2.352.222.490.262.222.490.260.07
21あまえないでよっ!!2.32.062.550.492.052.540.490.13
22創聖のアクエリオン3.343.23.490.293.23.480.280.07
23機動新撰組萌えよ剣TV1.521.371.680.321.361.680.320.08
24ツバサ・クロニクル2.192.032.350.322.032.350.320.08
25プレイボール2.832.573.090.522.583.090.510.13
26VIEWTIFUL JOE3.152.853.460.622.843.460.620.16
27わがまま☆フェアリー ミルモでポン!シリーズ総括3.3133.630.632.993.630.630.16
28苺ましまろ3.243.093.390.313.093.390.310.08
29TIDE-LINE BLUE2.081.912.260.361.92.260.360.09
30超ぽじてぃぶ!ファイターズ 〜燃えるぜ焼けるぜシリーズ〜43.44.571.173.434.571.130.29
31Trinity Blood2.2322.460.4622.460.460.12
32あかほり外道アワー らぶげ2.172.012.330.312.012.330.310.08

感想

bootstrapで求めた信頼区間と、計算で求めた信頼区間がここまで一致しているとは。感動だ・・・。しかし、これでは初めから計算したほうが速かったな。頭を使うか手を使うか・・・みたいな。

それはそうと。やはりサンプル数の少ない超ぽじは信頼区間も広い(=あまり信頼できない)。幅が1以上だと場合によっては評価が変わってしまうことがあるということで、許容範囲としては0.9程度まで?とすると、評価数26のボーボボでも幅が0.77になっているので、サンプル数としては20ほど集めればそれなりに信頼できるかな、という気がします。

暇があったら、もう少し具体的にxx%信頼区間がxx以内、という制約の元でのサンプル数の見積もりなんかを計算してみたいです。

データについて

今回使用したデータは、光希桃 Anime Station内の

からいただきました。このような貴重なデータを公開していただき、大変感謝しております。