□技術メモ - 統計的手法 ※管理人の個人的な技術メモです。 このページの内容は正確であることを保証しておりません。 ----------------------------------------------------------- 〇尺度水準 4つの尺度水準について確認しておく。 ・名義尺度 対象に数値を割り当てただけのもの。変数値間の比較は、等しいか異なるか以外に意味を持たない。 ・順序尺度 名義尺度の水準を満たしている。 等しいかどうかと、大小の比較ができる。心理学や社会科学の測定の多くは順序尺度。 例えば、レベル1、レベル3などという言い方をする場合に、数値を加算するなどの演算は行わない。 最頻値や中央値は順序尺度である。 ・間隔尺度 順序尺度の水準を満たしている。 2つの数値の差が等しい場合は、間隔が等しいことを意味している。 日付、温度などは間隔尺度と言える。 間隔尺度を持つ複数のデータの代表地として、最頻値、中央値、算術平均などがある。 ・比率尺度または比例尺度 間隔尺度の水準を満たしている。 ペアの数値の比や、乗算、除算にも意味がある。 比率尺度のゼロは特別な意味を持つことが多い。 質量、長さ、エネルギーなど、物理量の多くが比率尺度である。 -------- 〇共分散(covariance)、相関係数、散布図 ・共分散は「古文のテストの得点の高い人は、日本史の得点も高いか?」など、 相関関係を調べる際に用いられることが多い。 Sxy = 1/N Σ(i=1→N) (Xi - E(X))*(Yi - E(Y)) 以下のように書くこともある。 Cov(X,Y) = E( (X-E(X))*(X-E(X)) ) ・相関係数 正の分散を持つ確率変数 X, Y が与えられたとき、 共分散をSxy, 標準偏差を Sx, Sy とする。 このとき、相関係数は以下で与えられる。 Sxy 相関係数 ρ = -------- Sx * Sy ※相関係数は順序尺度なので、加算や比率などの値は意味がない。 従って相関係数の比率などを取ることは意味がない。 相関係数は次元がなく、−1以上、1以下の実数の値を取る。 正の相関、負の相関、無相関という言い方をする。 ※分散の定義からして分散が負になることはないと思いがちだが、 式を展開して、第1項 - 第2項 の形式になった場合に演算誤差で 負になることがあるらしい。要注意! ・散布図 縦軸、横軸に数値を割り当て、データをプロットしたもの。 -------- 〇ヒストグラムの書き方 〇箱ひげ図 〇平均、分散、標準偏差 〇疑似相関 〇二項分布 〇ポアソン分布 〇正規分布 〇統計的検定 ・仮説検定 ・第1種過誤(あわて者の誤り)、第2種過誤(ぼんやり者の誤り)について 〇回帰分析 〇t分布、t検定 〇F分布、F検定、分散分析 〇95%信頼区間、99%信頼区間とは 〇分割表 〇カイ2乗検定 〇多変量解析 〇実験計画法 〇主成分分析 〇クラスター分析