2005(平成17)218                          山田幸宏

自然科学統計学

実験データ解析のための統計学 I.基礎

 

1. 研究researchとはどのような概念でしょうか.

a.広辞苑(5)によると,よく調べて真理をきわめること.

b.大辞林(2) によると,物事について深く考えたり調べたりして真理を明らかにすること.

との記載があります.

 一般的に研究という場合には英語のstudyresearch2つの異なった概念が含まれ,さらに広く調査investigation, surveyという概念を含むことがあります.Studyはある特定の状況における真理をきわめる場合に使用される言葉であり,researchは科学的なscientific,すなわち学問によって裏打ちされている研究という場合に使用される言葉です.すなわち科学scienceは学問の一分野であり,体系化された知識と理論的に構成された研究方法の存在が必須です.それは学問とは一定の原理によって説明し体系化した知識と、理論的に構成された研究方法などの全体をさす概念であると考えられるからです.今回の「研究の方法」とは「科学的な研究の方法」を意味していることになります.

 

 一方,検証verificationという概念があります.検証とは論理学の言葉です.すなわち判断・命題の真偽を実地に確かめることを意味し,特に科学では、ある仮説から論理的に導出される結論を、実験や観察の結果と照合し、当の仮説の真偽を確かめることを意味します.論理実証主義においては、ある命題が観察命題の集合から論理的に演繹(えんえき)deduction可能であることを意味します.したがって検証という概念は「科学的な研究の方法」の一部となる可能性があると考えられます.すなわち結果を統計学的に解釈する場合にこの検証という概念があてはまることになりますが,統計学的に解釈するかどうかは,研究の方法論により異なりますから,検証は必要であったり,あるいは不必要であったりします.

 

2. 科学的な研究とはどのような概念でしょうか.

  自然科学にはその学問体系が存在し,その学問体系のなかで,真理truthを明らかにすることであると考えられます.真理は真実と同義語であると思われますが,真実に対応する事実factという単語がありますので,事実から真実を明らかにすることであると考えられます.すなわち,事実から真実を帰納(きのう)induction して真実を明らかにすることであると考えられます.帰納とは個々の特殊な事実や命題の集まりからそこに共通する性質や関係を取り出し、一般的な命題や法則を導き出すことをいいます.帰納に対して演繹という単語があります.演繹とは諸前提から論理の規則にしたがって必然的に結論を導き出すことをいい,普通、一般的原理から特殊な原理や事実を導くことをいいます.

 科学的な研究を行なうことにより,真実が明らかとなることをめざしますが,必ずしも真実が明らかとなるとは限らず,真実が明らかとならないこともあります.厳密にいえば,真実というのはわれわれには解らず,解るのは事実のみであると考えられますので,科学的な研究を行なうことにより明らかとなるのは事実のみであり,真実は推論により推定するということになります.すなわち,明らかとなった事実のことを結果resultといいます.結果から帰納した推論を結論conclusionといいます.

3. 自然科学的研究の実施方法

 研究には定量的研究(量的研究)quantitative studyと質的研究qualitative studyがある.自然科学的研究は定量的研究である.また事例研究,症例研究case studyもあり,事例研究,症例研究での,定量的研究を行うことも可能である.

 

自然科学的研究の実施方法

1. 実験計画の立案planning

2. 実験の実施practice

3. 実験結果の整理summary

4. 考察の推敲improvement(修正して書き改めること)

5. 論文の完成publishing

 

論文paperの構成

 1. 題名title, 論文の著者の名前, 作成した日付 2. 抄録 3. 緒言 4. 方法 5. 結果6. 考察7. 結論8. 謝辞9. 文献10. 図11. 表

 論文には必ず題名titleを付ける必要がある.題名titleを付けることをentitleと言う.題名はその論文の内容を最も良く表現する.どのような題名を付けるかは最も学問的知識が要求される.自分が報告したい内容を要約し,統合した題名を付けることが重要である.題名は穏健moderateなものが望ましく,極端extremeなものは好ましくない. 論文は通常,題名title,要約,抄録abstractあるいは要旨summary,緒言あるいははじめにintroduction,方法methods,結果results,考察discussion,結語summaryまたは結論conclusion, 謝辞acknowledgmentあるいはacknowledgement,文献references,図figureおよび表tableから構成される.

 

4. 自然科学的研究における統計学statistics 

  はじめに

 結果の解釈に統計学が必要とされる場合と必要とされない場合があります.必要とされるか必要とされないかの判断はその学問体系により,研究者自信により判断されます.すなわち,読者の信頼を得るために統計学が必要であると研究者自信が判断すれば,統計学的手法を用いますし,読者の信頼を得るために統計学が必要でないと研究者自信が判断すれば,統計学的手法は用いないこととなります.統計学的解釈が必要かどうかの判断は研究者自信の経験により決定されています.統計学的解釈を行なう場合には2通りの場合があり,1つ目は研究者自信は不必要と思っているが,その学問体系に経験のない読者のために,単に確認するために行なう場合と,2つ目は研究者自信が必要と思っている場合です.

 研究者自信が必要と思っている場合とは,ある現象が因果関係the relation of cause and effectを持って起こったかどうか,すなわち必然性があって起こったものであり,単に偶然に起こったものではないことを読者に納得させるための1つの手段として用いる場合です.1つの手段であるため,他の手段,すなわち,その研究者自信の因果関係を推論する理論的背景が存在していることが前提となっています.

 統計学的解釈の概念は正規分布normal distributionの理解が基本となります.

 あるデータが全体の中でどの位置にあるかを的確に把握することを可能にするよく使われている指標に標準正規分布があります.標準偏差の元になる値は、分散です.分散は、変動(偏差の2乗和)を総度数で割った値です.また、この値は、各データの偏差の2乗和の平均の正の平方根、という計算手順で得られるのですが、多少数式の変形をすることで、〈データの2乗平均〉から〈データの平均の2乗〉を引いた値を求め、その正の平方根によって得ることができます.

 

分散variance=[〈データとその平均値との差〉の2乗和]の平均値

標準偏差Standard deviation=〈分散〉の正の平方根

標準偏差=[〈データの2乗平均〉−〈平均値の2乗〉]の正の平方根

 

あるデータの値x,データの平均値xbar, 標準偏差をσとすると,

σ=sqrt((x xbar)2/n-1))

となります.

   データが正規分布する場合は標準値zは基準正規分布に従うということです.標準正規分布は、平均値がゼロ、標準偏差が1、という基準の一つとして考えられている分布です. 標準偏差は、分散の正の平方根です. 標準得点standard score (標準得点は標準値,あるいはz得点z-scoreとも呼ばれています.)は、平均値・標準偏差をもとに、各データが、平均値ゼロ、標準偏差1の正規分布に変換して、相対的な位置がどの程度かを表しています. もし,あるデータに順位を付けるとすれば,順位は標準得点のみによって決まります.すなわち,標準得点の一番大きい値が1番になります.標準得点にある正の係数を乗じても,あるいは,一定の正あるいは負の価を加えても,標準得点により求められる順番は変わりません.もし,標準得点に0を乗ずれば,すべて0となり,全員が同順位の1番となります.標準得点に乗ずる係数は正の数ならば何でもよく,たとえば,1,10,15,20などとしますと,それぞれ,「標準得点x乗じられた係数」のとりうる範囲は統計学的に,-3から+3-30から+30-45から+45-60から+60の範囲となります.いずれの場合でも,±1標準偏差の範囲,すなわち,それぞれ±1,±10,±15,±20の範囲に68.26%が入ります.

   平均値が50.00で,標準偏差が16.67とすると,-3SDから+3SDの範囲,すなわち,50.00-16.67x3=-0.01から50.00+16.67x3=100.01の範囲にデータが入ることになり,平均値が50.00で標準偏差が10.00とすると50.00-10.00x3=20.00から50.00+10.00x3=80.00の範囲にデータが入ることになります.標準得点を平均値が50、標準偏差が10として変換した値は、偏差値deviation score(DS)と呼ばれています.偏差値=標準得点×10+50

   z得点の特徴として,あるデータが平均と同じであれば,z値は0になります.Z値が1ならば,あるデータが平均より,標準偏差だけ大きいということですし,z得点が2ならば,得点が平均値より,標準偏差の2倍だけ大きいということです.平均値±1標準偏差の範囲内には全データの68.30%が含まれ,平均値±2標準偏差の範囲内には全データの95.44%が含まれ,平均値±3標準偏差の範囲内には全データの99.74%が含まれることになります.

 

 2郡の平均値に差が見られるかについての検定はは,まず2郡のデータが正規分布に従っている場合,あるいはデータ数が少ない場合,分散が等しいとF検定で仮定できれば,スチューデントのt検定を用い,2郡の分散が等しいとF検定で仮定できなければ,ウェルチのt検定を用いることになり,また2郡のデータが正規分布に従っていない場合には,マン・ホイットニ検定を用いて検定する必要があります.しかし,F検定においては,データ数が少ない場合の検定結果はあまく出ることが知られておりますので,正規性を仮定しえたとしての検定には問題が残ります.マン・ホイットニ検定は両裾広がり分布の場合は,t検定よりも検出力が良いことが知られており,正規分布に関する検定を行っても,検出力が良くないために,正規分布であると判定されてしまうような可能性が考えられる場合には,マン・ホイットニ検定を行い,中央値に差があるのかの検定が必要となります.したがって,母集団が十分大きい場合の2郡の差の持つ意味と,母集団が少ない場合の持つ意味は異なってくる場合があると考えられます.平均値あるいは中央値に関する検定を行っても,出てきた統計学的検定結果の信頼性の検討は難しく,研究者自信が信頼することができるか,あるいは読者が信頼することができるかは統計学的検定結果には因らないこととなります.

 

 統計の検定の論理は反証法である.差があることを証明するために,その命題を置き換えて,差がないとすると矛盾することを証明する.差がないとする仮説を帰無仮説null hypothesis と呼び,H0と表わす.差があるという仮説を対立仮説alternative hypothesisと呼び,H1と表わす.

 

 統計学的検定を行う場合には統計量statistic(検定統計量test statistic;t0)を求める.統計量は標本の特徴を要約した数値であり,母数population parameter(単にparameterともいう;母平均μや母分散σ2)の検定testあるいは推定estimationに利用する.

 

 サンプル数が少ない場合には得られたデータの正規性の検討はχ2 適合度検定を用いて行うことが可能ですし,外れ値に関する検討はSmirnov-Grubbs統計量T [T=(x-xbar)/SD] を求め, Smirnovの棄却検定を行うことも可能ですが,これらの場合,検定結果はあまく算定されることが多いので,すなわち正規性がないにもかかわらず,正規性が否定できない,あるいは外れ値あるのに外れ値であることが否定できないことがあるので,注意が必要です.

 

 看護大学生が行なう自然科学的方法を用いた研究は1人の対象者の研究が基本であると思います.1人の対象者の研究は事例研究,あるいは症例研究case studyと言います.また事例研究は対象者が2-3人程度であっても可能です.これらの場合統計学的手法を用いるとすれば,得られた複数のデータを解析することとなります.

 得られた複数のデータを解析するばあい,どの程度のデータ数があれば良いのでしょうか.この場合のデータ数は調査研究のサンプル数に相当するものと考えられます.

 

 統計学的検定を行なう場合,どの程度のデータ数があれば可能かについて理解するために,実例をあげて説明します.

 

[1] 200341日のAさんの体重は50.0kgであり,Bさんの体重は60.0kgであった.Aさんの体重とBさんの体重はどちらが重いでしょうか.

[1の解決方法]

データをそれぞれ3回測定し,平均値を求め,対応のないunpaired Student t 検定testを行なう.

[1] AさんとBさんは他人ですからデータには対応がないと考えられます.対応のあるStudent t 検定を用いたとすれば,検定結果はあまくでる可能性があります.すなわち有意差が無いのに有意差があると,過って判断する可能性が高くなります.

 

[2] Aさんの体重は200341日には50.0kgであり,42日には60.0kgであった.Aさんの体重は41日と42日で差があったでしょうか.もし差があったとしたら,Aさんの体重は41日と42日ではどちらの日が重かったと考えられるでしょうか.

[2の解決方法]

データをそれぞれ3回測定し,平均値を求め,対応のあるpaired Student t 検定testを行なう.

[2]

Aさん同一人物ですからデータには対応があると考えられます.対応のないStudent t 検定を用いたとすれば,検定結果は厳しくでる可能性があります.すなわち有意差が有るのに有意差がないと,過って判断する可能性が高くなります.

 

[3] 200341日のAさんグループ(3人)の体重はA1:45.0kgA2:50.0kgA3:55.0kgであり,Bさんグループ(3人)の体重はB1:55.0kgB2:60.0kgB3:65.0kgであった.Aさんグループの体重とBさんグループの体重はどちらが重いでしょうか.

[3の解決方法]

それぞれのデータの平均値を求め,対応のないunpaired Student t 検定testを行なう.

[3] AさんグループとBさんグループは他人ですからデータには対応がないと考えられます.対応のあるStudent t 検定を用いたとすれば,検定結果はあまくでる可能性があります.すなわち有意差が無いのに有意差があると,過って判断する可能性が高くなります.

 

[4] Aさん,Bさん,Cさんの体重は200341日にはそれぞれ45.0kg50.0kg55.0kgであり,42日にはそれぞれ55.0kg60.0kg65.0kgであった. Aさん, Bさん, Cさんの体重は41日と42日で差があったでしょうか.もし差があったとしたら,Aさん, Bさん, Cさんの体重は41日と42日ではどちらの日が重かったと考えられるでしょうか.

[4の解決方法]

それぞれの日のデータの平均値を求め,対応のあるpaired Student t 検定testを行なう.

[4] Aさん, Bさん, Cさんそれぞれ同一人物ですからデータには対応があると考えられます.対応のないStudent t 検定を用いたとすれば,検定結果は厳しくでる可能性があります.すなわち有意差が有るのに有意差がないと,過って判断する可能性が高くなります.

 

[1]から [4]においてStudent t 検定は両側検定か片側検定かの問題があります.理論的にはどちらでも可能ですが,一般には両側検定を行ないます.帰無仮説は等しく無いと仮定するからです.

 

 外れ値に関する検討はSmirnov-Grubbs統計量T [T=(x-xbar)/SD] を求め,危険率5%でSmirnovの棄却検定を行うことにより可能である.


 


1受験生10名の国語の得点の得点分布.

 

 

 正規性の検討をχ2 適合度検定を用いて行った.受験生10名とも自由度は1,χ2 値は3.0,P値(上側確率)0.1,χ2(0.95)3.8であった.すなわち正規性は危険率5%で,認められなかった.データの標準化のために平均値と標準偏差を用いるので,2つの自由度が失われたと考え,自由度は1を用いた.

 


 


2受験生10名の国語の得点分布の外れ値に関する検討

   

 

Smirnov-Grubbs統計量T [T=(x-xbar)/SD] を求め,教員A, B, Cによる採点が外れ値かどうか危険率5%でSmirnovの棄却検定を行った.外れ値は2箇所認められた.

 

 

 

 

 

 

 

 

 

 

 

 

 

 


3受験生10名の国語の得点の基本統計量

 

 

 


   歪度(正規分布の場合0)および尖度(正規分布の場合3)の分布をみると,3名の教員がつけた受験生10名の国語の得点は正規分布しているとは認められなかった.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1.Student t-test 

 正規分布が仮定できる場合の検定は頑強性のあるrobust , Student t-testを行うことができる.

 血液中の蛋白値Pを測定したところ次のような結果が得られた.男女間で蛋白値Pに差

があるかどうか危険率5%で検定しなさい.

 

 

 

 

 

列挙データフォーム

 

 

男性

女性

 

 

 

8.6

17.2

 

 

 

12.5

35.7

 

 

 

39.2

29.5

 

 

 

22.3

79.3

 

 

 

45.1

56.5

 

 

 

29.7

37.3

 

 

 

18.9

26.8

 

 

 

55.4

 

 

 

 

24.8

 

 

 

 

31.6

 

 

 

 

 

データ数

平均値

不偏分散

標準偏差

標準誤差

男性

10

28.81

213.3388

14.60612124

4.618861

女性

7

40.32857

441.0157

21.00037415

7.937395

検定と推定の結果

 

 

 

 

スチューデントのt検定(等分散を仮定したとき)

 

 

 

平均値の差

自由度

t値

P値(両側確率)

(0.975)

男性,女性

-11.5186

15

-1.339658

0.200300808

2.131451

母平均の差の区間推定(等分散を仮定したとき)

 

 

信頼度

 

95%

 

 

 

下限値

 

-29.8451

 

 

 

上限値

 

6.807944

 

 

 

ウェルチWelchのt検定(等分散を仮定しないとき)

 

 

 

平均値の差

自由度

t値

P値(両側確率)

(0.975)

男性,女性

-11.5186

9.987931

-1.254272

0.238268276

2.228139

母平均の差の区間推定(等分散を仮定しないとき)

 

 

信頼度

 

95%

 

 

 

下限値

 

-31.9806

 

 

 

上限値

 

8.943479

 

 

 

 

 危険率5%では帰無仮説は棄却されなかった.95%信頼区間で0が含まれていた.したがって男性の群の母平均と女性の群の母平均は等しかった.

 

2. カイ二乗検定とノンパラメトリック検定を適応できる最小のデータ数

 

カイ二乗検定

 母平均population meanμが未知のとき,母分散population varianceσ2(sigma)がσ02であるかどうかを得られたデータから検定する.σは母標準偏差population standard deviationを表わす.χ2はχ2統計量(χ2 statistics),χ2分布変量(random variable of the chi-square distribution statistics)ともいう.

 

 2x2クロス集計表の検定ではカイ二乗χ2独立性の検定を行う.セルのどれかに期待値が5以下のものがある場合にはフィシャーの直接確率計算法Fisher’s exact probability testを用いる.

a

b

c

d

 パラメトリックparametricという用語は,母数parameterに由来する.すなわち分布の母数の意味である.パラメトリック検定とは,分布の母数にある仮定をして,母数に関する検定を行う.たとえば,対応のないt検定では,母集団は正規分布normal distributionすること,2群の母分散は等しいことを仮定して検定する.すなわちパラメトリック検定では母平均と母分散を用いて検定する.

 ノンパラメトリック検定nonparametric testとはデータの母分散正規性を仮定しない検定方法である(分布によらない検定distribution-free test).すなわちノンパラメトリック検定では中央値(順序尺度)を用いて検定する.

 ノンパラメトリック検定の特徴としては,当該パラメトリック手法よりも検出力は落ちるが,その場合でも検出力の低下はあまりなく,外れ値などにより,パラメトリック手法が破綻する場合でもなおノンパラメトリック手法が有効な場合が多い.これをrobust頑健,頑強,ロバストという.

 

 有意差検定してもさしつかえない最小のデータ数

 パラメトリッ検定では分布の正規性に関する制約があるが,計算可能ならデータ数には制限がない.

 ノンパラメトリッ検定はデータの分布型の制約を受けないが,そのかわり,データ数の制約が存在し,少なすぎると,確率論的に差を検出できなくなる.

 

 分散分析法one-way analysis of variance; one-way ANOVA)では正規性は仮定するが,正規性を仮定しない解析法もある.すなわち,ノンパラメトリッ検定で,

1.Wilcoxonの符号付き順位検定(Wilcoxon signed-ranks test)統計量T

2.Mann-Whitney検定統計量U

3.Friedman検定(繰り返しのない2元配置分散分析法two-way ANOVA without repetition)統計量χr2

4.Kruskal-Wallis検定(独立多群の差の検定法で1元配置分散分析法one-way analysis of variance; one-way ANOVA) 統計量H(eta,イータ)独立2Mann-Whitney検定(Wilcoxon-Mann-Whitney検定,Wilcoxonの順位和検定;Wilcoxon rank-sum testともいう)

Wilcoxonの符号付き順位検定(Wilcoxon signed-ranks test)

 関連2Wilcoxon検定n=6, 統計量T

signとは符号の意味.Plus sign +minus sign-. 徴候ではありません.

 

Mann-Whitney検定


 独立2Mann-Whitney検定(Wilcoxon-Mann-Whitney検定,Wilcoxonの順位和検定;Wilcoxon rank-sum testともいう)

 危険率5%で検定するときには2群からのデータはn=3n=5,あるいはn=4n=4以上必要である.

統計量U

A

B

 

 

 

1

4

 

 

 

2

5

 

 

 

3

6

 

 

 

 

7

 

 

 

 

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

マン・ホイットニの順位

 

 

 

 

データ数

順位和

平均順位

 

A

3

6

2

 

B

5

30

6

 

検定の結果

 

 

 

 

U値

 

 

0

 

'

 

 

15

 

Z値

 

 

-2.236068

 

P値(両側確率)

 

0.02534723

 

同順位補正Z値

 

-2.236068

 

同順位補正P値(両側確率)

 

0.02534723

 

同順位の数

 

 

0

 

(0.975)

 

 

1.95996108

 

U値の有意点

 

 

下側

上側

片側(P<0.05)  両側(P<0.1)

 

1

14

片側(p<0.025) 両側(P<0.05)

 

0

15

片側(P<0.005) 両側(P<0.01)

 

 

 

 

マン・ホイットニの順位

 

 

 

 

データ数

順位和

平均順位

 

A

4

10

2.5

 

B

4

26

6.5

 

検定の結果

 

 

 

 

U値

 

 

0

 

'

 

 

16

 

Z値

 

 

-2.3094011

 

P値(両側確率)

 

0.02092128

 

同順位補正Z値

 

-2.3094011

 

同順位補正P値(両側確率)

 

0.02092128

 

同順位の数

 

 

0

 

(0.975)

 

 

1.95996108

 

U値の有意点

 

 

下側

上側

片側(P<0.05)  両側(P<0.1)

 

1

15

片側(p<0.025) 両側(P<0.05)

 

0

16

片側(P<0.005) 両側(P<0.01)

 

 

 

 

Friedman検定(繰り返しのない2元配置分散分析法two-way ANOVA without repetition)

関連多群Friedman検定

n=3n=3n=3,統計量χr2

 

 2要因(a,b,cという要因;データ数は3A,B,Cという要因;水準数は3によって分類されたくり返しのない二元配置データを用いて,要因ごとに水準間に差が無いという仮説を検定する.

 

A

B

C

 

a

1

3

2

 

b

1

2

3

 

c

2

1

3

 

 

行要因の検定

 

 

 

 

 

データ数

順位和

平均順位

 

a

3

5.5

1.83333333

 

b

3

6

2

 

c

3

6.5

2.16666667

 

検定の結果

 

 

 

 

自由度

 

 

2

 

グループの数

 

 

3

 

同順位の数

 

 

2

 

χ2

 

 

0.16666667

 

P値(上側確率)

 

0.92004441

 

同順位補正χ2

 

0.2

 

同順位補正P値(上側確率)

 

0.90483742

 

χ2(0.95)

 

 

5.99147636

 

χ2値の有意点

 

 

 

 

上側(P<0.05)

 

 

6

 

上側(P<0.01)

 

 

 

 

列要因の検定

 

 

 

 

データ数

順位和

平均順位

A

3

4

1.33333333

B

3

6

2

C

3

8

2.66666667

検定の結果

 

 

 

自由度

 

 

2

グループの数

 

 

3

同順位の数

 

 

0

χ2

 

 

2.66666667

P値(上側確率)

 

0.26359714

同順位補正χ2

 

2.66666667

同順位補正P値(上側確率)

 

0.26359714

χ2(0.95)

 

 

5.99147636

χ2値の有意点

 

 

 

上側(P<0.05)

 

 

6

上側(P<0.01)

 

 

 

 

n=2n=2n=2n=2,統計量χr2の場合

 バイオサイエンスの統計学では計算可能との記載がある.この場合,Excel統計で検定を行うと,計算不能となる.StatViewで検定してみても,計算不能となる.Friedman検定では2つの要因の水準は各々3つ以上必要である.また水準間の差を問題とする方の要因より,他の一方の要因のほうが,多くの水準数を持つことが望ましい.

 

Kruskal-Wallis検定(独立多群の差の検定法で1元配置分散分析法one-way analysis of variance; one-way ANOVA)

Kruskal-Wallis検定の統計量H(eta,イータ)

 3つ以上の母集団分布の平均が等しいという仮説をそれぞれの母集団から独立にとったデータに基づいて検定する.データの分布が正規分布に従わない場合や,データが離散データであるときに用いられるノンパラメトリック検定の一つである.統計量H

は近似的にカイ二乗分布に従う.

クラスカル・ワーリスの順位

 

 

 

データ数

順位和

平均順位

A

2

3

1.5

B

2

7

3.5

C

3

18

6

検定の結果

 

 

 

自由度

 

 

2

グループの数

 

 

3

同順位の数

 

 

0

H値

 

 

5.35714286

P値(上側確率)

 

0.06866117

同順位補正H値

 

5.35714286

同順位補正P値(上側確率)

 

0.06866117

χ2(0.95)

 

 

5.99147636

H値の有意点

 

 

 

上側(P<0.05)

 

 

4.714

上側(P<0.01)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Spearmanの相関係数,統計量はrs

順序尺度による相関

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A

B

 

 

1

1

 

 

2

2.5

 

 

3

3

 

 

4

3.5

 

 

5

5

 

 

スピアマン順位相関係数検定

 

 

検定の結果

 

 

 

順位の差の2乗和

 

0

相関係数rs

 

 

1

Z値

 

 

2

P値(両側確率)

 

0.04550012

同順位補正相関係数

 

1

同順位補正Z値

 

2

同順位補正P値(両側確率)

 

0.04550012

同順位の数

 

 

0

(0.975)

 

 

1.95996108

データ数

 

 

5

相関係数rsの有意点

 

 

片側(p<0.025) 両側(P<0.05)

 

1

片側(P<0.005) 両側(P<0.01)

 

1

 

 同順位補正相関係数が1+なので,正の相関関係が認められ,同順位補正Z値が,Z(0.975)値より大きいので,棄却域に入り,帰無仮説は棄却された.すなわち相関が認められた.

 クロス集計表cross tableのことを分割表contingency tableとも言う.Contingencyとは偶発性という意味である.また連関表とも言う.

 

 

 

 

 

 

 

 

 

 

 

 

3.相関係数(correlation coefficient, Pearson’s correlation coefficient, 単相関係数simple correlation coefficient, 標本相関係数sample correlation coefficientともいう)

 2変量の間の直線関係の強さをみる指標である.

 

慢性腎不全患者の尿素窒素値とリン値の測定結果

BUN   P

155   10.5

125   11.8

98    7.4

51    7.3

135   8.4

150   13.7

135   10.6

142   11.5

71    8.3

 

相関係数の検定

 得られたデータの相関係数rを基にして,母集団の相関係数(母相関係数population correlation coefficient)ρ(ロー)に関する仮説の検定を行い,P値を求める.P値はFisherrz変換された値である.相関係数が統計学的に0と異なるかどうかの検定である.相関係数の有意性を示すP値に対してはデータ数と相関係数を表記しておく必要がある.

 

データ数,相関係数rP値の関係

データ数

相関係数r

P

5

0.8823

0.049975

10

0.6297

0.049962

20

0.4426

0.049952

 

 

 

 

 

 

 危険率5%で有意差を示す相関係数rの値はデータ数が少なくなると大きくなっている.すなわち,データ数が少ない場合は相関係数rの値がかなり大きくないと有意差を示さない.

 

 統計学的検定はコンピュータを用いて行う.ソフトウェアーとしては,Microsoft社のExcelSAS Institute Inc.社のStatView, SPSS社のSPSSを用いて行う.

 

 

 

 

 

 

 

 

Kruskal-Wallis検定後のFisher's PLSD,  Sheffe's , Bonferroni/Dunn  の多重比較検定

 


 


 

 


 

 


 

 


看護研究方法       

山田担当分の試験問題2003(平成15)425日解答例

正解を1つ選び,その番号を○でかこって下さい.

[1] 論文に関して正しいものはどれですか.

1.       論文は一般に「はじめに(背景)introduction,方法method,結果results,考察discussion,文献references,図表figure, table」の順番での構成される.

2.       真実は観察しえた結果であり,事実は観察しえた結果から推論することにより可能となる.

3.       論文を引用する場合,著者が真実であると思っている場合は過去形で表現し,単にその論文があったという事実を記載し,真実であるかの価値判断を避ける場合は現在形で表現する.

4.       著者が真実ではないと思っている論文を引用する場合には,現在形で引用する.

 

[2] 科学と統計に関して正しいものはどれですか.

1.       科学scienceとは体系的であり, 経験的に実証可能な知識とされている.社会科学social sciencesや人文科学human sciencesthe humanitiesは科学であるが,自然科学natural sciencesは科学ではない.

2.       自然科学的研究は,はじめに実験計画の立案をしたら,途中で計画案を変更してはいけない.

3.       Student t検定は,頑強性robustnessが弱い.

4.       統計学的検定を行う場合には,検定統計量test statistics (X)を求めて検定を行う.

 

[3] 統計に関して正しいものはどれですか.

1.       標準正規分布standard normal distributionは、平均値mean1、標準偏差standard deviation0という基準の一つとして考えられている分布である.

2.       標準値は標準得点standard score,あるいはz得点z-scoreと呼ばれている.

3.       標準値は、平均値および標準偏差をもとに、各データが、平均値50、標準偏差10の正規分布normal distributionに変換して、相対的な位置がどの程度かを表している.

4.       データが正規分布する場合は標準偏差の価を3倍した範囲にほぼすべてのデータが含まれる.

 

[4] 科学と統計に関して正しいものはどれですか.

1.       科学には自然科学,社会化学,人文科学などが存在し,また最近は言語学・精神医学・人類学などの急速な発展に伴って,広く人間にかかわる諸事象を研究する学問の総称として人間科学human sciencesという用語も用いられるようになった

2.       ノンパラメトリック検定parametric testt検定,分散分析など,母集団が正規分布であると仮定をし,それに基づいて統計的仮説検定を行なう検定である.

3.       パラメトリック検定parametric testは母集団の分布型に依存しない検定方法distribution free testであり,Wilcoxon検定, Mann-Whiney検定, Friedman検定, Kruskal-Wallis検定などがある.

4.       ある量的特性を,順序関係だけでなく,その距離も測定する尺度は間隔尺度interval scaleや比(比率)尺度ratio scaleであり,離散変量discrete variateの価をとる.

 

正解は[1]は 1 [2] 4, [3]は 2, [4]は 1です.

 

2001(平成13)4

正解を1つ選び,その番号を○でかこって下さい.

1.      科学scienceとは体系的であり, 経験的に実証可能な知識とされている.社会科学social sciencesや人文科学human sciencesは科学であるが,自然科学natural sciencesは科学ではない.

2.      自然科学的研究は,はじめに実験計画の立案をしたら,途中で計画案を変更してはいけない.

3.      Student t検定は,頑強性が弱い.

4.      統計学的検定を行う場合には,統計量statisticを求めて検定を行う.

 

4が正解です.

 

5.研究の方法1.山田担当分の試験問題2001(平成13)418

正解を1つ選び,その番号を○でかこって下さい.

1.      科学scienceとは体系的であり, 経験的に実証可能な知識とされている.社会科学social sciencesや人文科学human sciencesは科学であるが,自然科学natural sciencesは科学ではない.

2.      自然科学的研究は,はじめに実験計画の立案をしたら,途中で計画案を変更してはいけない.

3.      Student t検定は,頑強性が強い.

4.      統計学的検定を行う場合には,統計量statisticは求めなくても良い.

 

3が正解です.

 

 

 

 

 

 

 

 

 

 

実験データ解析のための統計学II.応用

 

1.分割表検定[カイ二乗検定, マクニマー検定, マンテル・ヘンツェル検定]

 

 

 

説明後

 

 

 

説明前

 

好き

嫌い

 

 

 

好き

71

52

123

 

 

 

嫌い

29

48

77

 

 

 

 

100

100

200

 

 

 

 

 

 

 

 

 

 

 

2×2分割表

 

 

 

 

 

 

 

 

 

 

 

 

 

 

観察度数

 

 

 

 

期待度数

 

 

 

 

 

 

 

 

 

 

 

好き

嫌い

合計

 

 

好き

嫌い

好き

71

52

123

 

好き

61.5

61.5

嫌い

29

48

77

 

嫌い

38.5

38.5

合計

100

100

200

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

検定の結果

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

自由度

 

 

1

 

 

 

 

χ2値

 

 

7.623271038

 

 

 

 

P値(上側確率)

 

0.005761989

 

 

 

 

分割表分析係数

 

0.191616395

 

 

 

 

Φ係数

 

 

0.195234104

 

 

 

 

イェーツの補正χ2値

 

6.841938549

 

 

 

 

イェーツの補正P値(上側確率)

0.008904216

 

 

 

 

フィッシャーの直接確率P値

*

 

 

 

 

オッズ比

 

 

2.25994695

 

 

 

 

χ2(0.95)

 

 

3.841459149

 

 

 

 

 

 

 

 

説明後

 

 

 

説明前

 

好き

嫌い

 

 

 

好き

71

52

123

 

 

 

嫌い

29

48

77

 

 

 

 

100

100

200

 

 

 

 

 

 

 

 

 

 

 

マクニマー法

 

 

 

 

 

 

 

 

 

 

 

 

 

 

観察度数

 

 

 

期待度数

 

 

 

 

 

 

 

 

 

 

 

好き

嫌い

合計

 

 

好き

嫌い

好き

71

52

123

 

好き

*

40.5

嫌い

29

48

77

 

嫌い

40.5

*

合計

100

100

200

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

検定の結果

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

自由度

 

1

 

 

 

 

マクニマーχ2値

5.975308642

 

 

 

 

マクニマーP値(上側確率)

0.014507543

 

 

 

 

オッズ比

 

1.793103448

 

 

 

 

χ2(0.95)

 

3.841459149

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

化学嫌い

説明後

化学好き

説明後

 

 

 

 

 

説明前

好き

嫌い

説明前

好き

嫌い

 

 

 

 

 

好き

8

16

好き

63

36

 

 

 

 

 

嫌い

22

44

嫌い

7

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

マンテル・ヘンツェル法

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

観察度数

 

 

 

 

期待度数

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

好き

嫌い

合計

 

 

好き

嫌い

 

 

 

好き

8

16

24

 

好き

8

16

 

 

 

嫌い

22

44

66

 

嫌い

22

44

 

 

 

合計

30

60

90

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

観察度数

 

 

 

 

期待度数

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

好き

嫌い

合計

 

 

好き

嫌い

 

 

 

好き

63

36

99

 

好き

63

36

 

 

 

嫌い

7

4

11

 

嫌い

7

4

 

 

 

合計

70

40

110

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

検定の結果

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

自由度

 

 

1

 

 

 

 

 

 

 

マンテル・ヘンツェルχ2値

0

 

 

 

 

 

 

 

マンテル・ヘンツェルP値(上側確率)

1

 

 

 

 

 

 

 

χ2(0.95)

 

 

3.841459149

 

 

 

 

 

 

 

 

 

 

化学嫌い

説明後

化学好き

説明後

 

 

説明前

好き

嫌い

説明前

好き

嫌い

 

 

好き

8

16

好き

63

36

 

 

嫌い

22

44

嫌い

7

4

 

 

 

 

 

 

 

 

 

 

2×2分割表

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

観察度数

 

 

 

 

期待度数

 

 

 

 

 

 

 

 

 

説明前

好き

嫌い

合計

 

 

好き

嫌い

好き

8

16

24

 

好き

8

16

嫌い

22

44

66

 

嫌い

22

44

合計

30

60

90

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

検定の結果

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

自由度

 

 

1

 

 

 

 

χ2値

 

 

0

 

 

 

 

P値(上側確率)

 

1

 

 

 

 

分割表分析係数

 

0

 

 

 

 

Φ係数

 

 

0

 

 

 

 

イェーツの補正χ2値

 

0.063920455

 

 

 

 

イェーツの補正P値(上側確率)

0.800403488

 

 

 

 

フィッシャーの直接確率P値

0.604406823

 

 

 

 

オッズ比

 

 

1

 

 

 

 

χ2(0.95)

 

 

3.841459149

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

化学嫌い

説明後

化学好き

説明後

 

 

説明前

好き

嫌い

説明前

好き

嫌い

 

 

好き

8

16

好き

63

36

 

 

嫌い

22

44

嫌い

7

4

 

 

 

 

 

 

 

 

 

 

マクニマー法

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

観察度数

 

 

 

 

期待度数

 

 

 

 

 

 

 

 

 

 

説明前

好き

嫌い

合計

 

 

好き

嫌い

好き

8

16

24

 

好き

*

19

嫌い

22

44

66

 

嫌い

19

*

合計

30

60

90

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

検定の結果

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

自由度

 

 

1

 

 

 

 

マクニマーχ2値

 

0.657894737

 

 

 

 

マクニマーP値(上側確率)

0.417304166

 

 

 

 

オッズ比

 

 

0.727272727

 

 

 

 

χ2(0.95)

 

 

3.841459149

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

化学嫌い

説明後

化学好き

説明後

 

 

説明前

好き

嫌い

説明前

好き

嫌い

 

 

好き

8

16

好き

63

36

 

 

嫌い

22

44

嫌い

7

4

 

 

 

 

 

 

 

 

 

 

マクニマー法

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

観察度数

 

 

 

 

期待度数

 

 

 

 

 

 

 

 

 

 

説明前

好き

嫌い

合計

 

 

好き

嫌い

好き

63

36

99

 

好き

*

21.5

嫌い

7

4

11

 

嫌い

21.5

*

合計

70

40

110

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

検定の結果

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

自由度

 

 

1

 

 

 

 

マクニマーχ2値

 

18.23255814

 

 

 

 

マクニマーP値(上側確率)

1.95508E-05

 

 

 

 

オッズ比

 

 

5.142857143

 

 

 

 

χ2(0.95)

 

 

3.841459149

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.ロジスティック回帰法

 例題 

 ある疾患に対する2種類の治療法(処置A,処置B )による治療結果(成功,失敗)を比較する.このとき治療成績には性別や,年齢が影響を与えることが知られている.20人の患者を対象として,それぞれの処置群に10人ずつを割り付けて治療を行った.年齢,性別の偏りを調節した上で,処置Aと処置Bによる治療結果に差が認められたか.

1      39     0      1

0      65     1      1

1      55     1      1

0      53     0      0

1      67     1      0

1      48     0      0

0      51     0      1

1      57     0      0

0      66     1      1

1      68     1      0

0      62     1      1

1      70     0      0

0      46     0      1

1      65     0      0

0      49     1      1

0      59     1      1

1      51     0      0

0      40     0      0

1      60     1      1

1      67     1      0

 

 

 

 

 

 

 

 

治療群と治療結果の関係を分割表分析により解析した場合

解析結果

治療群と治療結果の関係を分割表分析により解析した場合には有意差は認められなかった.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3.因子分析法

身長, アームスパン, 前腕長, 下脚長, 体重, 転子間径,胸囲, 胸幅を測定した.この8つの計測値に影響を与えている共通の潜在因子は何か.

 

 

1.000  .       .       .       .       .       .       .

.846   1.000  .       .       .       .       .       .

.805   .881   1.000  .       .       .       .       .

.859   .826   .801   1.000  .       .       .       .

.473   .376   .380   .436   1.000  .       .       .

.398   .326   .319   .329   .762   1.000  .       .

.301   .277   .237   .327   .730   .583   1.000  .

.382   .415   .345   .365   .629   .577   .539   1.000

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

実験データ解析のための統計学III.まとめ

 

 情報科学information science, computer science[医療情報学medical informatics]は情報を収集し,それを処理[情報処理information processing]する科学である.

 情報の量の単位はbitで,次のように定義されている.

情報量=log2(1/p)= log10(1/p)/log102,ただしpはそのことが起こる確率

 

 表と裏の出る確率がともに1/2であるコインを一枚投げたときに表あるいは裏が出た結果を知ったときに得られる情報量

情報量=log2(1/p) =log2(1/(1/2))=1 bit

 表と裏の出る確率がともに1/2であるコインを二枚投げたときに両方とも表が出た結果を知ったときに得られる情報量

情報量=log2(1/p) =log2(1/(1/4))=2 bit

 表と裏の出る確率がともに1/2であるコインを三枚投げたときに両方とも表が出た結果を知ったときに得られる情報量

情報量=log2(1/p) =log2(1/(1/8))=3 bit

となる.

 すなわち起こる確率が少ないことが起こったことを知ったときの情報量は多く, 起こる確率が多いことが起こったことを知ったときの情報量は少ない.

 

 この情報を処理[情報処理information processing]する方法に統計学statisticsがある.

 統計学には

1.       検定testing,分析analysisということがある.たとえば分散分析ANOVA , analysis of variance

2.       推定estimation[推計学inductive statistics]

3.       解析analysis[多変量解析multivariate analysis]

 

 検定[分散分析ANOVA]の場合には統計量statistics[検定統計量test statisticsともいう]を算定する.分散分析ANOVAはパラメトリック検定であるが,ノンパラメトリック検定でも統計量を算定する.パラメトリック検定では正規性を仮定しているが,ノンパラメトリック検定では正規性を仮定していない.すなわち統計量の算定の基準はパラメトリック検定では平均値meanを用い,ノンパラメトリック検定では中央値medianを用いる.

 

1.     Student t-test 

2.       カイ二乗検定

3.      Wilcoxonの符号付き順位検定(Wilcoxon signed-ranks test)統計量T

4.      Mann-Whitney検定統計量U

5.                 Friedman検定(繰り返しのない2元配置分散分析法two-way ANOVA without repetition)統計量χr2

6.      Kruskal-Wallis検定(独立多群の差の検定法で1元配置分散分析法one-way analysis of variance; one-way ANOVA) 統計量H(eta,イータ)独立2Mann-Whitney検定(Wilcoxon-Mann-Whitney検定,Wilcoxonの順位和検定;Wilcoxon rank-sum testともいう)

7.      Spearmanの相関係数,統計量はrs順序尺度による相関

8.      相関係数(correlation coefficient, Pearson’s correlation coefficient, 単相関係数simple correlation coefficient, 標本相関係数sample correlation coefficientともいう)2変量の間の直線関係の強さをみる指標である.

9.       分割表検定[カイ二乗検定, マクニマー検定, マンテル・ヘンツェル検定]

は検定であり,

 

1.       ロジスティック回帰法

2.       因子分析法

は解析である.

 

 推定estimationには正規分布を用いた信頼区間の推定と,t分布を用いた信頼区間の推定とがある.

 

正規分布を用いた信頼区間の推定の式

95%信頼区間

Xbar-1.96σ/n≦μ≦Xbar +1.96σ/n

99%信頼区間

Xbar-2.58σ/n≦μ≦Xbar +2.58σ/n

ただし,Xbarは標本平均,σは母標準偏差,nは標本の大きさを表す.

 

t分布を用いた信頼区間の推定の式

危険率α%の場合の信頼区間

Xbar-t1-αs/n≦μ≦Xbar +t1-αs/n

ただし,Xbarは標本平均,t1-αt分布表の両側のαがとるtの値,sは標本準偏差,nは標本の大きさを表す.

 たとえば自由度9の場合の95%信頼区間であればt1-0.52,262, 99%信頼区間であればt1-0.53.250となる.,

95%信頼区間

Xbar-2.26s /n≦μ≦Xbar +2.26s/n

99%信頼区間

Xbar-3.250s/n≦μ≦Xbar +3.250s/n

ただし,Xbarは標本平均, sは標本準偏差,nは標本の大きさを表す.

 

[1]

ある部位の癌患者の手術後の生存期間(月数)

12, 7, 8, 22, 19, 14, 17, 5, 14, 18(10)

標本平均  13.6

標本標準偏差 5.60

母標準偏差は5.0

 

正規分布を用いた信頼区間の推定の式

95%信頼区間

13.6-1.96x5.00/10≦μ≦13.6+1.96 x5.00/10

10.5≦μ≦16.7

生存期間の平均値の95%信頼区間は10.5カ月から16.7カ月である.

99%信頼区間

13.6-2.58 x5.00/n≦μ≦13.6+2.58 x5.00/n

9.5≦μ≦17.7

生存期間の平均値の99%信頼区間は9.5カ月から17.7カ月である.

 

[2]

ある部位の癌患者の手術後の生存期間(月数)

12, 7, 8, 22, 19, 14, 17, 5, 14, 18(10)

標本平均  13.6

標本標準偏差 5.60

 

t分布を用いた信頼区間の推定の式

95%信頼区間

13.6-2.262x5.60/10≦μ≦13.6+2.262x5.60/10

9.6≦μ≦17.7

生存期間の平均値の95%信頼区間は9.6カ月から17.7カ月である.

99%信頼区間

13.6-3.250 x5.60/10≦μ≦13.6+3.250 x5.60/10

7.8≦μ≦19.4

生存期間の平均値の99%信頼区間は7.8カ月から19.4カ月である.

 

[3]

母比率の推定

ある地方で小学生200人を無作為に選んで,齲歯を調査したら137人が齲歯をもっていた.この地方の小学生の齲歯保有率pを信頼度95%で推定する.

 

N=200, r=137, 標本比pbar=r/n=137/200=0.685

信頼限界は

pbar±z(α/2) pbar(1-p)/n

=0.685±1.96 0.685x0.315/200

=0.685±0.065

求める母比率pの信頼区間は

0.620p0.750

 

[4]

母比率pの推定から標本サイズの決定

ある地方で小学生200人を無作為に選んで,齲歯を調査したら137人が齲歯をもっていた.この地方の小学生の齲歯保有率pを標本比で推定したときの誤差が5%以下である確率を95%とするための標本サイズの決定.

 サイズnの標本の齲歯保有率p0.685と推定されるので,

誤差=|p-pbar|

    =1.96x0.685x0.315/n0.05

したがってn0.685x0.315x1.962/0.052=331.5

332人以上についての調査対象者が必要である.

 

[例5]

母比率pが不明の場合の標本サイズの決定

p(1-p)=1/4-(p-1/2)21/4

誤差=1.96p(1-p)/n1.961/4/n0.05

したがってn1/4(1.96/0.05)2=384.2

385人以上についての調査対象者が必要である.

 

結語

 検定には標本数は10-17(自由度は9-16)程度あればよい.それ以上あってもt値は低下しない.5%の有意差検定の場合,たとえば標本数が10のとき自由度は9t値は2.262, 標本数が17のとき自由度は16t値は2.120である.

 また標本数が5のとき自由度は4t値は2.776, 標本数が4のとき自由度は3t値は3.182, 標本数が3のとき自由度は2t値は4.303である.標本数が2のとき自由度は1でt値は12.706である. 標本数が2ではt値がきわめて高くなるので,検定は行えない.標本数は3以上であれば検定することは可能である.

 1%の有意差検定の場合,たとえば標本数が10のとき自由度は9t値は3.250, 標本数が17のとき自由度は16t値は2.921である.有意水準を上げることによるt値の上昇は標本数を上げることによるt値の低下と比べ,その変動は,自由度3(5%の有意差検定の場合のt3.182)と4(5%の有意差検定の場合のt2.776)の変動程度である.このことは統計学的検定において5%の有意差検定あるいは1%の有意差検定が行われていることから考えると,標本数が3以上あってかつ検定ができる場合であっても,標本数が少ないと主張する人は有意差病significantosisに罹患していて,かつ病識がないと推定される.ノンパラメトリック検定での検定可能な標本数(3程度以上)や,カイ二乗検定でFisherの直接確率計算法が,標本数に0があっても算定できることなどを考慮すると,有意差病significantosisに罹患する原因は検定と推定とのアルゴリズム(算定方法)を理解していないためと推定される.

 

 

 

 

 

------------0xKhTmLbOuNdArY Content-Disposition: form-data; name="userfile"; filename="filelist.xml" Content-Type: text/xml