統計の話(7)・・・・・t-検定をするまえの準備A
1.はじめにもどり統計ついて理解します。
正規分布とは難しく書いたら確率密度関数で定義されるのですが、いまはこれについては触れませんが、あの釣鐘型をした分布だとおぼえてください。小 学校3年生の身長や体重、正常な患者さんの血圧、缶コーヒーの容量・・・・このほかにもいっぱいあります。このようなデータを全て集めてきて度数分布 表でも作って形を調べますと、みなおなじような釣鐘状の分布となってきます。この分布が正規分布と呼ばれるものです。無限大に近いデータをとってき て調べてば正規分布をなすのだと思ってください。
再度お断りします。これからの事柄は重要だと私はおもっています。長くまた説明がややこしくなるとおもいますが、私自身にわかる簡単な言葉で書きま すが、統計上ふさわしくない語句や意味を使うことがあると思いますのでご容赦願います。
2.A病院で調べた正常な脳のカウントはの平均はどうなのか?
いまA病院で正常な人のSPECT検査をして、大脳のカウントを測定したら 40カウントと50カウント、60カウントであったとします。3例だけしか検査して おりません。この3例から正常な脳のカウントを推定しなければなりませんので大変なことです。この3例は正常な脳のSPECTをおこなった患者さんの 分布から、たまたまとりだされたカウントであり、本来の正常脳のカウントはもっと多いかもしれません。なにもわからないのです。この3例のカウントが、 正常な脳のカウントの平均値を示しているのかを調べないと本当かどうかもわかりません。ではどうすればよいのでしょうか?
はじめに3例の平均値xを求めます。(40+50+60)/3=50カウントとなりました。次は標準偏差を求めます。
ここからが重要です。標準偏差を前頁で定義した標本標準偏差(分母をn−1で割った値)とするのか、おなじく定義した標準偏差(分母をnで割った値)とするのかを明確にしないと、これから調べようとする区間推定での式が違ってきて混乱します。ここでは標準偏差を標本標準偏差として計算する約束にします。
標本標準偏差sは SQR[((40−50)^2+(50−50)^2+(60−50)^2)/ (3−1)] = 10
また重要な約束がでてきます。いま私たちは3例のカウントが母集団(正常な脳の全例)の平均値に対してどの程度の値であるのかを考えようとしてたわけです。
標本から求めてきた平均値xは母集団の平均値μに対して大きくもならず小さくもならない値(母平均の不偏推定値)であるとわかっています。この説明は統計の話()でしました。母平均の不偏推定値とは簡単にいったら、母集団の平均値μを、標本から求めた平均値xで代用しても問題にならない値であるとくらいに理解してください。 全正常脳は正規分布するとの仮定にたって話を進めてきましたから、平均値xが母集団の平均値μを代用できる値であるわけですから、分布もおなじ正規分布になると思われます。
標本から求めた平均値xは母集団の平均値μを表している。
次は求めた標準標本偏差が母集団とどのような関係であるかを調べることが必要になります。全頁の表にあるように不偏分散は母分散の不偏推定値であると書きました。これも平均値と同じように母集団の分散を表してることを意味します。ですからs^2は母集団の分散であるとみなします。ここのs^2は(n−1)を分母とした値であることを確認しておいてください。したがてs^2の分布も正規分布であると思ってください。
標本から求めた分散(不偏分散)s^2は母集団の分散を表している。(分母は(n−1))
ここで勘違いしないでください。s^2は母集団の分布を表しているのですが、これの平方根である標本標準偏差sは同じ分布とはな らないそうです。数学的にはSQR(s^2)=s
なのですがこれは数式の形だけのことであり、分布は異なるそうです。
今、何を求めようとしているのかをここで確認します。A病院で求めた平均値xと母集団の平均値μの関係を知ろうとしています。
この関係を知るには、Z−scoreのところの関係式を思い出してください。
Z=(患者カウントー正常平均)/正常標準偏差・・・・・・・・(1)
これは患者カウントが正常平均より標準偏差で何個分離れているかを計るものでした。これと同じように考えてみます。
患者カウントを標本から求めた平均値x、正常平均を母集団の平均値μとして(1)式を変えてみます。
Z=(患者カウントー正常平均)/正常標準偏差 = (標本から求めた平均値xー母集団の平均値μ)/正常標準偏差
分子は言葉が変わりましたが、分母の正常標準偏差はそのままです。これをどうにかしなければなりません。
ちょっと前の説明で、標本から求めた不偏分散s^2は母集団の分散とおなじであると書きました。正常標準偏差は標本から求めた不偏分散の平方根(√)であらわされますから、(1)式は不偏分散の平方根=√s^2=s(正常標準偏差)となります。
したがって、式(1)は
Z=(患者カウントー正常平均)/正常標準偏差 = (標本から求めた平均値xー母集団の平均値μ)/s・・・・・(2)
と変形できます。
ここで問題となることが出てきました。正規分布の特長は平均値μのまわりに標準偏差σだけばらつくものであることは知っています。ところでA病院で測定した標本は、おなじ正規分布をすると考えられる母集団から取り出してきた3例の標本です。1つではありません。1つのときには、平均値μのまわりに標準偏差σだけばらつくのですが、同じ母集団から取り出した標本の平均値のまわりにはどのようにばらつくのか知っておく必要があります。
ここで登場するのが正規分布の加法性です。
3.正規分布の加法性
式を簡単にするために、標準偏差σを分散σ^2として説明します。
約束1. 母集団の平均値μ、分散σ^2から取り出された1標本の分布は平均値μと分散σ^2とおなじ分布となる。
約束2. 母集団の平均値μ、分散σ^2から取り出された2標本の分布は平均値μと分散σ^2の和の分布となる。
約束3. 母集団の平均値μ、分散σ^2から取り出されたn標本の分布は平均値μと分散σ^2をn個加えた分布となる。
この約束事から、A病院の標本について考えます。3例とも同じ母集団から取り出された標本であると考えると、3例の分布は加法性から
平均はμ+μ+μ=3×μ 分散はσ^2+σ^2+σ^2=3×σ^2
となります。
したがって標準偏差はSQR(3×σ^2)=√3×σとなり、分布は平均値は3μ、標準偏差は√3×σとなります。
しかし、いまはこの3例の平均値を求めていたのですから、3例の平均値は3μ/3=μ、標準偏差は(√3×σ)/3=σ/√3となります。
このように正規分布の加法性によって、n個の標本平均値xは母集団の平均値μのまわりにσ/√nの標準偏差で正規分布することになります。
4.再度検討してみる
Z=(標本から求めた平均値xー母集団の平均値μ)/s を考えていたのですが、正規分布の加法性からsは3個の標本平均値xは母集団の平均μのまわりにs/√3の標準偏差で正規分布すると考えて式を
Z=(標本から求めた平均値xー母集団の平均値μ)/(s/√3)
として、正規分布表から、標本平均値xと母集団の平均値μの関係を調べればいいのですが、sは正規分布でないために、正規分布表から調べることはできません。
(正規分布するのは、不偏分散s^2は正規分布しますが、数式的にs^2を平方根した標準偏差は正規分布しないのです。)
ではどうすればいいのでしょうか?
Z=(標本から求めた平均値xー母集団の平均値μ)/(s/√3) を
t=(標本から求めた平均値xー母集団の平均値μ)/(s/√3)として
この関係をグラフにすればいいことがわかります。すなはち、
t=(xーμ)/(s/√n)の関係を求めてあるのがt−分布表なのです。
ここで求まった値がt値となります。
5.結論
t=(xーμ)/(s/√n)に3標本から求めた平均値x=50、標本標準偏差s(分母をn−1としたもの)=10を代入し
t=(xーμ)/(s/√n)=(50−μ)/(10/√3)
ここで90%の信頼区間になる(信頼区間との言葉が突然でてきましたがすみません)値、両側が0.1(両側の面積が10%)となるような
tの値を求めると・・・・(t−表の説明もしていませんでしたが)
(n=3、 自由度Φ(n−1)=3−1=2) Φ=2でp=0.1のt値は±2.920でありますから
±2.920=(50−μ)/5.77
μ=50±16.85
つまり、母集団からとりだした3標本の平均値xから母集団の平均値μを推定すると、90%が33.14〜66.86カウントになるということなのです。
いま書いた信頼区間とかt−表の利用についてはどこかで記述しますけど、今回説明したかったのは下の式(t−分布)が求まるまで仮定を理解してもらうために書きました。これがt−分布やF−分布を理解してしていく上で重要なことだと思っていますので下記の式を理解しておいてください。
t=(xーμ)/(s/√n)がtー分布を示す(但し、sは標本標準偏差(分母をn−1で割った標準偏差を利用したとき)
t=(xーμ)/(s/√(n−1))・・・・・・・・・sは標準偏差(分母をnで割った標準偏差を利用したとき)