統計の話(2)・・・・・平均値と標準偏差について


1.母集団と標本の平均値について

 前のページで、標本から得られた平均値(xバー)と標準偏差(s)を母集団の平均値(μ)と標準偏差(δ)としてしまえと書きました。
なぜそのように考えるのかを記述します。


ここで仮定として次のように考えます。

仮定1)
母集団は5であるとします。採ってくる標本は2とします。Z−scoreで使用される標本数は2よりは多いとおもわれますが、このような仮定で考えれば、全正常脳の人の数は5名であり、そこらら無作為に2名の患者さんをとりだして、脳の平均値と標準偏差を求めたことと同じ条件になりまます。

仮定2)
脳のピクセル当たりのカウントはそれだけか知りませんが、ここでは5名の脳のカウントを20、40、60、80、10とします。
この母集団から2名のカウントを取り出してきます。


以上の仮定のもとに母集団と標本の平均値と標準偏差について考えてみます。


1) 母集団の平均値と標準偏差を計算します。

                 平均値(μ)=(20+40+60+80+100)/5 = 60

    標準偏差(δ)=SQR((20−60)^2+(40−60)^2+(60−60)^2+(80−60)^2+(100−60)^2)/5) = 28.28   


  となります。

2) 2名分の標本を取り出します。

   10通りの取り出しパターンがあります。

    20と40の2つを取り出したときを(20、40)とします。次のパターンは(20、60)、次は(20と80)・・・・・・・(80、100)となります。
    下に全ての取り出しパターンを記述します。


    (20、40) (20、60) (20、80) (20、100) (40、60) (40、80) (40、100) (60、80) (60、100) (80、100)


   ここで2人のカウントから標準脳の平均値と標準偏差を決めているのですから組み合わせのパターンでの平均を調べてみます。


                   (20、40)の時の平均は(20+40)/2 =30
                   (20、60)         (20+60)/2 =40
                   (20、80)         (20+80)/2 =50
                   (20、100)        (20+100)/2=60 
                   (40、60)         (40+60)/2 =50      ・・・・・・・平均値の組
                   (40、80)         (40+80)/2 =60
                   (40、100)        (40+100)/2=70
                   (60、80)         (60+80)/2 =70
                   (60、100)        (60+100)/2=80 
                   (80、100)        (80+100)/2=90
                   

このようにして得られた平均は30〜90までの値をとり、取り出されたペアーにより平均値も変わってきてしまい、母集団平均60とは違った値になります。じゃあもし偶然に(20、40)が取り出されたら平均は30になってしまい母集団の平均60とはかけ離れた値になってしまって困ったことになります。

ここで終わらないでもう少し奥深くみていきます。

もう一度2つの標本の平均値を記述します。
(30、40、50、60、50、60、70、70、80、90)となっています。先の説明では、偶然に(20、40)の組み合わせが選ばれて、母集団の平均値60とはかけ離れているので困ったと記述しました。これは、取り出された組み合わせの平均が30になったのは偶然の結果で必ずそうなるとは限りません。


ここで、分布と確率を考えてみましょう。


2つの取り出しかたは10組ありました。どの組み合わせが取り出されるかは不明です。いまは平均値を考えていますから、取り出される組の平均値の分布をしらべてみれば、平均値の出かたの分布がわかります。この平均値の分布の中から、私たちは1組を選ぶのですから分布を知ることが重要になります。


の平均値の組のなかで、30となるのは1つです。40も1つです。50は2つあります。60は2つ、70も2つ、80は1つ、90も1つです。
全部で10個のありましたから、この10個から平均値が30となる取り出され方は1/10です。40となるのも1/10、50となるのは2/10
60は2/10、70も2/10、80となるのは1/10、90も1/10となります。

その分布を示します。

 
                    


この結果から、平均値が30となる確率は1/10で全体からみれば10%となります。しかし、平均値60となる確立は2/10(20%)となり
ますから、母集団の平均値60と同じ値を取ってくる確率は2/10となり、平均値30が選ばれる確率より高くなっています。

いまは、60のみを考えましたが、母集団の平均値60に近い値(50、60、70)が取り出される確率を考えると 2/10+2/10+2/10 =
6/10(60%)が取り出される確率となります。

したがって、無作為に取り出される2つのサンプルの平均値の60%は、母集団の平均値に近い値となりますから、確率からみても平均値が30や40、80、90の2つのサンプルが取り出されることはまれであると考えられます。

また、この分布から平均値(s)を計算してみます。

        {(30+40+(50×2)+(60×2)+(70×2)+80+90)}/10 =600/10=60

となり、母集団の平均値(μ)=60と標本から求めた平均値の分布の平均とは一致しています。
このようなことから



       母集団の平均値は(μ)標本から取り出された平均値(s)としてしまおうと考えているのでしょう。