統計の話(5)・・・・・分散と標準偏差について


1.平均値からのずれを測定してみる

 最大と最小の範囲を測定することで、ばらつきを表現することはできないことを先の説明で知りました。次の方法として、それぞれの病院の測定結果の平均値を出して、その平均値からそれぞれの検査データがどれだけずれているのかを(離れているかを)計算してみます。  
 このずれは統計では
偏差と呼ばれています。先ほどのA病院のデータを例にしてデータで計算してみます。

           A病院のデータの平均値=(110+100+150)/3 = 120

 平均値からのずれを計算するのですから

                     1人目のずれは 110−120=−10 
                     2人目のずれは 100−120=−20
                     3人目のずれは 150−120=+30

 1人づつのずれを計算しましたが、これの総和で考えると計算結果は0になってしまします。ずれの総和では、データの個数が違えば総和も異なってきますから総和ではA病院データとB病院のデータを比較することはできません。では総和の平均をとって、一人あたりの平均的なすれを計算すればよいことに気づきますが、これでも結果が0になってしまします。

(付記)

 総和の平均が0になる理由

         データを3つ用意します。それを x1、x2、x3 とします。

         平均は x = (x1+x2+x3)/3・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・(1)
         総和は (x1−x)+(x2−x)+(x3−x)=(x1+x2+x3)−3x・・・・・・・・(2)
         
         (1)式より  3x=x1+x2+x3・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・(3)

         (3)を(2)に代入すると     (x1+x2+x3)ー(x1+x2+x3)となり結果は0となる。


2.ずれの絶対値または2乗を計算してみる


 先の方法で0になるのは、ずれが+側、−側になっているため総和すると0となってしまいました。+側だけで計算するためには、ずれの絶対値で計算す るか、2乗したもので計算するかの方法を採用すればよいことがわかります。

 2乗の計算は式では
              s^2={(x1−x)^2+(x2−x)^2+(x3−x)^2}/3}・・・・・・・・・・・・
分散と呼びます。

これを統計では分散(s^2)と呼んでいます。(絶対値で計算しないのは計算式|(x1−x)|のようなものとなり、数学的計算には絶対値の記号を使ったんでは複雑になるため使用されません。)

ここで重要なことに気づきます。この分散は平均値のずれの2乗を計算したものですから、ずれの距離でなく面積(s×s)すなはち大きさを
調べた結果になってしまいます。私たちは平均値からのばらつきの距離を調べたいわけですから、これを√すれば距離がでてきます。


           δ =SQR{(x1−x)^2+(x2−x)^2+(x3−x)^2}/3} ・・・・・標準偏差と呼びます。

(付記)
 ばらつきの計算ははどちらでも問題はありませんが、一般にs^2が使用されるのは、絶対値を使った計算のようにSQRの記号を用いる と計算が複雑になるからだそうです。


*注
いまの分散、標準偏差は平均するときにはデータの個数で割っていますが、私たちがこれらを標本から計算する場合にはデータの個数から1を引いた(n−1)個のデータ個数で割ることを忘れないでください。このnー1で割る意味は先にも述べましたが、統計では
自由度との言葉で示されます。