データに騙されないために-その4

さて,ここでちょっと別の実験をやってみます.同じく女性を10人連れてきて5人ずつに分け,今度は両方ともダイエット法Aを実行してもらうのです.B法でも他の方法でもかまいません.同じ方法なのですから,1ヶ月たったあと体重の変化量を計ったら二つのグループの体重減少量の平均値に違いは出ないはずですが,実際には先に述べたように様々な理由によって二つのグループ間に差が出ることになるでしょう.しかし,この実験を何度も何度も繰り返して行うと,平均値の差が0( t の値が0)となることがもっとも起こりやすく,大きく差が出る( t の値がプラスかマイナスの大きな値)ことは起こりにくいことがわかるでしょう.

実は t がどれくらいの値になるのがどの程度起こりやすいかということは完全に理論的に数式が求められていて,それをグラフにしたのが下の図の赤いライン(データ数が5+5の10個の場合)です. 横軸に t の値,縦軸に t に対する「起こりやすさ」を採っています.t = 0 で起こりやすさが最大となり,t が両側へ離れていく(差が大きくなる)についれて起こりにくくなることを表しています. 本来違いがないはずですからこれはまあ納得できる話です.
20140121_2.jpg

この曲線の形はデータ数が変わると少しずつ変化しますが,基本的には上図のように左右対称の山のような形をしています.曲線とt 軸の間の面積(曲線の下の面積)は確率を表し,全面積はちょうど 1 です.そしてたとえば5人一グループで計10人のデータを取り, t の値を計算したら 2 になったとします.するとこの曲線から,+2 の右側と -2 の左側(つまり曲線の両すそ)の面積が計算でき,それは『 t が 2 以上または -2 以下になる確率』になります.実際にはこの曲線を表す数式はかなりやっかいで,いちいち面積を求めるのも大変です.昔はあらかじめ計算した確率の値をまとめた数表を使っていましたが,今はたとえばMicrosoftのExcelでもごく簡単にこの確率を計算できるようになっています.

繰り返しになりますが,この に関する分布曲線( 分布) は,本来差はないにもかかわらず,観測されたその差が偶然によって出るのはどれくらいの確率なのかを教えてくれるものです.その確率が前述したように5%未満だと『違いがないのならそんな(確率が低い)ことは起こらない』すなわち,『起こったとしたら違いはあるはずだ』という結論を引き出すことになります.
(続く)

コメントの投稿

管理者にだけ表示を許可する

プロフィール

choby

Author:choby
最悪想定する傾向はあるでしょうね.でも石橋叩いているだけの人生はつまらない.

カレンダー
05 | 2017/06 | 07
- - - - 1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 -
最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
検索フォーム
リンク
FC2カウンター