統計学(Statistics)

I. 序論: 統計学とは何か

統計学においては、或る不確実な出来事 (affairs) に遭遇した時、それに関する数 量的データを集め、分析し、その出来事の実体を知る。「出来事の実体」を知るとは、 出来事の母集団(population) を量的に表した母集団パラメタ(母数; population parameter) を知ることに外ならない。これを知るには、 (1)記述統計学(descriptive statistics; Route 1)と (2)帰納統計学(inductive statistics; Route2) =統計的推論(statistical inference)がある。 の2方法(路)がある。 Route 1 Route 2 出発点} 母集団 Population | | | ↓--- Step 1(標本導出 Sampling) | 標本 Incomplete Sample | | (記述)--- | ↓--- Step 2 (計算 Computing) | 統計量 Statistic | | ↓ ↓--- Step 3 (統計的推論 Statistical inference) 目標点} 母数 Population Parameters この内、Route 2 が重要である。その統計的推論には、二つある。 (1)推定(Estimation): 母数値に関して、事前(a priori)に何の仮設をもたない。 ただ、それらがどんな値をとるか正確な考えを持ちたい。 (2)検定(Hypothesis testing): 母数(パラメタ)が、特定の値を示すのでない かと事前の推測している。それで、その推測(した値)が正しいか否かを決めたい。

II. 偶然の出来事の量的取扱いと確率分布

2−1。偶然変数(random variable; variate)と偶然事象(random event)

●偶然変数(偶然変数) 変数(varibale)とは、変化する数(量)である。変数 には、作意によらず、自然にバラバラと変わるものがある。この性質をもった変数を 偶然変数(random variable)という。 ●偶然事象 いま問題の偶然変数が変化するのは、「それを変化させる原因 となる出来事」があると考える。この出来事を、偶然事象(random event) と呼ぶ。 (偶然事象は、偶然試行 (random trial) が可能な事象と言うことも出来る。) ●偶然事象の(起きる)確率 偶然事象 E がn回の偶然試行で、r回生じた。 すなわち、相対度数 r/nであった。n → ∞ にすると、r/n → p に近づく。 この時、偶然事象 E が生じる確率を、 p=p(E) と定義する。 ●一般事象と基本事象 問題の事象 events を分けて行き、これ以上分けられ ない事象を基本事象 (elementary events) という。今問題にしている事象は、n個の 基本事象の集合A {A1, A2, A3, ......An} で表わす。一般の事象aは、この事象Aの部分集合(r元の基本事象集合) {A1, A2, ......Ar} で表すことができる。 ●事象、基本事象の例 コイン投げ {head 出し, tail出し} サイコロ投げ {1の目出し,2の目出し,.....6の目出し} 壷内球取り出し {1番球取り,2番球取り,.....N番球取り} 試験 {第1細部書き、第2細部書き,...第N細部書き} −−−−−−−−−−−−−−−−−−− (注) 集合としての事象 全事象 whole event I 空事象 empty event θ 余事象 complementary event not E or Ec 和事象 sum event E1 ∩ E2 積事象 product event E1 ∪ E2 背反事象 exclusive event E1 ∪ E2=θ (注終わり)

2−2。1つの偶然変数

●1つの偶然変数の期待値(平均)・分散 事象Aが |A1| |A2| |・ | |・ | |An| なる基本事象からなる。各々の基本事象が起きたとき、それぞれ {x1, x2, x3, ......xn} なる実現値を取る。このとき、 xi=X(Ai) ( i=1,2...n ) と表し、Xを事象Aの偶然変数(偶然変数;変量)という。各基本事象の生じる確率 pi=p(Ai) ( i=1,2...n ) のとき、偶然変数Xの期待値(平均)は E(X)=Σ(Xi・pi) ( i=1,2...n ) i その分散は、 σ2(X)=Σ(Xi−E(X))2pi i =Σ(Xi)2pi−E(X)2pi である。 ●偶然変数の(決める)分布 上述のような事象Aの偶然変数 Xの実現値 {x1, x2, x3, ....,xn} の内、等しいものがあり(xi=xj)、 {x'1, x'2, ....,x'r} のr個のみ値が違う事がある。そして、Xが値 x'i を取る確率 qi =p(X=x'i) ( i=1,2...r ) とする。このとき、この確率の一まとまり {q1, q2, q3........qr} を、偶然変数Xが作る(定める)確率分布 (probablity distribution made by the random variable) という。 qi≧0, ( i=1,2...r ) Σqi=1 である。 ●特性偶然変数(characteristic random variable) 事象 Eがある。 それが生じたとき、生じないときのとる偶然変数の実現値、 X(E)=1, X(Ec)=0 である。このとき偶然変数Xを、特徴偶然変数をいう。イベントEが生じる 確率、生じない時のそれが、 p(E)=p, p(Ec)=q=1−p であるとき、イベントEの 特徴偶然変数X の期待値 E(X)=1*p+0*q =p 分散は、 σ2(X)=(1−p)2p+(0−q)2q=pq である。 ●事象集合、基本偶然事象、偶然変数、期待値、分散の例 ◆コイン投げ事象 基本偶然事象={head投げ, tail投げ} 偶然変数:賞金,その実現値={50円,100円} head投げの確率={.5, .5 } 偶然変数の期待値=50*.5+100*.5=75円 偶然変数の分散=(50−75)^2*.5+(100-75)^2*.5=625円 ◆サイコロ投げ事象 事象={1の目,2の目,..6の目} 変数:サイコロの目数。その実現値={1,2,....6} 確率= {1/6, 1/6, . . . } 期待値=3.5 分散= ◆壷内球取り出し事象 基本事象={1番球,2番球,....N番球} 変数:玉に書いてある番号(どの玉か)={1,2,3,....N}

2−3。二つ以上の偶然変数

いままで、単一の偶然変数について、扱ってきた。しかし、通常、ばらばらの値が 生じるのは、複数の偶然変数が関与し、それらが総合した結果であると考えら れる。 ◆例1:一クラスの生徒の身長事象  偶然変数:身長の細部・細部の長さ(部分別) Δh1, Δh2, Δh3 . . . . Δhz 事象:それぞれの変数を規定するもの。例えば、 親からの遺伝 E1 を受ける、 親からの遺伝 E2 を受ける ・・。食事 Ei を取る、食事 Ej を取る ・・。 運動 Em する、・・ 睡眠 Ex する ・・等々。 確率={ p1, p2, p3, . . . . . pn} とするとき、その総和としての身長 h=Δh1+ Δh2+ . . .+Δhn がきまると考えられる。  そこで、ここでは、n個の互いに独立な偶然事象群 { A1 A2 ・・An } があり、それぞれ { X1 X2 ・・Xn } の偶然変数群をもち、これらがそれぞれ、確率的に生じるとき、それらの総和 Sn=X1+X2+X3.......Xn が、どのような統計的性質を示すかを問題にしよう。

2−4。二項分布(binominal distribution) B(n,p)

互いに独立な偶然事象群E {E1, E2, E3, ......En} があるとする。いま簡単にするため、それぞれが、「特徴偶然変数」 {X1, X2, ..........Xn} であるとき、すなわち Xi=1, Xic=0 (i=0,....n) を取り上げる。それぞれの事象の起きる確率は p(E1)=p(E2)=.......=p(En)=p (生じない確率 1−p) である。このとき、 Sn=X1+X2+X3.......Xn が、x となる(つまり、x回起きる)確率は、 p(Sn=x) = nCx・px(1−p)n-x となる。そのときの期待値、分散は E(Sn)=np σ2(Sn)=np(1−p) である。p、n によって、平均[p(Sn=x) の最大になる所]がきまる。分散も 決まる。 ●二項分布 B(n,p) で Sn/n、すなわち、その平均をとると、 E(Sn/n)=p σ2(Sn/n)=p(1−p) となる。 −−−−−−−−−−−−−−−−−−−−−−−−−−− (注) n E(Sn)=Σx・[nCx・px・(1−p)n−xx=0 n σ2(Sn)=Σ(x2・[nCx・px(1−p)n-x]−μ2x=0 (注終り) ●二項分布の例 ◆コインn個(n回) 基本事象:head出る 変量:全部 1 or 0 それが、生じる確率:全部 p≒0.5 x 個(回)生じる確率: ◆試験(細部分)の点数(?) 基本事象:細部分i(i=1,2,3....n)を正解する事 変量: 正解に対する点数大体同じ それが生じる確率: 全部大体 p x 個 生じる確率: ●場合の数 基本事象 Aがある。Aは生じたり(1)、生じなかったり(0)する。 (=probabilistic event)N回繰り返す(同じevent N個を同時におこす)とき、 x回(x個)生じる場合の数: nCx <Prog 2-1> 階乗、順列、組み合わせの計算:20個のときの場合の数 20 C 0=1 20 C 1=20 20 C 2=190 20 C 3=1140 20 C 4=4845 20 C 5=15504 20 C 6=38760 20 C 7=77520 20 C 8=125970 20 C 9=167960 20 C 10=184756 20 C 11=167960 20 C 12=125970 20 C 13=77520 20 C 14=38760 20 C 15=15504 20 C 16=4845 20 C 17=1140 20 C 18=190 20 C 19=20 20 C 20=1 <Prog 2-2> 二項分布のエミュレート:起きる確率が大となると、確率分布の最大が、よく起きる 方に移動する。 Total events =20 起きる確率p =0.20 0.40 0.60 0.80 生起回数 その確率 ( 0) 1.2 0.0 0.0 0.0 ( 1) *5.8 0.0 0.0 0.0 ( 2) *13.7 0.3 0.0 0.0 ( 3) *20.5 1.2 0.0 0.0 ( 4) *21.8 3.5 0.0 0.0 ( 5) *17.5 *7.5 0.1 0.0 ( 6) *10.9 *12.4 0.5 0.0 ( 7) *5.5 *16.6 1.5 0.0 ( 8) 2.2 *18.0 3.5 0.0 ( 9) 0.7 *16.0 *7.1 0.0 (10) 0.2 *11.7 *11.7 0.2 (11) 0.0 *7.1 *16.0 0.7 (12) 0.0 3.5 *18.0 2.2 (13) 0.0 1.5 *16.6 *5.5 (14) 0.0 0.5 *12.4 *10.9 (15) 0.0 0.5 *7.5 *17.5 (16) 0.0 0.0 3.5 *21.8 (17) 0.0 0.0 1.2 *20.5 (18) 0.0 0.0 0.3 *13.7 (19) 0.0 0.0 0.0 *5.8 (20) 0.0 0.0 0.0 1.2 mean 4.0 8.0 12.0 16.0 sgm^2 3.2 4.8 4.8 3.2 <Prog 2-2D> 二項分布のエミュレート:total events が増すと、分布が左右対照に近くなる。 起きる確率p =0.40 総事象数= 5 10 15 20 ( 1) 25.92 4.03 0.47 0.05 ( 2) *34.56 12.09 2.19 0.31 ( 3) 23.04 21.50 6.34 1.23 ( 4) 7.68 *25.08 12.68 3.50 ( 5) 1.02 20.07 18.59 7.46 ( 6) 11.15 *20.66 12.44 ( 7) 4.25 17.71 16.59 ( 8) 1.06 11.81 *17.97 ( 9) 0.16 6.12 15.97 ( 10) 0.01 2.45 11.71 ( 11) 0.74 7.10 ( 12) 0.16 3.55 ( 13) 0.03 1.46 ( 14) 0.00 0.49 ( 15) 0.00 0.13 ( 16) 0.03 ( 17) 0.00 ( 18) 0.00 ( 19) 0.00 ( 20) 0.00 mean 2.00 4.00 6.00 8.00 sgm^2 1.20 2.40 3.60 4.80

2−5。正規分布 normal or Gaussian distribution N(μ,σ2)

正規分布では、標準化した偶然変数の確率密度関数は 1 u2 p(u) = ───── exp(− ───) √2π ̄ 2 である。その平均、分散は E(u)= 0 σ2(u)= 1 ∽ ∫ p(u)du = 1 −∽ ●二項分布 B(n,p) との関係。二項分布を示す偶然変数xを標準化 、すなわち xi−μ xi−np u = ───── = ────────── σ √np (1−p) ̄ とすると、(ただし、平均μ、標準偏差σ=√σ2 ̄ ) 1 E(u)= ───────── ・ (E(Sn)−np) = 0 √np (1−p) ̄ 1 σ2(u)= ─────── ・ σ2(Sn) = 1 np(1−p) p(u)=nCu・pu(1−p)n−u となる。p=一定で、n → ∞ とすると、u は連続となり、 1 u2 p(u) = ───── exp(− ───) √2π ̄ 2 と正規分布となる(証明15−4)。正規分布は、変数Xが、多数の互いに独立な原因の 和として生じるとき、現れる分布である。 −−−−−−−−−−−−−−−−−−−−−−−−−−−− (注)一般に正規分布の確率密度関数は 1 1 x−μ f(x)= ───── exp{ − ──(────)2 } σ√2π ̄ 2 σ となる。 (注終り) ●正規分布の確率密度関数 平均から±1σ → (2/3) 68.3% ±2σ → (1/20) 95.4% ±3σ → (1/400) 99.7% ---------------- 99% ---------------- ---------- 95% ---------- | ---- 68% ---- 50 + | | | 40 + | | * | * 30 + * | * | * | * 20 + * | * | * | * 10 + * | * | * | * 0 +─* ──+───+───+───+───+── *── magnitude x | | | | | | | Daviation 3σ 2σ σ σ 2σ 3σ from mean

2−6。その他の偶然変数分布

●指数分布 7ー2参照。 ●ポアソン分布 7−3参照。 ●ワイブル分布 7−4参照。 ●ガンマ分布 7−5参照。

2−7。偶然変数分布(雑)、その他

●偶然変数の和の分布 それぞれが、正規分布 N(μ1,σ21)、 N(μ2,σ22)を示す独立なランダム変数 { X1, X2 } がある。この時、偶然変数 X=C1・X1 + C2・X2 は、 N(C1・μ1+C2・μ2、 C1・σ12+C2・σ22) となる。 ●偶然変数の算術平均の分布 何れも、正規分布 N(μ,σ2)を示す独立な ランダム変数 { X1, X2, ............Xn } がある。このとき、その算術平均 Σ Xi X= ──── n は σ2 N(μ,───) n に従う。 --------------------------------------------- (注)偶然変数 X1,X2,X3.....Xn の算術平均は X1+X2+X3+......+Xn X=───────────── n は、 μ μ μ σ2 σ2 σ2 N(──+──+...+──, ──+──+...+──) n n n n n n nσ2 σ2 = N(μ,───)= N(μ,───) n2 n となる。 (注終わり) ●大数の法則 互いに独立なn個の偶然変数 {X1, X2........Xn} がある。それぞれの期待値は、 E(X1)=E(X2)=.......=E(Xn)=m 分散は、 σ2(Xi)≦σ2 (i=1,2,.....n) とする。このとき、その平均の偶然変数 X1+X2+......Xn X = ──────────── n は、n → 大 とすると、 p(|X − m|<ε) → 1 とすることが出来る。すなわち、Xの期待値は、 E(X) = m となる。分散は、 σ2 σ2(X)= ─── n となる。 ●ベルヌイの定理 大数の法則の特殊の場合。互いに独立なn個の事象群 {E1, E2, E3, ......En} がある。それぞれの事象の起きる確率は p(E1)=p(E2)=.......=p(En)=p (生じない確率 p−1) いま、「r個が生じる」事象に対応する偶然変数r/nを定義する。すると、この 変数は、nを大とすると │ r │ p(│── − p│<ε) → 1 n → 大 │ n │ とする事が出来る。すなわち、 r E(──)= p ( n → ∽ ) n である。なぜなら、 r X1+X2+......Xn ── = ──────────── n n であるからである。 ●中心極限定理 互いに独立なランダム変数 { X1, X2, ............Xn } がある。それぞれの期待値、分散が、 E(X1), E(X2), ......., E(Xn) σ2(X1), σ2(X2), ......., σ2(Xn) のとき、 {X1-E(X1)} +{X2-E(X2)} +......+{Xn-E(Xn)} X =─────────────────────── √σ2(X1)+σ2(X2)+......+σ2(Xn) ̄ の分布は、nが大きくなると、X1, X2, ......Xn の分布の形にかかわらず、正規 正規分布 N(0,1)に近づく。 ●ランダム変数の和の分布 独立なランダム変数 { X1, X2, ............Xn } がある。それぞれが、 E(X1)=E(X2)=.......=E(Xn)=m σ2(X1)=σ2(X2)=.......=σ2(Xn)=V なる同一の分布を取っている。このとき、ランダム変数 (X1-m)+(X2-m)+.....(Xn-m) (X1+.....Xn) - nm Y = ────────────── = ─────────── √V+V+V+.... ̄ √nV  ̄ は、n → 大のとき、中心極限定理から、正規分布N(0, 1)に近づく。それで、 ランダム変数の和変数 X=X1+X2+X3.......Xn は、N(nm, nV)に近づく。この理由から、ランダム変数は、一般に正規分布を示すこと が多い。 (例1)二項分布で、n大とすると、 N(np,np(1-p) ) に近づく。偶然変数 X が 1 を取る確率をp、0 を取る確率(1−p)。n回独立 試行を行った。中心極限定理から、 {X1-p} +{X2-p} +...+{Xn-p} (X1+X2+...+Xn)−np y=───────────────── = ───────────── √p(1-p)+p(1-p)+.....+p(1-p) ̄ √np(1-p) ̄ nを大とすると、N(1, 0)に近づく。いま、 X=X1+X2+......+Xn とすると、 X −np y= ──────── √np(1-p) ̄ である。これは、X が N(np,np(1-p) )に近づく事を意味する。 (例2)ポワソン分布で期待値λが大になると、N(λ,λ)に近づく。 独立な偶然変数 {X1, X2} それぞれ期待値、λ1, λ2 のポワソン分布。このとき、 X=X1+X2 は、期待値 λ=λ1+λ2 のポワソン分布を示すことが知られている。それで、中心極限定理から、λが大 になる −>X の数が増えることである −>N(λ,λ)に近づく。

III. 統計分析の基礎1:標本分布

3−1。正規分布をする標本分布

確率密度関数 1 1 x−μ p(x)= ────── exp(− ── (────)2 ) σ √2π ̄ 2 σ 平均 x−μ E(x)= ───── σ 分散 σ2(x)=σ2 分布関数 1 x 1 t−μ P(t)= ────── ∫ exp(− ── (────)2 ) σ √2π ̄ t=-∞ 2 σ <Prog 3-1> X(σの何倍)を入力し、分布関数G(範囲 0-1)を得るプログラム。 <Prog 3-2> 分布関数 P(範囲:0-1) になる X(σの何倍)を「はさみ打ち法」によって 得るプログラム。 <図3−1> 確率紙に書かれた累積正規分布Fn(x)のグラフ ●標本平均の分布 N(μ,σ2)を示す母集団から、n個の標本 { X1, X2, ............Xn } が得られた。この標本平均 ΣXi X= ──── n は、 σ2 N(μ, ───) n に従う。もし、母集団が、正規分布でなくとも、平均μ、分散σ2ならば、n大の時、 標本平均の分布は、 σ2 N(μ, ────) n に近くなる。 ------------------------------------------- (注)(平均)標準誤差 Standerd error of the mean SEM (precision of means; spread of means) 一つの標本内の測定値のバラツキは、標準偏差で表す。n個の標本の平均の バラツキは、標準誤差 σ2 SEM = √─── ̄ (資料が30以下のときは、nのかわりにn−1) n であらわす。 (注終り) ●2つの母集団からの標本の標本平均の差 二つの母集団 N(μ1,σ21), N(μ2,σ22) がある。それぞれから、n1,n2個の大きさの標本を抽出する。各々の標本平均x1, x2。標本平均の差 x1−x2は、 σ21 σ22 N(μ1−μ2,──── + ────) n1 n2 に従う。 ●比率の分布 毎回出現確率pで起こる現象が、n回の試行中、k回起こる 確率は二項分布 B(n, p)に従う。nが大となると N(nP,nP(1-P))に近づく。 したがって、標本出現率k/nは、近似的に、 P(1-P) N(P, ─────) n に従う。 (例)銅貨投げで、表の出る確率 P=1/2であるとき、n=100回試行して表の出る出現率 の分布は、 1 1 ── x ── P(1-P) 1 2 2 1 1 N(P, ────)=N(──, ─────── ) =N( ──, ───) n 2 100 2 400 である。 ●比率の差の分布 一つの母集団におけるある事象の毎回出現率がPで、 これからn個の大きさの標本を得たときのこの事象の出現率をpとする。 また、他の母集団のこの事象の出現率がQで、これからm個の標本を得とときの 標本出現率をqとする。p−qの分布はn,mが大きいとき、 P(1-P) Q(1-Q) N( P-Q, ──── + ───── ) n m に従う。 ●正規分布の例:加算平均 生体現象の波形には心電図のように非常に はっきりした波形もあるが、脳波の誘発電位のように記録波形を見ても、脳波に かくれてどこにそれが現れているかわからない不明確な場合がしばしばある。平均加算 はこのような波形を明瞭に取り出す方法の一つである。 誘発電位は、何等かの刺激(たとえは光、音、電気)に応じて、大脳皮質に現れる 電気的な反応である。ただ、これを頭皮上からとる場合、振幅が極めて小さく (数μV)、高振幅の脳波にかくれて検出しがたい。たとえ、周波数帯域フィルターを 使って脳波と誘発電位を弁別しようとしても、両者間に大きな差がないために分離する ことはむづかしい。この困難を解決するために現れたのが、Dawsonの重ね合わせ法 である。この方法は、刺激時点を原点にとり、それに続く毎回の反応を多重記録する。 <図3−2> 平均加算法も同様で、反応はと脳波が混在している時に、加算によって反応波が 明瞭にする方法である。この方法も同じくDawsonによってはじめられた。図3-2の ように、刺激時点を同一時相にとって、それに続く毎回の波形を加算する。刺激 で誘発する反応波(信号波)は、加算回数だけ大きくなるのにして脳波のようなラ ンダムに現れる成分(雑音)は、平均化されて大きくならない。 <図3−3> 誘発電位の振幅 S、脳波などのランダムに現れる雑音成分の振幅 N とすると、 n回加算の結果信号成分は nS になるのに対し、脳波のそれは √nNになる。もと のS/Nとn回加算後の反応対脳波の比 (S/N)n = √n (S/N) が成立する。それで、雑音に埋もれた記録波形が明瞭に見えるようになる。 ●Hastingの近似 誤差関数 2 x φ(x)= ───── ∫ exp( -x2 ) √π ̄ u=0 1 ≒ 1− ────────────────────────── (1+a1x+a2x2+a3x33+a4x4+a5x5+a6x6)16 a1=.0705230784 a2=.0422820123 a3=.0092705272 a4=.0001520143 a5=.0002765672 a6=.0000430638 と近似できる。正規分布関数は、 x x G(x)= ∫p(u)du = 0.5 ± ∫p(u)du u=−∽ u=0 1 X = 0.5 ± ─── φ(────) 2 √2 ̄ ただし、x≧0 ならば+、x<0 ならば−。

3−2。χ2分布

●変数の二乗の分布 xの分布が正規分布 N(0,1) ならば、 χ=x2 の確率密度は 1 1 − ── − ── 1 2 2 f(x)= ───── x ・ e (x > 0) √2π ̄ = 0 (x ≦ 0) ●平方和の分布:χ2分布 正規分布 N(0,1) に従う母集団。独立に大きさnの標本 {x1, x2, x3 . . . . . xn } を得る。この標本の平方和 χ2=x12+x22+x32 . . .+xn2 の分布(密度関数)は (n/2)-1 -(χ2)/2 fn(χ2) =C・(χ2) e fn(χ2)を自由度nのχ2分布という。C は、F(∽)=1 になるようにきめる。 分布の特性は自由度で決まる。0 − +∞ に分布する。 ---------------------------------------------- (注) 1 C= ────────── n/2 n 2 Γ(──) 2 である。ここでΓ(%)は、ガンマ関数 ∽ -x s-1 Γ(s)=∫ e ・x dx x=0 =(s-1)(s-2)・・Γ(1≧ s-n ≧0) (s>0) である。 (注終り) ●χ2分布の分布関数 χ2 F(χ2) = ∫ fn(t) dt t=0 期待値、分散は E(χ2)=n σ2(χ2)=2n である。 ●χ2分布の性質1 互いに独立な変量x1 とx2 があり、x1 が自由度 n1 、x2 が自由度n2 のχ2 分布を示すとき、 x=x1+x2 は、自由度 n=n1+n2 のχ2分布に従う。 ●χ2の分布の性質2 母集団 N(μ, σ2) から抽出した、互いに独立の n個の大きさの標本 {x1, x2・・・xn} の標本平均、標本分散は、 _ 1 n x = ── Σ xi n i=1 1 n _ s2 = ── Σ (xi −x)2 n i=1 である。すると、 n  _ √─── ̄・(x−μ) σ2 は N(0,1)に従い、 n ─── s2 σ2 は自由度(n−1)のχ2 分布に従う。 ●Wilson-Hilfertyの近似 自由度nのχ2分布において、nが大きいとき (n≧4であれば実用的に使用できる) χ2 ( ─── )1/3 n は、正規分布 2 2 N( (1− ─── ), ─── ) 9n 9n に近似的に従う。この関係をつかって、分布の「上側確率域」に相当するχ2分布の 値を求める事が出来る。 │ fn(χ2)│ * * │ * * 頻 │ * * 度 │ * * │ * * 上側確率域 │ * * | │ * │// * │* │/////// * ────────────────────────── 0 χ2o χ2値 正規分布N(0, 1) があり、その分布関数G(x)=P となる x の値を xp とする。 また、自由度nのχ2分布があり、分布関数F(χ2)=P となるχ2の値をχp2とする。 このとき、Wilson-Hilfertyの近似から χp2 2 2 (─── )1/3 = (1− ─── ) + xp √─── ̄ n 9n 9n である。それで、 2 2 χp2 = n{ (1− ─── ) + xp √─── ̄ }3 9n 9n これから、分布上側の確率(p=1−P)の χ2分布の値 χp2 が求められる。 この近似は、自由度 n≧4であれは、小数点下1桁くらいまでは正しい。 <Prog 3-3> Wilson-Hilferty近似による、自由度n、分布上側確率 Pから、χ2値を求める。

3−3。F分布

●変数の比の分布:F−分布 互いに独立な偶然変数 X, Y がそれぞれ 自由度 n1, n2 のχ2分布に従っている。いま比 X/n1 y = ───── Y/n2 は、F分布: f(n1, n2 | y) n1+n2 n1 Γ (───) Γ(──)n1/2 2n n2 n1 = ──────────── y(n1/2)-1 (1+──y)-(n1+n2)/2 n1 n2 n2 Γ(──) Γ(──) 2 2 を作る(証明略)。これを自由度 n1, n2 のF分布という。自由度n1, n2 によって その特性が定まる。 ●分布関数 y F(y)=∫ f(n1,n2 | t) dt t=0 ●F分布の期待値と分散 n2 E(y) = ────── n2 − 2 2(n1+n2−2)n22 σ2(y) = ───────────── (n1−2)2(n2−4)n1 ●ある定数yoよりyが大きい確率 ∞ α=Pr {y>yo} =∫ f(n1,n2| y)dy =1−F(yo) y=yo である。yo は自由度n1,n2およびαから求めることができる。これは yo=f(n1, n2, α) と書き表す。 ●F分布とχ2分布の関係 χ2(n,α) = n・f(n, ∽, α) ●F分布とt分布の関係 t(n, α) =√ f(1, n, α) ̄ ●F分布と正規分布の関係:Paulsonの近似 1 2 (1− ───)f1/3 − (1− ───) 9n2 9n1 u=───────────────── 2 2 ( ──── f2/3 + ────)1/2 9n2 9n1 Fは自由度n1、n2 のF分布。n1, n2が大きいときは、u は正規分布 N(0, 1)に近似的に従う。n1≧4, n2≧4で、Fは小数点下1桁くらいまで正しい。 それで、 ω1=2/(9n1), ω2=2/(9n2), x=u, y=f1/3 とおけば、 (1-ω2)y−(1-ω1) x= ─────────── √ω2y^2+ω1 ̄ x^2ω2y^2+x^2ω1=(1−ω2)^2y^2−2(1−ω2)(1−ω1)y+(1−ω1)^2 {(1−ω2)^2−x^2ω2}y^2−2(1−ω2)(1−ω1)y+(1−ω1)^2−x^2ω1=0 A =(1−ω2)^2−x^2ω2 B =-2(1−ω2)(1−ω1) C =(1−ω1)^2−x^2ω1 Ay^2 +By+C = 0 の二次方程式を解き、f=y3 から、f を求める。 <Prog 3-4> 自由度 n1, n2, 危険率α を与えてf(n1,n2,α) を求めるサブルーチン。

3−4。Studentのt分布

変数xが正規分布N(0, 1) に従う。yn は自由度nのχ2分布に従う。 互いに独立のとき x t= ───── √yn/n ̄ の密度関数は n+1 Γ(───) 2 t2 fn(t)= ────────(1+ ───)-(n+1)/2 n n √nπ ̄ (──) 2 で与えられることが知られている。これを、自由度nのt分布とよぶ。t分布は 自由度nだけで、その特性を表す。平均値が0で、密度関数は原点に対して 左右対称、正規分布にかなり似ている。 ●t分布の期待値、分散は E(t)=0 V(t)=n/(n-2) ●t分布の分布関数 x P(x)=∫ fn(t) dt t=-∞ である。 ●t分布のおいて、変数tが、│t│>to (但しtoは正の定数)となる確率 ∞ Pr (|t|>to)=2* ∫ fn(t) dt=2*( 1−P(to) ) t=to である。 * * | * * |↑ * * | P * * | * * |頻 * * |度 * * || | || * ─* ───────────────────*── -|to| 0 |to| t→ 自由度n、確率 Pr=α のときの to をt(n,α)と書く。それで、 Pr =2 * { 1−P(t(n,α)) } したがって、 1 P(t(n,α))= 1 − ── Pr 2 t分布は、自由度n>30 で N(0, 1)とみなしてよい。そこで、P から、 t(n,a)がえられる。 <Prog 3-5> t(n,α)を求めるプログラム

IV. 統計分析の基礎2:変量の整理と概観

4−1。度数分布

変量の分布の概観を得るため、ビン巾ごとの度数分布(ヒストグラム)を作る。 <Prog 4-1> 度数分布の作成:下記のような2項目6個の変量がある。第一項目のデータを つかって、ヒストグラムを作る。 ┌───────┐ │6 2 │← 6データ、2項目 │ 3. 2.8 │ │ 6. 5.0 │ │ 8. 1.0 │ │ 2. 4.4 │ │ 5. 5. │ │ 15. 5. │ │0 1 15 1 │← 項目、データの最低値、最高値、レンジ巾 └───────┘ その結果: ┌────────────────────┐ │Row= 0 μ= 6.50 σ= 4.27 │ │ │ │ x u n Sn % │ │ │ │ 〜 1.00( -1.29) 0 0( 0.0)│ │ 〜 2.00( -1.05) 1 1( 16.7)│ │ 〜 3.00( -0.82) 1 2( 33.3)│ │ 〜 4.00( -0.59) 0 2( 33.3)│ │ 〜 5.00( -0.35) 1 3( 50.0)│ │ 〜 6.00( -0.12) 1 4( 66.7)│ │ 〜 7.00( 0.12) 0 4( 66.7)│ │ 〜 8.00( 0.35) 1 5( 83.3)│ │ 〜 9.00( 0.59) 0 5( 83.3)│ │ 〜 10.00( 0.82) 0 5( 83.3)│ │ 〜 11.00( 1.05) 0 5( 83.3)│ │ 〜 12.00( 1.29) 0 5( 83.3)│ │ 〜 13.00( 1.52) 0 5( 83.3)│ │ 〜 14.00( 1.76) 0 5( 83.3)│ │ 〜 15.00( 1.99) 1 6( 100.0)│ │ 〜 0 6( 100.0)│ └────────────────────┘

4−2。基礎統計量

●平均値 標本 { x1 x2 .....xn } があるとき、 _ ΣXi X = ──── n を平均値という。  平均値の意味:測定値には真の値より大なものと小なものが現れる。個々の 測定値Xiの真の値Xからの偏差dの総和は0であるはず。 Σd =Σ(Xi−X) =ΣXi−nX =0 ΣXi ∴ X = ──── n この意味で「平均」は意味をもっている。 ●偏差(deviation form mean)・二乗偏差 ランダム変数の実現値と期待値 (平均値)の差。その二乗。 ●偏差平方和(sum of sequares) n S = Σ(Xi−X)^2 = Σ(Xi^2) −nX^2 i=1 偏差平方和の意味:真の値Xから測定値が如何にバラつき。単に、偏差の総和 では、Σd=0 であるので指標とならない。Σ|d|を使用することも出来るが、普通 は偏差平方総和を使用する。偏差平方和が最小となるようなXの値は、平均である。 すなわち、 d S ───── = −2 Σ(Xi−nX )=0 d X ΣXi X = ──── n である。 ●分散 variance σ2 Sn(or σ2)=S/n ●標準偏差 standard deviation σ 普通、平均±偏差 と表すから、両者のdimensionを合わせた方がよい。それで σ=√Sn/n ̄ <Prog 4-2> 基礎統計量:平均値、偏差、偏差平方和、分散、標準偏差、相関係数の計算プログラム ●変数の標準化 (Normalization) 上記標本を xi−μ u = ───── σ とし(ただし、平均μ、標準偏差σ=√σ2 ̄ )、 E(u) =0 σ2(u) =1 とすること。 ●2変量と相関係数 9−4参照。

V. 推定・検定・分散分析

5−1。推定(Estimation)

推定とは、母数値に関して、事前(a priori)に何の仮設をもたない。ただ、それらが どんな値をとるか正確な考えを持ちたいときにつかう。 ●有意テスト(Test of Singificance) 或特定の値が normal variation か、 或はTruly abnormal(or pathological enviroment) の表現の結果かを調べる。 或値がどれだけ平均から偏っていれば異常か。また、どれだけ近ければ正常かは 任意に決められる。生物学では、normal chance deviation と significant difference の線を2%にとる。即ち100回のうち2回、或はそれ以下きり出せない ような値は 有意に異なる(significantiy different) とする。 与えられた deviation が正規分布におけて生じる確率(normal deviate) は C=(x−μ)/σ である。Normal deviate(C) とそれが起きる確率(P)は、次の通りである。 ┌──────────┬──────────┐ | (C) (P) | (C) (P) | ├──────────┼──────────┤ | 0.13 0.9 | 1.64 0.2 | | 0.25 0.8 | 1.96 0.1 | | 0.39 0.7 | 2.33 0.05 | | 0.52 0.6 | 2.58 0.02 | | 0.67 0.5 | 3.29 0.01 | | 0.84 0.4 | 3.89 0.001 | | 1.28 0.3 | | └──────────┴──────────┘ <例1> 鉄の血中濃度の多数の人間の平均は 50mg/100ml でその標準偏差は 4.5mg/100ml。ある人の血中鉄濃度が、34mg/100ml のとき、この値は異常か? x−μ 50−34 16 C=─────=─────=────=3.5 σ 4.5 4.5 C=3.5 が正規分布の一部となる確率は、0.001 以下。従ってこの値は 異常。 ●信頼限界(confidence limits) 正規分布の母集団あたえられた%を含む 上限と下限の値(極限の境界)をいう。この例題での98%の信頼限界(98% を含む) のは±2.33σ。従って、 (50±2.33) *4.5= 39.5〜60.5mg/100ml がこのrange。

5−2。検定(Hypothesis testing)の考え方

検定は、母数(パラメタ)が、特定の値を示すのでないかと事前の推論している。 それで、その推測(した値)が正しいか否かを決めたい時につかう。 仮定を立てる。特に否定的な仮定:帰無仮説(null hypothesis)。これを、操作 によって否定する。すると、帰無仮説の逆が「真」となる。  間違う2つの可能性あり: 第1種の間違い(error of the first kind):「仮説が正しいのに、捨てる」。 第2種の間違い(error of the second kind):「仮説が正しくないのに、捨てる」。

5−3。χ2(単一標本)検定(one sample test)

或母集団があるとき、実測した標本がこの母集団に属するか否かの検定。 いま、n個の実測値 X1, X2・・・・・・Xn ・・・・・・・・・(1) が得られた。これを度数分布表に整理。 偶然変数 実測度数 理論度数 0 fo Fo 1 f1 F1 ・ ・ ・ ・ ・ ・ k fk Fk 期待される母集団から、n個の標本を取り出した時の理論度数Fiとする。 (fi−Fi)2 χ2=Σ ───── Fi χ2 は自由度k-1 の χ2 分布となる。Fi<10 のときは隣の度数と合併。 χ2 > χ2(k-1, 5%) のとき、この標本は、母集団に5%の危険率で属さない。 ●例1 Coin tossing。100回投げて60回。次の結果を得た。これは、 chance か? ┌──┬─────┬─────┐ | | 実測度数 | 理論度数 | ├──┼─────┼─────┤ | 表 | 60 | 50 | | 裏 | 40 | 50 | └──┴─────┴─────┘ 自由度=2-1=1 χ2=(60-50)2+(40-50)2=2 χ2(1, 5%)=3.841 χ2(1, 1%)=6.635 それで、この変動は、チャンスであると結論。 ●例2 Six-side figure があり、なげると、1-6 がでる。60回の試行。 ┌──┬───┬───┬───┬─────┬───────┐ | | fi | Fi |fi-Fi |(fi-Fi)2 | (fi-Fi)2/Fi | ├──┼───┼───┼───┼─────┼───────┤ | 1 | 22回 | 10 | 11 | 121 | 12.1 | | 2 | 8回 | 10 | 2 | 4 | 0.4 | | 3 | 11回 | 10 | 1 | 1 | 0.1 | | 4 | 10回 | 10 | 0 | 0 | 0.0 | | 5 | 4回 | 10 | -6 | 36 | 3.6 | | 6 | 5回 | 10 | 5 | 25 | 2.5 | └──┴───┴───┴───┴─────┴───────┘ χ2=21.0 自由度 6−1=5 χ2(5, 5%)=9.488 χ2(5, 2%)=13.277 χ2 の値の方が大。したがって、チャンスではない。 ●例3 円形馬場レースで、ポスト・ポジション1は、馬場の内側柵に近い。 8は一番外にある。競馬ファンは、このポジションによる損得があると主張する。 レースの結果を分析して、ポジションの影響があるかを検定する。 (a) 帰無仮定Ho: どの位置から出発した勝馬の数に差異はない。それで、 観察される差異は f1=f2=f3・・・・f8 という、一様母集団(rectangular population) からのランダム標本にみられる、 バラツキにすぎない。 (b)統計検定: 我々は1標本(N=144 18日間の優勝者の總数)のデータ から推測した母集団と比較する。検定は、離散的な categories(8つの post position)で期待された頻度と観察された頻度を比較する。 ┌─────┬──┬──┬──┬──┬──┬──┬──┬──┬───┐ | 柵 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |total | ├─────┼──┼──┼──┼──┼──┼──┼──┼──┼───┤ | 実測度数 | 29 | 19 | 18 | 25 | 17 | 10 | 15 | 11 | | | 理論度数 | 18 | 18 | 18 | 18 | 18 | 18 | 18 | 18 | 144 | └─────┴──┴──┴──┴──┴──┴──┴──┴──┴───┘ df=k−1=7 χ2=16.3 (c)標本分布:χ2の標本分布。 有意水準:α=0.01とする。棄却域:Ho は   χ2分布が df=7 の Ho下で生じたとき、確率がα=0.01以下のとき捨てる。 (d)決定:Hoである確率 χ2(7,95%)=2.03 χ2(7, 5%)=14.07 χ2(7, 2%)=16.62 χ2(7, 1%)=18.48 それで、5% 危険率ではチャンスではない。1% 危険率ではチャンスの可能性 もあると結論。 ●例4 冠状血管栓塞患者を 115 人は治療せず。3年後に14人生き残った。 他の115 人は薬で治療した。生き残ったのは、80人。この薬は有効か。 この問いに対して、帰無暇説をつかう。今このtreatしたことが無効ならば、m人 生き残るとする。すると、 df=1 χ2=(80-m)2/115+(14-m)2/115>18.9 χ2(1, 5%)=3.841 それでこれは、チャンスではない。

5−4。F−検定法、分散分析法(実験計画法)

●2標本平均の差の有意差の検定 F−分布を仮定。同一母数σ2をもつ 正規母集団からとった2組の標本 グループX {x1, x2,・・% xm} グループY {y1, y2,・・% yn}  まず、仮説Hとして、「母集団X、Yの母分散が同じ」とする。それで、不変分数 の比をもちいる。 _ 1 _ 1 x=── Σ(xi) y=── Σ(yi) m n 1 m _ ux2=──── Σ(xi−x)2 m−1 1 n _ uy2=──── Σ(yi−y)2 n−1 ux2、uy2 の大きい方を分子として pr=ux2/uy2 を求める。自由度 n1=mー1、n2=n−1のF分布。 F(m-1, n-1, α)=Fo のFoを求める。F>Fo ならば、危険率αで、X,Yに差あり。  F<Fo ならば、仮説Hとして、「母平均が同じである」とする。次を続ける。 _ _ (x−y)^2 mn F=────── ・ ──── w2 m+n ただし、 (m−1) ux2 +(n−1)uy2 w2= ───────────────── m+n−2 を計算する。 F(1, m+n-2, 5%)=Fo を求める。F>Fo のとき、5%危険率で差あり。F<Fo のとき、差に意味なし。 ●例1 A、B群の兎の箱に入れてからテコを押すまでの時間(秒)は、 それぞれ A群:0.98, 1.08, 1.01, 1.05, 1.11, 1.04, 1.07, 1.03, 1.12 B群:0.92, 1.06, 1.03, 0.99, 0.96, 0.99, 0.97, 1.02, 0.95 であった。A群とB群に違いがあると判断してよいか。 _ 11043401050 119384 x=105.9 ux2= ───────= ───── =1326.4 9 9 _ 879650889 87076 y=88.9 uy2= ───────= ───── =9675 9 9 それで、F=1.37 F(9-1, 9-1, 0.05)=3.18=Fo F<Fo 9*13264+9*9675 206451 w2= ───────── = ─────=11469.5 18 18 16.1^2 100 1296 F=────── ・ ────=────=0.11 11469.5 20 11469 自由度は F(1, 18, 0.05)=4.41 F<Fo であるので、有意差なし。 ●3標本以上の平均値の差の有意検定( 一元配置法) 3つ以上の標本 →列 j | 1 2 3 4 5 6 | 和 |単位数|平均 ───────────────────────────── 1 | d11 d21 d31 d41 d51 d61 | T.1 | 6 | x.1 ↓ 2 | d12 d22 d32 d42 | T.2 | 4 | x.2 行 3 | d13 d23 d33 d43 d53 | T.3 | 5 | x.3 i 4 | d14 d24 d34 | T.4 | 3 | x.4 ───────────────────────────── | T | 18 | x 間の有意検定。 そのためには、次の値を出す。 全変動 □=Σ(dij−x)2 ij 4 行間変動 △=Σ 各行単位数 (行平均 − 全平均)2 i=1 4 行内変動 ○ =Σ { Σ(dij−x.j) } i=1 j (全変動=行間変動+行内変動) つぎに、分散分析表を作る。 変動 自由度 不偏分散 行間 △ 4-1   △/(4-1) △/(4-1) 行内 ○ 18-4 ○/ (18-4) F= ────── 全変動 □ 18-1 ○/(18-4) F(4−1, 18−4, 0.05)=Fo  F>Fo のとき、5% の危険率で列間差あり。 ●例1 3匹のウサギA1、A2、A3の5分間のテコ押し回数は次のようで あった。ウサギのテコ押し回数間に差があるか。 A1 22 22 18 23 20 A2 16 16 26 23 A3 25 16 11 5 まず、各値から、20を引き、簡単にする。 │ 和 │単位数│ 平均 ─────────────────────────── A1 │ 2 2 -2 3 0 │ 5 │ 5 │ 1 A2 │ -4 -4 6 3 │ 1 │ 4 │ 0.25 A3 │ 5 -4 -9 -15 │-23 │ 4 │-23/4 ─────────────────────────── Σ -17 13 -17/13 全変動 =(4+4+4+9+16+36+9+25+16+81+225)−289/13 =445−22.2 =422.8 行間変動=(25/5+1/4+529/49)−228/13=115.3 行内変動=422.8−115.3=307.5 分散分析表をつくる。 │ 変動 │ 自由度 │ 不偏分数 ────────────────────── 行間 │ 115.3 │ 3-1 │   57.64 行内 │ 307.5 │ 13-3 │  30.75 ────────────────────── 57.64 F= ──── =1.64 30.75 Fo=F(3-1, 13-3, 5%)=4.1 F<Fo  従って、5%の危険率で差ありと認められない。 ●三標本以上の平均値の差の有意検定(二元配置法 分散分析法) 表を作る →列 j │ B1 B2 B3 B4 │ 平均 ────────────────────── ↓ A1 │ d11 d12 d13 d14 │ x1. 行 A2 │ d21 d22 d23 d24 │ x2. i A3 │ d31 d32 d33 d34 │ x3. ────────────────────── 平均 │ x.1 x.2 x.3 x.4 _ 全平均 x=Σ(dij)/n ij _ 全変動 □=Σ(dij−x)2 ij 4 _ 行間変動 △=Σ 各行単位数 (xi.− x)2 i=1 4 _ 列間変動 ○=Σ 各列単位数 (x.j− x)2 j=1 _ 残差 ◇=ΣΣ(dij−xi.−xj.+x)2 i j (全変動=行間変動+列間変動+残差) │ 変動 │ 自由度 │ 不偏分散 │ ─────────────────────────────── 行間 │ △ │ 3-1 │ △/(3-1) │ △/(3-1) │ │ │ │F= ─────── │ │ │ │ ◇/(4-1(3-1) ─────────────────────────────── 列間 │ ○ │ 4-1 │ ○/ (4-1) │ ○/(4-1) │ │ │ │F= ─────── │ │ │ │ ◇/(4-1)(3-1) ─────────────────────────────── 残差 │ ◇ │(4-1)(3-1)│ ◇/(4-1)(3-1) │ F(3-1, (4-1)(3-1), 5%) 或は、F(4-1, (4-1)(3-1), 5%) を Fo とし、 F>Fo ならば、危険率5%で要因の影響を受ける(変動)とする。 ●例1 A1,A2,A3,A4の4匹の動物にテコ訓練をほどこした。30回テコ 押しするのに要する時間(分)は次のようになった。訓練の効果に対して個体差、 訓練日数の差が見られるか。B1は5日目、B210日目、B315日目に測定したもの。 訓練期間 \兎 A1 A2 A3 A4 B1 (5日) 8.5 7.6 8.7 9.0 B2(10日) 7.9 7.4 8.2 7.7 B3(15日) 8.3 7.0 8.2 9.2 →行 │ A1 A2 A3 A4 │ 和 ───────────────────────── ↓ B1 │ 3 -6 5 8 │ 10 列 B2 │ -3 -8 0 -5 │ -16 B3 │ 1 -12 0 10 │ -1 ───────────────────────── 和 │ 1 -26 5 13 │ -7 全変動=477-4.08=472.92 列間 = 286.25 行間 = 85.17 残差 = 472.92-(286.25+85.17)=101.5 │ 変動 自由度 │ F │ Fo ─────────────────────────────── 列内 │ 286.25 4-1 95.40 │ 5.64 │ >4.76 個体差あり 行内 │ 85.17 3-1 42.9 │ │ 残差 │ 101.50 (4-1)(3-1) 16.9 │ 2.56 │ <5.14 訓練差なし 列が、F>Foある。

5−5。スチューデントの検定法

ゴセットが標本平均から母集団平均を検定するのに、t分布を用いて精確に解いた。 これが、歴史的に、精密標本論における画期的方法となった。 ●標本平均値と1データ値の差の検定 正規母集団 N(m,σ2)から標本 {x1,・・・・・・, xn} (n≧2) を取り出した。このとき、1データmoは、この正規母集団に属するか。 母集団の母数m,σ2が共に未知。このとき、仮説Hとして、「moは、この母集団 平均に等しい」とする。 _ (X−mo) t= ────── SEM を計算する。ただし _ 1 X= ── Σ Xi n 1 _ s2=── Σ(Xi−X)2 n s2 SEM= √──── ̄ ・・・・・Standard Error of the Mean n−1 偶然変数tは、自由度n−1のt分布をする。従って t(|n-1|, 0.01)=to を求める。 |t|>to ならば、仮説Hを棄てる。 |t|<=α ならば、仮説Hを棄てない。 ●例 10個の 標本で、平均 100、SEM 8 。この標本では、80 は significant deviationか? 80 − 100 t= ──────=2.5 8 t(9, 5%)=2.26 t(9, 2%)=2.82 の間。危険率5%ならば、有意の差。 ●二標本の平均値の差の検定 2のデータ群の平均間に有意な差があるかを求める。 _ _ group1 n1個、平均x1 で SEM1、 group2 n2、x2 で SEM2 とする。 _ _ x1−x2 t= ──────────── √ (SEM1)2 + (SEM2)2 ̄ 自由度=(n1−1)+(n2−1) ●例 腓腹筋を刺激したとき持ち上げられる最大荷重は、対照群と 神経をを切って7日群で次の通り。差があるか。 ───────────────────────────── | No |1 |2 |3 |4 |5 |6 |7 |8 |9 |10 | ───────────────────────────── |対照 |75 |96 |32 |41 |50 |39 |59 |45 |20 |33 | |切断 |53 |67 |21 |29 |35 |37 |37 |30 |21 |10 | ───────────────────────────── ────────────── | μ | √S2 | SEM | ────────────── | 50 | 21.2 | 7.1 | | 30 | 13.7 | 4.1 | ────────────── 自由度 18。 50-33 17 t= ──────── = ─── =1.91 √ 7.12+4.12 ̄ 8.9 t(18, 1%)=2.87 t(18, 5%)=2.10 これは有意な差ではない。 ●対をなす標本間の差の検定 上述の例で、二つの group 内でのバラツキ が大きいため有意と認められない。それで一つ一つの動物について、比較すれば 有意の差が認められるかも知れない。このようにすれば、個体内のバラツキが 大きすぎるために隠された有意の差を出すことも出来る。計算すると ─────────────────────── |(対照群−実験群)の平均 | √S2 | SEM | ─────────────────────── | 17 | 6.5 | 2.3 | ─────────────────────── 17 t= ─── =7.39 2.3 t(9, 1%)=3.25 t(9, 5%)=2.26 であるから、有意な差。

5−6。検定法(雑)

●比率に関する検定(F−分布) 母集団分布が、事象Eの定義偶然変数が 定める分布。すなわち p(X=1)=p, p(X=0)=1−p の場合。  仮説Hとして、 p(E)=po とおく。母集団Pからの大きさnの標本を {x1,・・・xn} とする。xiは 0 または 1 である。標本中f個が1、n−f個が 0 。 f( に対応する偶然変数Sn)の分布は二項分布 B(n, po)である。 (a)f/n<po の場合、自由度2(f+1), 2(n−f)のF分布に対して、 p(Z2(m-1),2(n-f) >λ)= 0.01 にλを定めると、 Sn f p( ─── ≦─── ) n n =p(Sn≦f) ) f = Σ nCr por (1−po)n-r r=0 = p(Z2(f-1),2(n-f)>λo) (n−f)po λo= ────────── (f+1)(1ーpo) となる。ゆえに λo>λ ならば、仮説Hは棄てる。また λo≦λ ならば、仮説Hは棄てない。 (b)f/n>po の場合。自由度 2((n−f)+1), 2f のF分布に対して p(Z2(n-f+1),2f) >λ)= 0.01 にλを定めると、 Sn f p( (─── ≦───) n n =p(Sn≦f) ) n = Σ nCr por (1ーpo)n-r r=f = p(Z2(n-f+1),2f >λo) f(1−po) λo= ────────── (n−f+1)po となる。ゆえに λo>λ ならば、仮説Hは棄てる。 λo≦λ ならば、仮説Hは棄てない。 ●二つの平均の比較に関する検定(t分布) 二組の正規母集団P1とP2 とがある。それぞれの分布 N(m1,σ2)とN(m2、σ2)。分散σ2 の値は不明で、 等しい。仮説Hとして”両者の母集団平均は相等しい:m1=m2”とおく。P1, P2 に属する大きさm$nの任意標本 {x1, x2,・・・xm}, {y1,y2,・・・yn} より _ 1 m _ 1 n x= ── Σ xi, y=── Σ yi m i=1 n i=1 _ _ を作る。x−y に対する偶然変数は _ _ 1 1 1 −1 −1 −1 x−y=──x1+──x2+・・──xm+──y1+──y2+・・──yn m m m n n n となる。仮説Hの下では、x1$・・・xm、 y1・・・yn は独立で、N(m1, σ2) _ _ を定める。x−yの分布は 1 1 N(0, (──+──)σ2 ) m n である。従って _ _ mn (x−y) √(────) ̄ /σ n+m の分布は N(0,1)である。一方 m _ n _ w2= Σ(xi−x)2 +Σ(yj−y)2 i=1 j=1 _ _ を作る。w2/σ2は、自由度m+n−2のχ2分布をなす。また、x−y とw2 とは独立である(証明略)。それで、 _ _ mn w2 T=(x−y)√(────) ̄ / √(──────) ̄ n+m m+n−2 は自由度(m+n−2)のt分布を定める。 t(m+n-2, 1%) となるtoを定め、Tの値が |T|>to ならば、仮説Hを棄て、 |T|≦to ならば、仮説Hを棄てない。 ●相関係数に関する検定(t−分布) 母集団分布は2次元正規分布 N(m1, m2, σ12, σ22, ρ) で、m1, m2, σ12, σ22, ρがすべて未知の場合。仮説Hとして、”母集団相関 係数ρ=0”とおく。この母集団からの任意標本 {(x1,y1), (x2,y2),・・・(xn,yn)} から 1 1 n _ _ r=──────── ─── Σ (xi−x)(yj−y) √s2x ̄√s2y ̄ n i=1 を計算する。仮説Hの下で、rは自由度n−2のt分布 する。 λ t(|n-2|, 0.01 ) のtoを定め to r> ──────── √to2+n−2 ̄ ならば、仮説Hは棄てられ、 to r<= ──────── ) √to2+n−2 ̄ ならば、仮説Hは棄てられない (b)仮説Hとして”母集団相関係数は ρ に等しい”とおく。任意標本より計算 した r およびρ より、付表によって 1 1+r z=─── log ──── 2 1−r および 1 1+ρ s=─── log ──── 2 1−ρ を求めると、z(に対応する偶然変数Z)は、ほぼ正規分布 ρ 1 N(s+ ───── , ──── ) 2(n−1) n−3 を定める。 │ 1 │ p ( √n−3 ̄・│(Z−s− ──────)│>2.58 )=0.01 │ 2(n−1) │ は、ほぼ N(0, 1) を定める。従って │ 1 │ √n−3 ̄・│(Z−s− ──────)│>2.58 │ 2(n−1) │ である。よって 1 √n−3 ̄・(Z−s− ─────)>2.58 2(n−1) ならば、仮説Hは棄てる。 1 √n−3 ̄・(Z−s− ─────)=<2.58 2(n−1) ならば、仮説Hは棄てない。

VI. ノンパラメトリック検定

6−1。変位値 中央値、四分数

観察したn個(回)のデータを大きさの順に並べる。n/p個目ごとのものを、 マークし、そのデータ値をpなる変位値 とよぶ。(すなわち、変位値とは、 全データを与えられた比率pで分割するデータ値。特に 1)p=2は、中央で、メデアン(median) 2) p=4, 5, 6, 10 は、それぞれ、四分数 quartiles, quintiles, sextiles,   deciles; 3) p=100 は、centiles or percentiles.

6−2。マン・ウイットニイのU−検定

標本(XY) X(m)=(x1, x2, x3・・・・・・xm) Y(n)=(y1, y2, y3・・・・・・yn) に違いがあるかを検定する(パラメトリックのt検定に対応)。 そのために、データセット(X ∪ Y)をつくる。ソートする。各データにランク づけ。その内セットXに属するランクの合計 R1=Σ Rank をつくる。統計量 m(m+1) U=nm+ ────── −R1 2 n(n+1) U'=nm−U=nm+ ────── −R2 (但しR2はYのランク合計) 2 を求める。UとU’のうちの小さい値を検定量として用い、表を引く。 n+m>20 のサンプルの場合は、正規分布で近似;Z(normal deviate)を用いる。 nm U− ───── U−μu 2 Z=───── = ────────────── σu m (n+m+1) √ ───────── ̄ 12 tied rank の場合は次のようにする。 値 1, 5, 8, 8, 8,12,18・・・・・・ ランク 1, 2, 4, 4, 4, 6, 7・・・・・・ <Prog 6-1> U検定を行い結果を出すためのプログラム。

6−3。コルモゴロフ、スミルノフ (Kolmogorov-Smirnov)の検定

●1標本の場合 標本が特定の分布(理論的に仮定された)の母集団から 抽出されたか否かの検定。    Fo(x) 理論的分布関数。    Sn(x) 実験の相対累積度数。 D= max |Fo(x)− Sn(x)| Pr(D≧Dα)=αとなる Dα を付表で見出す。N≧35のとき、 Dα=1.36/√N ̄ (但しPr=0.05) ●2標本の場合−両側検定 2つの標本が同じ母集団から抽出されたか否か。    Sn1(x)を、実験1からの相対累積度数。    Sn2(x)を、実験2からの相対累積度数とする。 D=max|Sn1(x)−Sn2(x)| Pr(D≧Dα)=αとなる Dαを、付表で見出す。N≧35 のとき、 n1+n2 Dα=1.36 √ ───── ̄ (但しPr=0.05) n1・n2 ●2標本の場合−片側検定 標本1が標本2より大きいか否か。    Sn1(x)を、実験1からの相対累積度数。    Sn2(x)を、実験2からの相対累積度数とする。 D=max|Sn1(x)−Sn2(x)| n1+n2 χ2=4D2 √ ───── ̄ (df=2の所) n1・n2 が、αに対して示された値より大きければ否定。

VII. 時系列分析

7−1。シリアル・コリログラム(Serial Correlogram)

標準化した 時間間隔Ti とそれにj個遅れている Ti+j をかけ、その個数で割る。 これを、j次のシリアル・コリログルムという。すなわち、 1 ρj = ─── E[(Ti−μ)(Ti+j−μ)] σ2 1 1 =Σ ──(Ti−μ) ・ ──(Ti+j−μ) σ σ <例> 下記の128 個の時間間隔のシリアル・コリログラムを下に示す。 128 1972 1727 1776 2234 1773 1741 1774 2027 2029 1821 1719 1955 1962 1899 2149 1728 2095 1775 1843 2271 2286 2192 1893 1799 1769 1826 1720 2282 2151 1834 1887 2050 2135 1762 2034 1772 1946 1761 2193 2204 1665 2087 1726 1904 2257 1745 2189 2153 2023 1670 1775 1744 1852 1848 2099 1953 2162 1702 1847 1746 1646 1669 1982 2239 1672 2192 2284 1746 2199 1964 2113 1771 2251 2159 2222 1987 1940 2088 2135 1939 2040 2192 1740 1937 2039 1780 2258 1857 1846 2180 2119 2133 2179 2048 1927 1714 2264 2070 2246 1848 1654 1867 1831 1966 2194 1731 1660 1759 1858 1859 2084 2272 2034 1873 1715 1774 1653 1806 1778 2147 1697 2106 2228 1900 1987 1870 1909 1651 Total Num=128 Mean=1948.367188 Var=37105.800781 |....|....|....|....|....I....|....|....|....|....| 0.07 I * 0.06 I * -0.02 * -0.15 * I -0.15 * I -0.07 * I 0.29 I * 0.02 I* 0.09 I * 0.02 I* 0.19 I * 0.19 I * 0.02 I* -0.06 * I -0.10 * I -0.18 * I -0.15 * I 0.20 I * 0.06 I * 0.10 I * 0.01 * -0.03 *I -0.23 * I 0.16 I * 0.14 I * -0.00 * 0.24 I * -0.02 * -0.35 * I -0.11 * I <Prog 7-1> シリアル・コリログラム (schuffle付き): SERCOR.C

7−2。指数分布

EVENTがランダムに生じるとき、生じる時間間隔は指数分布をとる。 p(t)=λe-λt P(t)=λ ●他の分布との関係 Weibull分布で m=1のとき指数分布。ガンマ分布で a=1のとき指数分布。ポアソン分布との関係はポアソン分布の項参照。。

7−3。ポアソン分布

二項分布 B(n,p)で、np=m=一定(平均)のとき、nを大にする(pは 小となる)と mx-m p(x)= ───── x! この分布をポアソン分布という。p<0.1 かつ n>50 で実用。 その期待値、分散は μz(x)=m σ2(x)=m ●二項分布とポアソン分布の関係 二項分布 p(x)=nCx Px (1−p)n-x おいて、p=m/n(m=np)とすると、 n(n−1)(n−2)・・・(n−x+1) mx m m = ────────────────── ─── (1− ──)n(1− ──)-xx x! n n n→∞とすると n (n−1) (n−2)・・・(n−x+1) ── ──── ──── ────── →1 n n n n m (1− ──)-x →1 n m m m - ─ (1− ──)n=[(1− ──) nm →(e-1)m n n 結局 mx-m p(x)= ───── x! となる。ただし、m ー定であるから、n→大 とすると、p→ 0 と小となる。 ------------------------------------------------ (注) 1 1 1 1 e=1+ ── + ── + ── +・・・・・=lim (1+ ──)k 1! 2! 3! k→∽ k (注終り) 指数分布とポアソン分布の関係 ある event が一定時間内に生じる頻度が ポアソン分布に従うとき、その event の生じる時間間隔は指数分布をとる。 客が、時間Tの間に、x人やって来る確率が (λT)x Px(T)=e-λT ────── x! x =0, 1, 2・・・・ のとき、ポアソン到着という。このとき、到着間隔をtとすれば、その確率関数 p(t)=e-λt は指数分布。この定理から、ポアッソン到着の場合、到着間隔の平均値 1 to=─── λ であることが証明された。客が到着率λでやって来れば,到着間隔の平均は 1/λ となっている。きわめて常識的。 <証明> Px(T) は、T時間内にx人の客がくる確率を示す。いま0人の客がやって来る (客が1人もいないこと)確率はx=0とおいて (λT)0 Po(T)=e-λT ────── ・・・・・・(1) 0! となる。 到着 長さT 到着 ↓ ↓ ───────────────── O T Po(T)は時間Tの間に客が誰も来ない確率。見方をかえると、時刻Oで、客が きて、次の客は時刻Tで到着する確率。すなわち、あいついで到着する2人の客の 到着間隔がTよりも大きくなる確率を表していると考えていい。tの確率関数を g(t)とすると、到着間隔がTより大きくなる確率は ∽ ∫ g(t) dt T と書ける(下図参照)。 │ │ * * │ * * │ * * g(t)│ * * │ * * │ │/ * │ │///// * │ │////////// * ────────────────────────── 0 T 到着間隔 またこの値は、Po(T)に等しいから(1)の関係を使うと ∽ ∫ g(t) dt=e-λt ・・・・・・・(2) T また、到着間隔がTより小さくなる確率は T ∽ ∫ g(t) dt=1− ∫ g(t) dt=1−e-λt 0 T となる。両辺をTで微分すれば g(T) dt=1−e-λT となる。すなわち、時間間隔は、パラメータλの指数分布になることを示している。

7−4。ワイブル分布

ワイブル分布の確率密度関数は、 m x p(x) =── xm-1 exp(− ──) α α αは「尺度」パラメタと呼ばれる。m は「形」のパラメタと呼ばれる。m=1 のとき、指数分布となる。 分布関数は、 xm P(x) =1− exp(− ──) α である。平均値、分散は 1 μ(x)=α1/m Γ(──+1) m 1 1 σ(x)=α2/m { Γ(──+1) − Γ2(──+1) } m m また、故障率関数として、 m Z(x)=── xm-1 α が、定義でき、 m>1で、生起確率が時間とともに低下する。 m=1で、変わらない。すなわち、ランダムな生起である。 m<1で、段々増す。 ワイブル分布は、 X=log x, B=log α, Y=log log[1−F(x)]−1 とすれば$ Y=mX−B となり、X,Yを最小二乗法であてはまることができ、m,αを求め事が出来る。 ブレーク点をもって、時間とともに生起の仕方が変化する現象は、複合 ワイブル分布(composite Weibull distribution) でエミレートする事が出来る。 <Prog 7-2> 最少二乗法による複合ワイブル分布ヘの当てはめ。 (a)観測点全体(xi, yi i=1, n) が、上式に最もよくあてはまるよう、 最少二乗法よって、mとαをきめる。 (b)それぞれのデータを上式いれ、理論値からもっとも離れたio を求める。 これが、ブレーク点である。 (c)(i=1,io) (i=io,n)の区間でそれぞれ、上式に当てはめを行い、 (m1, α1)と (m2, α2)をもとめる。それぞれの確率密度関数と故障率関数を 算出する。 DRL(differential reinforcement at lower rate)訓練におけるテコ押し間隔 ヒストグラムの複合ワイブル分布への当てはめ。ウサギを「水絶ち」して、水滴を 得るためにテコ押す事を訓練する。つぎに、一回水滴を得たら、5秒間、テコを 押さないでの次のテコ押しのみ強化する。20回セッション目。 ┌──────────────────────────────┐ |15 1 ←総数・時間間隔 |13. 22. 61. 11. 6. 10. 15. 24 18. 26. 17. 9. 4. 0. 1. ←頻度 └──────────────────────────────┘ ↓ ┌─────────────────────────────┐ |whole data X=1〜11 --------------------------------- | | I x F(x) log(x) loglog line diff | | | | 0 1 0.302 0.000 -1.023 -1.023 0.000 | 1 2 0.356 0.693 -0.819 -0.245 0.575 | 2 3 0.386 1.099 -0.717 0.210 0.928 | 3 4 0.436 1.386 -0.558 0.533 1.092 | 4 5 0.510 1.609 -0.338 0.784 1.122 | 5 6 0.629 1.792 -0.009 0.989 0.998 | 6 7 0.718 1.946 0.235 1.162 0.927 | 7 8 0.847 2.079 0.628 1.312 0.683 | 8 9 0.931 2.197 0.982 1.444 0.462 | 9 10 0.975 2.303 1.308 1.562 0.254 |10 11 0.995 2.398 1.669 1.669 0.000 | |ρxy=0.891 Y=1.096X-1.621 m=1.096167 α=5.057021 | 1 17.9 2 34.5 3 48.3 4 59.5 5 68.5 | 6 75.6 7 81.2 8 85.5 9 88.9 10 91.5 |11 93.5 | |Break=4 | |X=1〜4 --------------------------------- |0 0.000 -1.023 |1 0.693 -0.819 |2 1.099 -0.717 |3 1.386 -0.558 | |ρxy=0.989 Y=0.320X-1.034 m=0.320202 α=2.812235 | 1 29.9 2 35.9 3 39.7 4 42.6 5 44.9 | 6 46.8 7 48.5 8 49.9 9 51.3 10 52.4 |11 53.5 | |X=4〜11 ---------------------------------- | 4 1.609 -0.338 | 5 1.792 -0.009 | 6 1.946 0.235 | 7 2.079 0.628 | 8 2.197 0.982 | 9 2.303 1.308 |10 2.398 1.669 | |ρxy=0.989 Y=2.542X-4.563 m=2.542222 α=95.860113 | 1 1.0 2 5.9 3 15.7 4 29.8 5 46.4 | | 6 62.9 7 77.0 8 87.3 9 93.8 10 97.4 | |11 99.0 | └─────────────────────────────┘ これらの結果をワイブル確率紙にプロットする。 <図7−1>

7−5。γ分布

ガンマ分布とは、to を平均値、 σ は分散としたとき、確率密度関数 kaa-1-kt p(t)=──────── Γ(a) となる分布である。ここで、 to k= ─── σ2 to a =kto = (───)2 σ である。ガンマ関数とは ∽ Γ(a>1) = ∫ e-xa-1 dx 0 =(a−1)(a−2)・・・Γ(0≦a−n≦1) ●ガンマ分布の性質 Γ(a) が1 に近くなると指数分布に近くなり、Γ(a)が0に近づくと正規 分布に近くなる。あらゆる分布をシミレート出来る。 <例> てこ押しの生起潜時をガンマ分布に当てはめる。 (イ) 潜時ヒストグラムの総数 N、潜時測定のビン巾をZとする。 (ロ) ビンごとの頻度入力 <Prog 7-3> ガンマ分布ヘの当てはめ: FITGAMM.C ネコに光刺激によってテコをすると水を得るように訓練した。 光がついてからテコ迄の時間、反応時間(秒) は、 N=49 24 14 27 27 11 14 20 27 24 25 26 9 9 19 29 29 10 20 15 8 14 16 18 14 14 26 27 17 22 27 19 28 20 8 18 18 18 29 25 10 20 20 13 17 20 22 12 11 25 24 19 13 19 19 19 14 28 9 23 11 22 15 25 9 22 16 8 10 12 29 13 21 16 17 13 19 21 14 17 9 20 27 16 27 9 20 8 11 11 であった。 これから、ビン巾0.2秒ごとの反応時間の頻度のヒストグラを作る。すると、 時間(秒) 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 頻度 1. 1. 1. 11. 22. 18. 16. 3. 3. 1. 1. 2. 1. 0. 1. 0. 1. であった。これを、これをガンマ分布に当てはめることを試みる。すると、 mean =1.055 sigma=0.255 k =4.143 a =4.372 fact =10.980 Γ =2.338 Γ*f =25.675 Observed Expected: 1.2 3.7 1.2 16.9 1.2 29.0 13.3 33.4 26.5 30.9 21.7 25.0 19.3 18.3 3.6 12.6 3.6 8.2 1.2 5.1 1.2 3.1 2.4 1.8 1.2 1.0 0.0 0.6 1.2 0.3 0.0 0.2 1.2 0.1 であった。この例はガンマ分布に合わないことがわかる。。

VIII. 偶然事象のシュミレーション

8−1。乱数発生

●乗算式合同法(Multiplicative congruence method) 次の式によって、一様乱数を求める。 n(i+1)≡λn(i)+C(mod P) すなわち、任意の数Pをきめる。任意の数n(i) をPで割った残差Cが、乱数と 同時に、次に乱数発生のための数となる。かくして、乱数の系列ができる。 <Prog 8-1> 乗算式合同法による一様乱数発生。 このような一様乱数系列は、プログラムの乱数発生用関数をつかても、得られる。 えられた一様乱数系列を Ui(=0〜1)とする。 <Prog 8-2> 計算機の乱数発生関数による一様乱数発生。 ●指数乱数 次の式によって一様乱数系列から発生させる。 Li=-100・log(Ui) ( Ui=0〜1) <Prog 8-3> 指数乱数の発生。 ●ポアソン乱数 ro=1 とし、0-1 間の一様乱数riが、 x+1 e-m>Πri (ri=0〜1) i=0 上式を満たすときのxは、平均mのポアソン分布に従う。 <Prog 8-4> ポアソン乱数の発生。 ●正規乱数 N(0,1) イ)直接法(Box-Muller法) (ui, ui+1)が 一様乱数N(0,1) のとき、 ni= −2 log ui cos 2π ui+1 *100 ni+1=−2 log ui sin 2π ui+1 *100 は、正規乱数を示す。一番正確な方法といわれている。 ロ)平均値の分布を利用する方法 一様乱数N(0,1)は 1 μ=0.5 σ2= ── 12 である。それで、一様乱数 12個加えると、 μ=6 σ2=1 中心極限定理(207参照)により、正規分布N(6, 1)に近づく。従って、 μ-6, σ2 は N(0, 1) の乱数。 ハ) N(μ, σ2)の乱数 N(0, 1) の乱数発生させ y=χσ2 + μ でyに変換する。 <Prog 8-5> 方法(ロ)による正規乱数の発生。