2012/10/04

文系のための「重回帰分析のモデル」(1)

変数の関係を観察するための基本的方法に「相関」と「回帰」の考え方がある。
相関は、変数間の結びつきの「連動性」を表す方法であり、
回帰は、変数間の結びつきの「関係性」を表す方法であった。

ここで「うん...?」となった人は、もう一度、相関の話回帰の話を復習。

相関の考え方の場合では、複数の変数の場合相関係数行列を用いたが、
回帰の考え方の場合には、どのように表すのか?というのが、今回のテーマである。

ところで、一般的な解説では「説明する」という言葉に重きを置いて、
回帰分析を解説することが多いが、回帰分析は変数間の関係を観察する手法である。
「説明変数」と「目的変数」という言葉に惑わされてはいけない。

まずは、2変数の場合における回帰、すなわち、単回帰の話を思い出してみる。
たしか、以下のような式によって、表されたのであった。



この式では、一方の変数のみで、もう一方の変数を変数を表そうとしていることが解る。
一般的な言い方をすると、一方の変数でもう一方の変数の「説明」を試みている。
ここで、説明される側の変数を目的変数説明する側の変数を説明変数と呼んだ。

この式において左辺の目的変数には「^(ハット)」が付いている。
したがって、説明変数によって導かれているのは推定値だと解る。
ここで、実際の値を表現するのであれば、以下のようになる。



左辺の目的変数の「^(ハット)」が取れて、右辺の最後に「」が付くだけ。
最後に付け足した「」は、説明しきれない「残差(誤差)を表すのであった。
説明変数によって、説明しきれなかった部分を最後に足してやれば元の値が解るハズ。

おそらく、ここまでの話は、理解できている...と信じたい。

さて、変数がさらに多くなるとどうなるのか?
p個の変数からなる多次元データがあったとして、
一つの変数を目的変数としたとき、次のように表すことができる。



p-1となっているのは、元の変数の内の1つが目的変数とな っているため。
p個の変数のうち、説明変数を抜いた「p-1」個の変数が説明変数となる。
この式では、目的変数推定値であるが、実際の値は次のように表すことができる。



これが、「重回帰分析」と呼ばれるもののモデルである。
添字が並んでいるので、混乱するかもしれないが、
要するに、変数が増えただけ。モデルとしては、基本的に単回帰と同じ。

これを実際に計算するとなると、少々面倒な手続きが必要となる。

まずは、目的変数を推定する式をと眺めてみる。気づくことはないか?
このままだと、少々、解りにくいかもしれない。
この式はベクトルの式で表されているので行列の式で表してみる。



行列の「掛け算」を理解していれば、難しくは無いハズ。
ここで知りたいのは、「β」のベクトルの部分。回帰係数のベクトルである。
これで、意味が解った人はスゴイ。解らない人のために式を変形してみる

たしか、行列には割り算が存在しない代わりに、
スカラー逆数に相当する、逆行列というのがあった。
まずは、これを使って両辺を基準化してみる。すると以下のようになる。



逆行列の性質から、元の行列に逆行列を掛けると、単位行列が出てくるので、
要するに、上の式は、実際には以下のようになっている。



単位行列に別の行列を掛けると、掛けた行列が出てくる。
つまり、何も起きないのであった。したがって、次のようになる。



最後に、左辺と右辺を入れ替えると次のようになる。



さて、ここまで変形してみて意味が解ればと合格。
要するに、連立方程式の形にもってきただけのこと。
逆行列を使えば連立方程式が解ける

もう少し、一般的な式に書きなおしてみると、以下のようになる。



本当にこの式で大丈夫だろうか?
逆行列は正方行列にしか使えないので、擬逆行列にしないといけない。
つまり、以下のようになる。擬逆行列の話を思い出してみる。



あるいは、特異値分解による逆行列の近似によって、以下のようにも表すことができる。
もちろん、計算結果は上の式と同じ。詳しくは、擬逆行列の話でも述べている。



以上のようにして、複数の変数における回帰係数を求めることができる。
すでに、ここまでの話を、一つずつ積み重ねてきた人は、
Rで重回帰分析における回帰係数を計算することができるハズ。

次の話では、実際のデータを用いてもう少し、
重回帰分析意味モデルの見方について整理したい。

0 件のコメント:

コメントを投稿