変数の関係を観察するための基本的方法に「相関」と「回帰」の考え方がある。
相関は、変数間の結びつきの「連動性」を表す方法であり、
回帰は、変数間の結びつきの「関係性」を表す方法であった。
ここで「うん...?」となった人は、もう一度、相関の話と回帰の話を復習。
相関の考え方の場合では、複数の変数の場合に相関係数行列を用いたが、
回帰の考え方の場合には、どのように表すのか?というのが、今回のテーマである。
ところで、一般的な解説では「説明する」という言葉に重きを置いて、
回帰分析を解説することが多いが、回帰分析は変数間の関係を観察する手法である。
「説明変数」と「目的変数」という言葉に惑わされてはいけない。
まずは、2変数の場合における回帰、すなわち、単回帰の話を思い出してみる。
たしか、以下のような式によって、表されたのであった。
この式では、一方の変数のみで、もう一方の変数を変数を表そうとしていることが解る。
一般的な言い方をすると、一方の変数でもう一方の変数の「説明」を試みている。
ここで、説明される側の変数を目的変数、説明する側の変数を説明変数と呼んだ。
この式において左辺の目的変数には「^(ハット)」が付いている。
したがって、説明変数によって導かれているのは推定値だと解る。
ここで、実際の値を表現するのであれば、以下のようになる。
左辺の目的変数の「^(ハット)」が取れて、右辺の最後に「
」が付くだけ。
最後に付け足した「
」は、説明しきれない「残差(誤差)」を表すのであった。
説明変数によって、説明しきれなかった部分を最後に足してやれば元の値が解るハズ。
おそらく、ここまでの話は、理解できている...と信じたい。
さて、変数がさらに多くなるとどうなるのか?
p個の変数からなる多次元データがあったとして、
一つの変数を目的変数としたとき、次のように表すことができる。
「p-1」となっているのは、元の変数の内の1つが目的変数とな っているため。
p個の変数のうち、説明変数を抜いた「p-1」個の変数が説明変数となる。
この式では、目的変数は推定値であるが、実際の値は次のように表すことができる。
これが、「重回帰分析」と呼ばれるもののモデルである。
添字が並んでいるので、混乱するかもしれないが、
要するに、変数が増えただけ。モデルとしては、基本的に単回帰と同じ。
これを実際に計算するとなると、少々面倒な手続きが必要となる。
まずは、目的変数を推定する式をと眺めてみる。気づくことはないか?
このままだと、少々、解りにくいかもしれない。
この式はベクトルの式で表されているので行列の式で表してみる。
行列の「掛け算」を理解していれば、難しくは無いハズ。
ここで知りたいのは、「β」のベクトルの部分。回帰係数のベクトルである。
これで、意味が解った人はスゴイ。解らない人のために式を変形してみる。
たしか、行列には割り算が存在しない代わりに、
スカラーの逆数に相当する、逆行列というのがあった。
まずは、これを使って両辺を基準化してみる。すると以下のようになる。

逆行列の性質から、元の行列に逆行列を掛けると、単位行列が出てくるので、
要するに、上の式は、実際には以下のようになっている。
単位行列に別の行列を掛けると、掛けた行列が出てくる。
つまり、何も起きないのであった。したがって、次のようになる。
最後に、左辺と右辺を入れ替えると次のようになる。

さて、ここまで変形してみて意味が解ればと合格。
要するに、連立方程式の形にもってきただけのこと。
逆行列を使えば連立方程式が解ける。
もう少し、一般的な式に書きなおしてみると、以下のようになる。
本当にこの式で大丈夫だろうか?
逆行列は正方行列にしか使えないので、擬逆行列にしないといけない。
つまり、以下のようになる。擬逆行列の話を思い出してみる。
あるいは、特異値分解による逆行列の近似によって、以下のようにも表すことができる。
もちろん、計算結果は上の式と同じ。詳しくは、擬逆行列の話でも述べている。
以上のようにして、複数の変数における回帰係数を求めることができる。
すでに、ここまでの話を、一つずつ積み重ねてきた人は、
Rで重回帰分析における回帰係数を計算することができるハズ。
次の話では、実際のデータを用いてもう少し、
重回帰分析の意味とモデルの見方について整理したい。
相関は、変数間の結びつきの「連動性」を表す方法であり、
回帰は、変数間の結びつきの「関係性」を表す方法であった。
ここで「うん...?」となった人は、もう一度、相関の話と回帰の話を復習。
相関の考え方の場合では、複数の変数の場合に相関係数行列を用いたが、
回帰の考え方の場合には、どのように表すのか?というのが、今回のテーマである。
ところで、一般的な解説では「説明する」という言葉に重きを置いて、
回帰分析を解説することが多いが、回帰分析は変数間の関係を観察する手法である。
「説明変数」と「目的変数」という言葉に惑わされてはいけない。
まずは、2変数の場合における回帰、すなわち、単回帰の話を思い出してみる。
たしか、以下のような式によって、表されたのであった。
この式では、一方の変数のみで、もう一方の変数を変数を表そうとしていることが解る。
一般的な言い方をすると、一方の変数でもう一方の変数の「説明」を試みている。
ここで、説明される側の変数を目的変数、説明する側の変数を説明変数と呼んだ。
この式において左辺の目的変数には「^(ハット)」が付いている。
したがって、説明変数によって導かれているのは推定値だと解る。
ここで、実際の値を表現するのであれば、以下のようになる。
左辺の目的変数の「^(ハット)」が取れて、右辺の最後に「
最後に付け足した「
説明変数によって、説明しきれなかった部分を最後に足してやれば元の値が解るハズ。
おそらく、ここまでの話は、理解できている...と信じたい。
さて、変数がさらに多くなるとどうなるのか?
p個の変数からなる多次元データがあったとして、
一つの変数を目的変数としたとき、次のように表すことができる。
「p-1」となっているのは、元の変数の内の1つが目的変数とな っているため。
p個の変数のうち、説明変数を抜いた「p-1」個の変数が説明変数となる。
この式では、目的変数は推定値であるが、実際の値は次のように表すことができる。
これが、「重回帰分析」と呼ばれるもののモデルである。
添字が並んでいるので、混乱するかもしれないが、
要するに、変数が増えただけ。モデルとしては、基本的に単回帰と同じ。
これを実際に計算するとなると、少々面倒な手続きが必要となる。
まずは、目的変数を推定する式をと眺めてみる。気づくことはないか?
このままだと、少々、解りにくいかもしれない。
この式はベクトルの式で表されているので行列の式で表してみる。
行列の「掛け算」を理解していれば、難しくは無いハズ。
ここで知りたいのは、「β」のベクトルの部分。回帰係数のベクトルである。
これで、意味が解った人はスゴイ。解らない人のために式を変形してみる。
たしか、行列には割り算が存在しない代わりに、
スカラーの逆数に相当する、逆行列というのがあった。
まずは、これを使って両辺を基準化してみる。すると以下のようになる。
逆行列の性質から、元の行列に逆行列を掛けると、単位行列が出てくるので、
要するに、上の式は、実際には以下のようになっている。
単位行列に別の行列を掛けると、掛けた行列が出てくる。
つまり、何も起きないのであった。したがって、次のようになる。
最後に、左辺と右辺を入れ替えると次のようになる。
さて、ここまで変形してみて意味が解ればと合格。
要するに、連立方程式の形にもってきただけのこと。
逆行列を使えば連立方程式が解ける。
もう少し、一般的な式に書きなおしてみると、以下のようになる。
本当にこの式で大丈夫だろうか?
逆行列は正方行列にしか使えないので、擬逆行列にしないといけない。
つまり、以下のようになる。擬逆行列の話を思い出してみる。
あるいは、特異値分解による逆行列の近似によって、以下のようにも表すことができる。
もちろん、計算結果は上の式と同じ。詳しくは、擬逆行列の話でも述べている。
以上のようにして、複数の変数における回帰係数を求めることができる。
すでに、ここまでの話を、一つずつ積み重ねてきた人は、
Rで重回帰分析における回帰係数を計算することができるハズ。
次の話では、実際のデータを用いてもう少し、
重回帰分析の意味とモデルの見方について整理したい。
0 件のコメント:
コメントを投稿