文系のための「多次元データ解析」


データを分析する前に、一体、何を知っておくべきか?これは難しい問題である。この図では、本ブログで取り上げる様々な分析と、それらの関係を表したものである。行いたい分析に対して、どような方法が結びついているかを確認してみよう(クリックで拡大)。行いたい分析に関連するノードのことを理解できていない場合、分析結果に対して間違った解釈を行う可能性がある。

* 注意!!このブログは、作成中であり、レイアウトや内容が安定していません。
ある程度は、参考になるかと思いますが、誤植等が含まれている可能性があります。
もちろん、勝手に修正する可能性もあります。また、現段階では頻繁に修正が入っています。あくまで、テスト公開とご理解ください。

文系のための「多次元データの基礎」(入門レベル)

まずは、基本的な用語と、Rでの基本的なコマンドをここで学ぶ。何も知らずに、回帰分析や主成分分析、クラスター分析をするのは「無謀」というもの。気持ちは理解できなくは無いのだが。以下のトピックを見て、一つでも知らない用語があるならば、先に進まずに、最初から順にチュートリアルをこなした方が良い。また、理解できている人も、一般的な教科書とは異なった説明もある。軽く目を通した方が良いかもしれない。
  1. 文系のための「行列の構造」
    1. 文系のための「行列」(1):行列データの構造について
    2. 文系のための「行列」(2):多次元データについて
    3. 文系のための「行列」(3):行列の種類について
    4. 文系のための「行列」(4):「変数」と「添字」について
  2. 文系のための「行列の演算」
    1. 文系のための「行列の演算」:行列の「足し算」と「引き算」
    2. 文系のための「内積」(1):行列の「掛け算」の方法
    3. 文系のための「内積」(2):行列の「掛け算」でできる「アフィン変換」
    4. 文系のための「逆行列」(1):行列で「割り算」??みたいなこと
    5. 文系のための「逆行列」(2):逆行列の性質について
    6. 文系のための「擬逆行列」(1):「正方行列でない行列」の「逆行列」
    7. 文系のための「擬逆行列」(2):「擬逆行列」でできる「材料の分量計算」
    8. 文系のための「特異値分解」(1):分解って何だ?を考える
    9. 文系のための「特異値分解」(2):特異値分解の概説。「超」基本。
  3. 文系のための「統計の話」
    1. 文系のための「統計の歴史」(1)「統計の父」の話
    2. 文系のための「統計の歴史」(2):「統計」と「社会物理学」
    3. 文系のための「統計の歴史」(3):「統計学」と「データの可視化」
    4. 文系のための「統計の歴史」(4):「回帰」って、どういう意味?

文系のための「データ観察の基礎」(初級レベル)

文系のための「多次元データの基礎」を通して、「スカラー」、「ベクトル」、「行列」、「次元」といったことを理解できたら、今度は分析の基礎について。ここでは、データの基本的な見方と、可視化の方法について理解を進める。複雑な分析をせずとも、この段階で解ることも多いし、何より、次のステップでの分析の方針も見えてくる。意外に知っている「つもり」の話も多いので、知っている人も、一度は目を通した方が良い。
  1. 文系のための「一変数の検討」
    1. 文系のための「データの真ん中」(1):「平均」って何だ?
    2. 文系のための「データの真ん中」(2):「中央値」って何だ?
    3. 文系のための「データのバラツキ」(1):「偏差」と「分散」と「標準偏差」
    4. 文系のための「データのバラツキ」(2):「分位数」と「ヒンジ」
  2. 文系のための「二変数の関係の検討」
    1. 文系のための「二変数の関係」(1):「共分散」と「相関係数」
    2. 文系のための「二変数の関係」(2):「相関」と「回帰」
    3. 文系のための「二変数の関係」(3):「残差」と「決定係数」
  3. 文系のための「多変数の関係の検討」
    1. 文系のための「多次元データの要約」(1):「分散共分散行列 / 相関係数行列」
    2. 文系のための「多次元データの要約」(2):「偏相関係数行列」
  4. 文系のための「データの可視化」
    1. 文系のための「数の可視化」(1):「R」でのグラフの描き方
    2. 文系のための「数の可視化」(2):「数量」と「棒グラフ」
    3. 文系のための「数の可視化」(3):「比率」と「円グラフ」
    4. 文系のための「数の可視化」(4):「変化」と「折れ線グラフ」
    5. 文系のための「数の可視化」(5):「分布」と「ヒストグラム」
    6. 文系のための「数の可視化」(6):「ヒンジ」と「箱ひげ図」
    7. 文系のための「数の可視化」(7):「箱ヒゲ図」の新しい表現方法
    8. 文系のための「数の可視化」(8):「相関係数行列」と「散布図行列」
  5. 文系のための「検定」
    1. 文系のための「正規分布」(1):「正規分布」の存在意義
    2. 文系のための「正規分布」(2):「標準正規分布」への変換
    3. 文系のための「相関係数のt検定」:「相関の有無」はどうのように判断される?
    4. 文系のための「検定」
    5. 文系のための「F検定」

文系のための「多次元データ解析」(中級レベル)

文系のための「データ観察の基礎」の内容を理解して、ようやく、有名な分析手法を使える。おそらく、他の文系向きと称する教科書よりも、かなり内容は濃いが、大体は理解できるハズ。なお、ここまでの話を全て理解していることを前提としているので、初学者は初級レベルの話を理解しておく必要がある。なお、主成分分析解説方法など、他の一般的な教科書や日本語のホームページとは異なる視点で解説しているものもある。
  1. 文系のための「重回帰分析」
    1. 文系のための「重回帰分析の仕組み」:「重回帰モデル」を考える。
    2. 文系のための「重回帰分析のモデル」:「重回帰係数」の検討。
    3. 文系のための「自由度調整済み決定係数」:「自由度調整済み決定係数」について
    4. 文系のための「重回帰モデルの検討」:「回帰係数」の「t検定」
    5. 文系のための「重回帰モデルの当てはまり」(1):「F検定」と「p値」
    6. 文系のための「重回帰モデルの選択」:「AIC」によるモデル選択
  2. 文系のための「主成分分析」
    1. 文系のための「主成分分析の仕組み」(1):「特異値分解」と「主成分分析」
    2. 文系のための「主成分分析の仕組み」(2):「相関係数行列」からの主成分分析
    3. 文系のための「主成分分析の可視化」(1):「主成分プロット」による可視化
    4. 文系のための「主成分分析の可視化」(2):「バイプロット」による重ね合わせ
    5. 文系のための「主成分の選択」:「カイゼル基準」、「スクリー」、「平行分析」
    6. 文系のための「主成分分析の落とし穴」:「馬蹄形効果」の問題⇒CAの話でする?
  3. 文系のための「対応分析」
    1. 文系のための「対応分析の仕組み」(1):「行プロファイル」と「列プロファイル」
    2. 文系のための「対応分析の仕組み」(2):「特異値分解」と「対応分析」
    3. 文系のための「対応分析の可視化」(3):プロットの重ね合わせ
    4. 文系のための「対応分析と数量化III類」:「数量化III類」との関係
    5. 文系のための「対応分析の落とし穴」:「馬蹄形効果」の問題
  4. 文系のための「クラスタ分析」
    1. 文系のための「数学的な距離」:
    2. 文系のための「階層的分類」(1):「最近隣法」
    3. 文系のための「階層的分類」(2):「最遠隣法」
    4. 文系のための「階層的分類」(3):「群平均法」
    5. 文系のための「階層的分類」(4):「ウォード法」
    6. 文系のための「階層的分類」(5):「分類数」の基準
    7. 文系のための「非階層的分類」(1):「K-平均法」
    8. 文系のための「非階層的分類」(2):「K-メドイド法」
    9. 文系のための「非階層的分類」(3):「分類数」の基準(シルエット幅)

3 件のコメント:

  1. 主成分分析の仕組みと結果の解釈の仕方を学びたくて、こちらのブログの記事を最初から、現在記事へのリンクができている”5.文系のための「主成分の選択」”まで読ませていただきました。各公式の説明など、丁寧に書いてくださったので比較的分かりやすかったのですが、やはりところどころついて行けなくなる箇所があり、次の段階の説明も理解できなくなることがありました。できることなら著者様の統計の講義を、質問を交えながら聞きたかっと思いました。
    肝心の主成分分析の章では、仕組みに関して一部理解できましたが、個人的な希望としては、結果の解釈の仕方についてはもう少し説明をしていただけたらありがたかったです。
    ともあれ、大変勉強になりました。ありがとうございました。

    返信削除
    返信
    1. こちらこそ、色々と精査してくださりありがとうございました。
      突貫工事的に作っているので、所々に間違いもあり、
      混乱させてしまったのではないかと思います。

      本ブログは、文系出身の私が、解らずに苦労した点を中心に構成してあり、
      可能な限り、挫折したポイントを詳しく書いてあるつもりなのですが、
      人によっては、解りにくく感じることもあったと思います。
      いつでも、お気軽にご質問ください。

      > 肝心の主成分分析の章では、仕組みに関して一部理解できましたが、
      > 個人的な希望としては、結果の解釈の仕方については
      > もう少し説明をしていただけたらありがたかったです。
      今、私も見返してみましたが...そうですね。
      肝心の解釈の部分が少々、手抜き状態でした。
      これは、解釈の項を加えないといけません。

      最近、本業の方が忙しくなってしまい、ブログの更新が滞っておりますが、
      夏季休業期間には、再び、書き始めたいと思います。
      今後共、どうぞよろしくお願いします。

      削除