データ形式: Long Format と Wide Format

基本的な違い

Wide Format

  • データが横に広がります。
  • 各行が1つの対象 (例: 人や製品) を表します。
  • 各列が異なる変数や測定時点を表します。

Long Format

  • データが「縦長」に並んでいます。
  • 各行が1つの観測や測定を表します。
  • 変数の種類を示す列と、その値を示す列があります。

具体例 (数学と英語のテスト結果)

Wide Format

名前 数学 英語
太郎 80 75
花子 85 90
次郎 70 80

Long Format

名前 科目 点数
太郎 数学 80
太郎 英語 75
花子 数学 85
花子 英語 90
次郎 数学 70
次郎 英語 80

  • 対応のある群間検定 (対応のあるt検定、Wilcoxon の符号順位検定 など)
    • 例: 同じ生徒の数学の点数を、ある教育方法の実施前と後で比較する。
    • 理由: 各生徒の前後の測定値が同じ行にあり、個人内の変化を直接比較しやすい。
  • 多変量解析
    • ANOVA、ロジスティック回帰、ANCOVA、重回帰分析、多変量分析、主成分分析 (PCA)、因子分析 など。
    • 例:
      • ANOVA (多元配置分散分析): 学年、性別、学習方法が試験成績に与える影響を同時に分析する。
      • ロジスティック回帰モデル: 生徒の属性 (年齢、学習時間、出席率) から合格/不合格を予測する。など
    • 理由:
      • 複数の変数間の関係を同時に分析し、交互作用や複雑なパターンを検出できる。
  • 対応のない群間検定 (t検定、Mann-Whitney U検定 など)
    • 例: 異なる2つのクラスの数学の点数を比較する。
    • 理由: 各観測値が独立した行にあり、群 (クラス) 間の比較がしやすい。
  • 混合効果モデル
    • 例: 生徒の成績に対する、教師の影響と生徒個人の特性の影響を分離して分析する。
    • 理由: 個人内変動と個人間変動を同時に扱えるため。
  • 手順
    • 各対象の異なる変数や測定時点を、それぞれ新しい行に分けます。
    • 変数の名前や測定時点を示す新しい列を作成します。
  • 注意事項
    • データ量が増えるため、行数が多くなり、データ管理が煩雑になる可能性があります。
    • 変数や測定時点が多い場合、変換後のデータセットが非常に大きくなることがあります。
  • 手順
    • 各観測の変数や測定時点を、新しい列として分けます。
    • 変数の値を、それぞれの新しい列に配置します。
  • 注意事項
    • 変数や測定時点が多い場合、列数が増えてデータ管理が煩雑になることがあります。
    • 多くの欠損値がある場合、解析が困難になることがあります。
  • Wide Format は、同じ対象の複数の特性を同時に比較したり、全体的なパターンを見出したりする際に適しています。
  • Long Format は、時間経過による変化や、複雑な階層構造を持つデータを分析する際に適しています。