データファイルの形式

Reactive stat では、以下の2つのファイル形式でデータを読み込むことができます

  • CSVファイル (.csv)
  • エクセルファイル (.xlsx, .xls, .xlsm)

CSVは「Comma-Separated Values(コンマ区切り値)」の略です。 データをカンマなどの区切り文字で区切って並べた形式のファイルのことです。

CSVファイルの特徴:

  • 単純なテキストファイルなので、扱いが容易です。
  • 一行目は項目名になっている場合が多いです。
  • 1行ごとに1つのデータ(レコード)を表します。
  • 各データの項目はカンマ(,)もしくはタブ(キーボードのTabキーで入力する空白)で区切られます。
    • エクセルからコピペしてメモ帳などに貼り付けた場合には、タブ区切りとなります。

Reactive stat でCSVファイルを使う際の特徴:

  • 日本語の文字コード (Windows では Shift-JIS (SJIS), Mac では UTF-8, インターネットの標準は UTF-8, ほかに EUC-JP や ISO-2022-JP など) は自動的に判断されるので、ユーザーが気にする必要はありません。
  • ファイルの1行目は、項目名(カラム名)として扱われます。
    • 項目名の制限と自動変換については後述します。

CSVファイルの編集方法:

  • メモ帳などの「テキストエディタ」というで編集できます。
  • Microsoft Excel や、Libre Office Calc などの表計算ソフトでも編集できます。
    • Microsoft Excel では、意図しない変換を行う場合がしばしばありますので、Libre Office Calc をお勧めします。
    • Libre Office は無料で利用できます。
  • 1つのファイルの中に複数の表(シート)が存在する場合、そのうちの一つを選択して読み込みます。
  • セルの属性は無視されます。
  • 先頭行は、項目名(カラム名)として扱われます。
    • 項目名の制限と自動変換については後述します。
  • 内部構造に不整合がある一部のエクセルファイルは、エラー回避のために最初のシートを読み込みます。
    • エクセル統計ソフト HAD のファイルを読み込むことができます。

データの項目名には以下の制限があり、自動的に変換されます。

  • 空文字列の場合
    • 最初の空の列名は “__EMPTY” に変換されます。
    • 2番目以降の空の列名は “__EMPTY_1”, “__EMPTY_2” のように、連番が付与されます。
  • 重複する場合
    • 2回目以降に出現する同じ列名には、“_1”, “_2” のように連番が付与されます。
    • 例: “あ”, “あ”, “あ” → “あ”, “あ_1”, “あ_2” |
  • ピリオドを含む場合
    • 項目名に含まれるピリオド(.)はすべてアンダースコア(_)に置換されます。
    • 例: “A.A.A” → “A_A_A”, “B..B” → “B__B” |

これらの処理は、列名の重複を避け、データ処理時の問題を防ぐために適用されます。

例えば、このような CSV データは

"","","あ","あ","あ","い","い","う","A.A.A","B..B"
"11","12","あ11","あ12","あ13","い11","い12","う11","A.A.A","B..B"
"21","22","あ21","あ22","あ23","い21","い22","う21","A.A.A","B..B"

次のように変換されます。