Box-Cox 変換と Yeo-Johnson 変換

概要

Box-Cox変換とYeo-Johnson変換は、データの正規性を改善し、線形モデルの前提条件を満たすために使用される高度な統計的変換手法です。これらの手法は、非正規分布のデータを正規分布に近づけ、分散を安定化させる効果があります。

本ソフトウェアでは最適なλ値を自動的に選択します。これにより、ユーザーは複雑な計算を行うことなく、データに最適な変換を適用できます。

Box-Cox変換

理論的背景

Box-Cox変換は、統計学者のGeorge Box と David Coxによって1964年に提案された手法です。この変換は、以下の数式で表されます:

Y(λ) = (Y^λ - 1) / λ   (λ ≠ 0の場合)
Y(λ) = log(Y)          (λ = 0の場合)

ここで、Y は元のデータ、λ（ラムダ）は変換パラメータです。

適用条件

データは正の値のみを含む必要があります。
連続的な数値データに適しています。

利点

データの正規性を大幅に改善します。
分散の均一性（等分散性）を向上させます。
線形回帰モデルなどの統計手法の適用を容易にします。

Yeo-Johnson変換

理論的背景

Yeo-Johnson変換は、In-Kwon Yeo と Richard Johnsonによって2000年に提案された手法で、Box-Cox変換を拡張したものです。この変換の数式は以下の通りです:

Y(λ) = ((Y + 1)^λ - 1) / λ     (Y ≥ 0, λ ≠ 0の場合)
Y(λ) = log(Y + 1)              (Y ≥ 0, λ = 0の場合)
Y(λ) = -[(-Y + 1)^(2-λ) - 1] / (2-λ)   (Y < 0, λ ≠ 2の場合)
Y(λ) = -log(-Y + 1)            (Y < 0, λ = 2の場合)

適用条件

正の値と負の値の両方を含むデータに適用可能です。
連続的な数値データに適しています。

利点

Box-Cox変換の利点を全て含みます。
負の値を含むデータセットにも適用できるため、より汎用性が高いです。
ゼロや近似的にゼロの値を含むデータにも適用可能です。

変換パラメータ（λ）の選択

両変換手法において、最適なλ値の選択が重要です。本ソフトウェアでは、この最適なλ値を自動的に計算し選択します。

具体的には:

λ値は最尤法を用いて推定されます。
ソフトウェアは複数のλ値を試行し、データの対数尤度を最大化する値を選択します。

この自動選択により、ユーザーは手動でλ値を指定する必要がなく、常に最適な変換が適用されます。

λ値と一般的な変換の関係は以下のようになります:

λ値	変換	説明
λ = 1	Y	1 = Y	変換なし
λ = 0	log(Y)	対数変換
λ = 0.5	√Y	平方根変換
λ = -1	Y	(-1) = 1/Y	逆数変換

自動選択されたλ値は、これらの特殊なケースに限らず、データに最適な任意の実数値となる可能性があります。

自動λ選択の利点

使いやすさ: ユーザーは複雑な統計的知識がなくても、最適な変換を適用できます。精度: 人間の判断による誤りを排除し、常に数学的に最適なλ値が選択されます。効率性: 多数のデータセットや変数に対して、迅速に最適な変換を適用できます。再現性: 自動選択により、異なるユーザー間で一貫した結果が得られます。

実装と使用上の注意

本ソフトウェアでは、Box-Cox変換とYeo-Johnson変換の両方で最適なλ値が自動的に計算・適用されます。
ユーザーインターフェースには選択されたλ値が表示され、変換の詳細を確認できます。
変換後のデータは、元のスケールとは異なる単位になることに注意が必要です。
結果の解釈時には、変換前のスケールに戻すことが重要な場合があります。

目次

Box-Cox 変換と Yeo-Johnson 変換

概要

Box-Cox変換

理論的背景

適用条件

利点

Yeo-Johnson変換

理論的背景

適用条件

利点

変換パラメータ（λ）の選択

自動λ選択の利点

実装と使用上の注意