目次

Box-Cox 変換と Yeo-Johnson 変換

概要

Box-Cox変換とYeo-Johnson変換は、データの正規性を改善し、線形モデルの前提条件を満たすために使用される高度な統計的変換手法です。 これらの手法は、非正規分布のデータを正規分布に近づけ、分散を安定化させる効果があります。

本ソフトウェアでは最適なλ値を自動的に選択します。 これにより、ユーザーは複雑な計算を行うことなく、データに最適な変換を適用できます。

Box-Cox変換

理論的背景

Box-Cox変換は、統計学者のGeorge Box と David Coxによって1964年に提案された手法です。この変換は、以下の数式で表されます:

Y(λ) = (Y^λ - 1) / λ   (λ ≠ 0の場合)
Y(λ) = log(Y)          (λ = 0の場合)

ここで、Y は元のデータ、λ(ラムダ)は変換パラメータです。

適用条件

利点

Yeo-Johnson変換

理論的背景

Yeo-Johnson変換は、In-Kwon Yeo と Richard Johnsonによって2000年に提案された手法で、Box-Cox変換を拡張したものです。 この変換の数式は以下の通りです:

Y(λ) = ((Y + 1)^λ - 1) / λ     (Y ≥ 0, λ ≠ 0の場合)
Y(λ) = log(Y + 1)              (Y ≥ 0, λ = 0の場合)
Y(λ) = -[(-Y + 1)^(2-λ) - 1] / (2-λ)   (Y < 0, λ ≠ 2の場合)
Y(λ) = -log(-Y + 1)            (Y < 0, λ = 2の場合)

適用条件

利点

変換パラメータ(λ)の選択

両変換手法において、最適なλ値の選択が重要です。 本ソフトウェアでは、この最適なλ値を自動的に計算し選択します。

具体的には:

この自動選択により、ユーザーは手動でλ値を指定する必要がなく、常に最適な変換が適用されます。

λ値と一般的な変換の関係は以下のようになります:

λ値 変換 説明
λ = 1 Y1 = Y 変換なし
λ = 0 log(Y) 対数変換
λ = 0.5 √Y 平方根変換
λ = -1 Y(-1) = 1/Y 逆数変換

自動選択されたλ値は、これらの特殊なケースに限らず、データに最適な任意の実数値となる可能性があります。

自動λ選択の利点

使いやすさ: ユーザーは複雑な統計的知識がなくても、最適な変換を適用できます。 精度: 人間の判断による誤りを排除し、常に数学的に最適なλ値が選択されます。 効率性: 多数のデータセットや変数に対して、迅速に最適な変換を適用できます。 再現性: 自動選択により、異なるユーザー間で一貫した結果が得られます。

実装と使用上の注意