発表

3B-037

連続変数の離散化に伴う相関係数の低下
離散化の際の閾値を考慮した大規模シミュレーション

[責任発表者] 小野島 昂洋:1
[連名発表者・登壇者] 椎名 乾平:1, 上田 卓司:1, 久保 沙織:2
1:早稲田大学, 2:東京女子医科大学

1. 背景と目的
 評定データ(カテゴリカルデータ)から計算された相関係数rにバイアスがあることは広く知られており, バイアスの程度を評価するシミュレーション研究が今までに行われている。バイアスの程度は, 連続変量データを離散化する際のカテゴリー数の組み合わせおよびカテゴリー境界値(閾値)をどう設定するかに強く影響を受ける。前者については, 今までにいくつかのシミュレーションで検討されているが(例えば, Bollen & Barb, 1981; 大内ほか2010), 閾値設定の影響について検討したものはない。そこで, 本研究は, 1)多様なカテゴリーの組み合わせ, 2)多様な閾値の組みあわせによる連続変量の離散化が, 相関係数のバイアスに与える影響を評価することを目的とした。
2. 方法
【シミュレーションの手続き】2変量標準正規分布, BND (x, y | 0,1, ρ)に従う連続変数x, yを発生させ, その後 (m-1)と(n-1)個からなる閾値セット(m, n, はそれぞれのカテゴリー数)に従い離散化をしたものカテゴリー変数X, Yとし, XとYの相関係数を繰り返し求めた。
【データサイズと母相関】発生させるデータサイズは64, 256, 1024の3種類であり, 母相関係数は,0から1.0までを0.1区切りにしたものに0.96, 0.98を加えた13種類であった。
【カテゴリー数の組み合わせ】カテゴリー数の組み合わせは, 2から7の全ての組み合わせで, 合計21通りであった。
【離散化に際に用いる閾値の設定】連続変量の離散化に際して2つの条件で閾値の設定を行った。
A.一様分布条件 連続一様分布U(-1,1)から (m-1), (n-1)個のデータを発生させ, それを大きさ順に並べ替えたものを閾値とした。データサイズ・母相関・カテゴリー数が異なるそれぞれの条件について10000通りを設定した。
B.等値分割条件 [-1,1]の区間をカテゴリー数に等分割するように(m-1)(n-1)個の点を設定した後, その値に両側切断正規分布TN(0,0.052,a,b)の乱数を「ノイズ」として加えたものを閾値とした。ここで, [a,b] の区間設定は, a , bはそれぞれ[–カテゴリーの幅÷2],[+カテゴリー幅÷2]であり, 閾値の順序が入れ替わらないことを目的に設定した。
【繰り返し】データサイズ, 母相関, カテゴリー数の組み合わせ, 閾値セット, 閾値の設定条件, の組み合わせにつき, 各1000回データを発生させ相関係数を計算し, 合計で163億9000万の相関係数を得た。
【機器】シミュレーションのための計算・処理は全て統計解析環境R ver3.4.1 上で行った。乱数の発生には追加パッケージmvtnorm所収の関数を用い, 大規模データの扱いにはff, ffdf 所収の関数を用いた。
3. 結果と考察
 シミュレーションの結果得られた相関係数の平均値を, 一様分布条件については図左に, 等値分割条件については図中央に示した。図からは, いずれの条件でもカテゴリー化に伴い相関係数にバイアスが生じたが, カテゴリー数の増加とともにそのバイアスが減少する傾向が観察された。また, 2つの条件の比較からは, 一様分布条件においてより大きな相関係数のバイアスが報告された。
 図右にデータサイズごとの相関係数の分布を示した(m=5,n=7,ρ=0.8)。図から明らかなように, データサイズの増加はバイアスのかかった相関係数をより高い精度で推定するだけで, バイアスの補正はしなかった。
 これらの結果から指摘できることは, 評定データから計算される相関係数のバイアスは従来のシミュレーション研究で考えられているよりもずっと大きい可能性があること, データサイズを増やすことは抜本的な解決には繋がらないため, ポリコリック相関係数(Olsson, 1979)の利用などバイアスへの対処法を検討する必要があることである。

キーワード
相関係数/カテゴリー化バイアス/リッカート尺度


詳細検索