Lineaarinen skaalaus

Next: Epälineaarinen skaalaus Up: Datan skaalaus Previous: Datan skaalaus

Lineaarinen skaalaus

Käytännössä suosittu menettelytapa on skaalata datan komponentit yksikkövarianssisiksi, jotta mikään niistä ei olisi asteikkonsa puolesta dominoiva

$\begin{displaymath} \tilde{x}^{j}_i=\frac{x^j_i}{\sqrt{Var(x^j)}}, j=1,\ldots,d_{\mathcal D}\end{displaymath}$ (11)

Toinen yleinen tapa on skaalata data yksikkökuutioon

$\begin{displaymath} \tilde{x}^{j}_i=\frac{x^j_i-\max{x^j}}{\max{x^j}-\min{x^j}}, j=1,\ldots,d_{\mathcal D}\end{displaymath}$ (12)

Varianssin normalisoinnissa asteikko on avoin; yksikkökuutio taas muodostaa datalle suljetun asteikon. Normalisointitavat eroavat toisistaan poikkeuksellisten suurten (pienten) arvojen kohdalla. Yksikkökuutioon normalisoidussa datassa poikkeuksellinen arvo jää rajoitetulle välille ja pakottaa muut arvot pienelle välille asteikon toiseen päähän. Varianssin normalisoinnissa taas poikkeuksellisen suuri arvo jää kauas muista. Tällöin vektori saattaa olla yhden komponentin ansioista kaukana muista, vaikka loput komponentit olisivat lähellä muiden datavektorien vastaavia komponentteja [21].

Johan Himberg
12/11/1997