10. Korelācija.

Gadījuma lielumi, kas parādās vienā procesā, var būt neatkarīgi, bet var būt arī atkarīgi. Ja process ir divu kauliņu mešana, tad katra kauliņa uzkritušo punktu skaits ir divi neatkarīgi lielumi. Toties, ja aplūkojam viena kauliņa mešanu un ar K1 apzīmējam gadījuma lielumu "uzkritušo punktu skaits", bet ar L1 - lielumu "uzkritušo punktu skaita kvadrāts", tad šie divi lielumi, protams, ir atkarīgi. Šo atkarību izsaka vienādība L1=(K1)2.

Tas ir t.s. funkcionālās atkarības piemērs: viens no lielumiem ir otra lieluma funkcija (L1 vērtību var aprēķināt, zinot K1 vērtību). Funkcionālās atkarības speciālgadījums ir lineārā atkarība: gadījuma lielumus X,Y, kas parādās vienā procesā, sauc par lineāri atkarīgiem, ja eksistē divi reāli skaitļi a,b (a<>0) tādi, ka vienmēr Y = aX+b. (Tā kā vienlaicīgi arī X = Y/a - b/a, tad lineārā atkarība ir simetriska īpašība). Lielumi K1, L1 ir atkarīgi, bet, protams, nav lineāri atkarīgi.

Dažkārt gadījuma lielumi nav gan "precīzi" funkcionāli atkarīgi, tomēr to starpā "kaut kāda sakarība ir". Piemēram, aplūkojot divu spēļu kauliņu mešanu:

K = "punktu skaits, kas uzkrīt pirmajam kauliņam",

K' = "punktu skaits, kas uzkrīt otrajam kauliņam".

Ievedīsim vēl vienu gadījuma lielumu: L=K+0,01K'. Ko var teikt par lielumu K un L savstarpējo atkarību? Protams, L nav vienkārša K funkcija: piemēram, ja mēs esam uzzinājuši, ka K=1, tad L ar vienādām varbūtībām var pieņemt jebkuru no sešām vērtībām:

1,01; 1,02; 1,03; 1,04; 1,05; 1,06.

Tomēr "pavisam neatkarīgi" lielumi K,L, protams, arī nav: uzzinot K vērtību, mēs arī L vērtību uzzinām jau diezgan precīzi. Šādā situācijā, kad divi gadījuma lielumi, nebūdami funkcionāli atkarīgi, "zināmā mērā" atkarīgi tomēr ir, pieņemts runāt par korelāciju šo lielumu starpā. Sarežģītākos procesos, kuru mehānisms nav pilnīgi izpētīts, gadījuma lielumu korelācija dažkārt jānoskaidro eksperimentāli - balstoties uz šo lielumu pieņemto vērtību statistiku.

Ja kādā procesā parādās divi gadījuma lielumi X, Y, tad kā praktiski pārliecināties, ir to starpā kaut kas līdzīgs lineārai korelācijai vai nav? Protams, jāvāc statistika, daudzkārt novērojot procesa atkārtojumus. Pēc n novērojumiem tad mūsu rīcībā būs n skaitļu pāri:

(x1, y1), (x2, y2), ..., (xn, yn).

Ja šo skaitļu pārus attēlosim kā plaknes punktus, tad varētu iznākt, piemēram, šāda aina:

Y
|......................................o.........
|...............................o................
|...........................o....o..............
|................o......o.......................
|...................o......o....................
|..............o..o.............................
|.............o..................................
|.........o......................................
|.....o....o....................................
|--------------------------------- X

Šai gadījumā ir gribot negribot jāsecina, ka punkti "pulcējas" ap kādu taisni. Ja taisnes vienādojums ir y=ax+b, tad kā atrast koeficientus a, b? Laikam taču tie jāsameklē tādi, lai atzīmētie punkti būtu šai taisnei "pēc iespējas tuvāk".

Sākumā uzdevums liekas vienkāršs. Aprēķināsim punkta (xi, yi) attālumu līdz taisnei y=ax+b. Tā būs kāda funkcija f(a, b, xi, yi). Mūsu uzdevums ir izvēlēties skaitļus a,b tā, lai vidējais attālums

1/n * Summa{f(a, b, xi, yi) | i = 1 līdz n} ----------------(*)

būtu vismazākais. Pamēģināsim atrast funkcijas f izteiksmi. Attāluma kvadrāts no punkta (x, y ) līdz punktam (xi, yi) ir (x-xi)2+(y-yi)2. ļausim punktam (x,y) "slīdēt" pa taisni y=ax+b un aplūkosim attāluma kvadrātu kā funkciju no x:

g(x) = (x-xi)2+(ax+b-yi)2 = (1+a2)x2 -2(xi+a(yi-b))x+(xi2+(yi-b)2).

Tā kā koeficients pie x2 ir pozitīvs, tad šim kvadrāt-trinomam vismazākā vērtība būs pie

x = (xi+a(yi-b))/(1+a2).

Ievietojot šo x un y=ax+b funkcijas g(x) izteiksmē, iznāk, ka:

min g(x) = f2(a, b, xi, yi) = ((1+a2)(yi-axi)2-2b(1+a)(yi-axi)+ab2) / (1+a2)2.

Ja summēsim kvadrātsaknes no šādām izteiksmēm, vai mums izdosies atrast tās a un b vērtības, kurām summas vērtība ir vismazākā? Skaidrs, ka izteiksmes "briesmīgās" sarežģītības dēļ mums tas nevar izdoties. Neglābs arī matemātiķu parastā metode - vidējā attāluma vietā ievest vidējo attāluma kvadrātu - arī bez kvadrātsaknēm izteiksme jau ir pietiekami "briesmīga".

Izeju no šīs situācijas atrada vācu matemātiķis Kārlis Frīdrihs Gauss (1777-1855). Viņš iedomājās minimizēt nevis punktu attālumus līdz taisnei vai šo attālumu kvadrātus, bet attālumu kvadrātus pa vertikāli! Patiesi, tad izteiksme (*) iznāk daudz vienkāršāka. Punktam (x,y) pa vertikāli atbilst taisnes y=ax+b punkts (x, ax+b), attāluma kvadrāts tāpēc būs (ax+b-y)2, un izteiksme (*) tad būs šāda:

1/n * Summa{(axi+bi-y)2 | i = 1 līdz n}

Stingri ņemot, tā ir haltūra, "vieglākais ceļš", taču kādi lieliski rezultāti tūlīt sekos!

Pirms aiziet "pa vieglāko ceļu", pāriesim tomēr uzreiz no eksperimenta datu analīzes pie divu gadījuma lielumu X,Y iespējamās atkarības teorētiskas analīzes. Tad mums jāieved nedaudz citādi pamatjēdzieni. Procesam, kurā abi lielumi parādās, ir n iznākumi i1, i2,... in, pie tam iznākums ik parādās ar varbūtību pk (visi pk ir pozitīvi un to summa ir vienāda ar 1), un to pavada X vērtība xk un Y vērtība yk.

Katram procesa iznākumam ik atbilst plaknes punkts (xk, yk). Varbūtību pk tad var uzskatīt par punkta "svaru" (jo lielāka varbūtība, jo "smagāks" punkts). Plaknē novilksim taisni y=ax+b. Atkārtojot mūsu procesu, mēs iegūstam plaknes "gadījuma" punktu (X,Y) (katru reizi tas sakrīt ar kādu no punktiem (xk, yk)). Šī punkta attāluma kvadrāts pa vertikāli no taisnes y=ax+b ir gadījuma lielums (aX+b-Y)2. Šī lieluma vidējā vērtība ir

S(a,b) = E(aX+b-Y)2 = E(a2X2+b2+Y2+2abX-2aXY-2bY) =
= a2E(X2)+b2+E(Y2)+2abE(X)-2aE(XY)-2bE(Y).

Mūsu uzdevums ir atrast tādus a,b, kuri dotu vismazāko iespējamo izteiksmes S(a,b) vērtību (t.i., "vistuvāko" taisni punktu (X,Y) "mākonim").

Ja a vērtība būtu fiksēta, tad S(a,b) kā funkcija no b būtu kvadrāttrinoms:

S(a,b) = b2-2b(E(Y)-aE(X))+...,

kurš savu vismazāko vērtību pieņem pie b=E(Y)-aE(X), jeb:

E(Y) = aE(X) + b.

Tas nozīmē, ka "vistuvākā" taisne iet caur punktu "mākoņa" smaguma centru - punktu (E(X),E(Y)).

Tagad izteiksim b ar a: b=E(Y)-aE(X), un ievietosim S(a,b) izteiksmē:

S(a,b) = E(aX+b-Y)2 = E(aX+E(Y)-aE(X)-Y)2 =
= E(a(X-E(X))-(Y-E(Y)))2 =
= E(a2(X-E(X))2 - 2a(X-E(X))(Y-E(Y)) + (Y-E(Y))2) =
= a2E(X-E(X))2 - 2aE((X-E(X))(Y-E(Y)) + E(Y-E(Y))2 =
= a2D(X) - 2aE((X-E(X))(Y-E(Y)) + D(Y).

Šis kvadrāttrinoms pieņem vismazāko vērtību pie

a = (E((X-E(X))(Y-E(Y))) / D(X).

Skaitītāja izteiksmi pārveidosim aprēķiniem ērtākā formā:

E((X-E(X))(Y-E(Y)) = E(XY-XE(Y)-YE(X) + E(X)E(Y)) =

= E(XY) - E(X)E(Y) - E(Y)E(X) + E(X)E(Y) =

= E(XY) - E(X)E(Y),

a = (E(XY)-E(X)E(Y)) / D(X),

Atrastajām a, b vērtībām atbilst vismazākā S(a,b) vērtība. Tātad "vistuvākās" taisnes vienādojums ir

y = ax+b = ax+(E(Y)-aE(X))

y-E(Y) = a(x-E(X))

Koeficients a nav simetrisks pret X un Y. To var "izlabot" šādā veidā:

(Y - E(Y)) / sqrt(D(Y)) = (E(XY) - E(X)E(Y)) / sqrt(D(X)D(Y)) * (X - E(X)) / sqrt(D(X)).

Izteiksmi

K(X, Y) = (E(XY)-E(X)E(Y)) / sqrt(D(X)D(Y))

pieņemts saukt par gadījuma lielumu X un Y korelācijas koeficientu. Kāpēc tā?

Atcerēsimies mūsu sākotnējo izteiksmi E(aX+b-Y)2. Koeficientus a, b mēs tagad protam izvēlēties tā, lai E(aX+b-Y)2 (punkta (X, Y) un taisnes y=ax+b attāluma kvadrāta) vidējā vērtība būtu vismazākā. Kāda tad ir šī vismazākā vērtība?

min E(aX+b-Y)2 = a2D(X) - 2a(E(XY)-E(X)E(Y)) + D(Y).

"Garais" reizinātājs otrajā saskaitāmajā ir vienāds ar aD(X), tāpēc:

min E(aX+b-Y)2 = D(Y) - a2D(X) = D(Y) - k2*D(Y) = (1-k2)D(Y), --------(**)

kur k=K(X, Y) ir lielumu X un Y korelācijas koeficients.

No šīs sakarības var iegūt vairākus svarīgus secinājumus:

1. Tā kā E(aX+b-Y)2>=0 un D(Y)>0, tad 1-k2>=0 un tātad -1 <= K(X, Y) <= 1.

T.i., divu gadījumu lielumu korelācijas koeficients vienmēr ir no -1 līdz +1.

2. Ja K(X, Y)=+1 vai -1, tad E(aX+b-Y)2=0 (mūsu atrastajām a, b vērtībām). Tas nozīmē, ka

Summa { Pk(axk+b-yk)2 | k=1..n } = 0,

tātad axk+b-yk=0 visiem k, t.i., lielumi X, Y ir lineāri atkarīgi: Y=aX+b.

Pie tam a un b vērtības aprēķināmas šādi:

a = K(X,Y) sqrt(D(Y)/ D(X)) ------------------(***)

b = aE(X) - E(Y).-----------------------------------

23.uzdevums. Pārliecinieties, ka arī otrādi: ja X un Y ir lineāri atkarīgi, tad K(X, Y)=+1 vai -1.

3. Nemainoties D(Y), jo tuvāk K(X, Y) ir +1 vai -1, jo mazāka ir vidējā vērtība min E(aX+b-Y)2, t.i., jo mazāka ir "mākoņa" (X, Y) punktu vidējā novirze no taisnes Y=aX+b (kur a, b iegūti ar formulām (***)). Tātad, ja divu lielumu korelācijas koeficients ir tuvs +1 vai -1, tas nozīmē, ka šie lielumi ir "tuvu lineārai atkarībai', "gandrīz lineāri atkarīgi" vai tml.

Pie tam, ja K(X, Y) ir tuvu +1, tad pieņemts runāt par pozitīvu korelāciju (augot X vērtībai, gandrīz vienmēr pieaug arī Y). Ja K(X, Y) tuvu -1, tad runā par negatīvu korelāciju (augot X vērtībai, Y vērtība gandrīz vienmēr samazinās). Šis prātojums nav sevišķi korekts: konkrētā situācijā vislabāk visus secinājumus izdarīt no sakarības (**), ja min E(aX+b-Y)2 vērtība ir maza, tad korelācija ir liela (un otrādi).

4. Ja gadījuma lielumi X, Y ir neatkarīgi, tad E(XY)=E(X)E(Y) un tāpēc K(X, Y)=0. Būtu ideāli, ja arī no K(X, Y)=0 sekotu, ka lielumi X un Y ir neatkarīgi. Diemžēl, tas tā nav (un nevar būt).

Aplūkosim spēļu kauliņa mešanu un divus gadījuma lielumus, kuri parādās šajā procesā:

K = "uzkritušo punktu skaits",

M = min(K,7-K).

Skaidrs, ka lielums M ir funkcionāli atkarīgs no K. Abu lielumu varbūtību sadalījums:

 

K 1 2 3 4 5 6
M 1 2 3 3 2 1
P 1/6 1/6 1/6 1/6 1/6 1/6

Tātad E(K) = 3,5, E(M) = 2, E(KM) = 1/6*(1+4+9+12+10+6) = 7. Tas nozīmē, ka E(KM) - E(K)E(M)=0 un K(K,M)=0. Tātad lielumu K un M korelācijas koeficients ir 0, kaut arī lielums M ir funkcionāli atkarīgs no K. No K(X,Y)=0 gadījuma lielumu X un Y neatkarība tātad neseko.

24. uzdevums. a) Aprēķiniet šīs sadaļas sākumā minēto lielumu K, L korelācijas koeficientu. Vai korelācija starp K un L ir "izteikti liela"?

b) Aprēķiniet 7.sadaļas sākumā minēto gadījuma lielumu ŠA un ŠB korelācijas koeficientu. Ko nozīmē Jūsu iegūtais rezultāts?

Piezīme. Korelācijas koeficienta K(X, Y) aprēķina process ir diezgan darbietilpīgs. Vislabāk ir paralēli rēķināt E(X), E(Y), E(X2), E(Y2) un E(XY), un tikai beigās aprēķināt D(X) = E(X2) - (E(X))2, D(Y) - analoģiski, un beidzot - K(X,Y).