Riigi kodanike palk näitab midagi olulist riigi kohta: näiteks saab iga eestlane võrrelda, kas ta teenib teistest eestlastest rohkem või vähem. Uudistes, raportites ja igasugustes analüüsides räägitakse enamasti keskmisest palgast ja kuigi aritmeetiline keskmine on kõigile selge tõlgendusega arv, ütleb see palgajaotuse kohta väga vähe.1 Paljudes olukordades on keskmise palga vaatamine sama kasutu nagu ütlemine, et keskmisel inimesel on pool peenist ja üks rind.
Milline on siis Eesti palgajaotus? Guugeldades “eesti palgajaotus” on esimene tulemus palgajaotustest, mida tegin Bondora avalikke andmeid analüüsides. Delfi Ärileht on küll natuke kirjutanud keskmise ja mediaani erinevusest, aga täielikku jaotust ei suuda ma internetist leida. Sellepärast teen täna väga lühikese postituse Eesti palgajaotusega, et see oleks kuskil internetis olemas, ja jätan interpreteerimise mõneks teiseks korraks.
Siin ta on (2014. aasta andmetel):
Ja siin on sama graafik, kus mehed ja naised on lahku löödud — palgalõhe ühes pildis:
Andmed pärinevad Statistikaameti tabelitest PA621 ja PA629 ja näitavad täistööajaga töötajate brutopalka (s.t. sellest summast läheb veel tulumaks maha) 2014. aastal.
Graafiku iga joon — vastavalt siis naiste, meeste või kõigi kohta — näitab, kui suur osa grupist teenib vastavat palka2. Näiteks: meeste joonel on andmepunkt (Palk=1600, Osakaal=0.81), mis tähendab, et 81% meestest teenivad 1600 eurot või vähem.
Muide, siin näitan kumulatiivset jaotust — intuitiivsem oleks tihedusgraafik, kus iga (näiteks) 50-eurose vahemiku jaoks näeme, kui palju inimesi teenivad selles vahemikus olevat palka. Kahjuks ei avalda Statistikaamet sellise graafiku tegemiseks piisavalt detailseid andmeid.3
21.11.2016: Mitu inimest on viidanud, et samade andmete põhjal saab ka tihedusgraafiku teha. Olen täiesti nõus, et see on võimalik ja kaalusin selle lisamist, aga tal oleks üks väga suur probleem: kui tüüpiliselt oleks tihedusgraafikul iga palgavahemik võrdse suurusega (näiteks 0-100€, 100-200€ jne), siis siin olevate andmete põhjal saaks teha ainult eri suurusega palgavahemikega tihedusgraafiku.
Praktikas tähendab see, et graafikut on palju raskem interpreteerida, sest y-teljele ei saa enam panna mitte lihtsalt inimeste arvu (nagu võrdsete tulbalaiuste korral), vaid y-teljel oleks inimeste tihedus ehk inimeste arv euro kohta — ja seda on palju raskem interpreteerida. Kuna ma ei suutnud leida head viisi, kuidas neid andmeid kasulikult ja samas mitteeksitavalt esitada, jätsin tihedusgraafiku tegemata.
“Kahjuks ei avalda Statistikaamet sellise graafiku tegemiseks piisavalt detailseid andmeid” all mõtlesingi, et tahaksin konstantsetesse näiteks 100-eurostesse “palgaämbritesse” jaotatud arve.
Palgajaotuse mudeldamine
(Siit edasi loe ettevaatlikumalt, kuna näitan graafikuid mudeli, mitte otse andmete kohta.)
Õnneks ei tähenda see, et Statistikaamet põnevamaid andmeid endale hoiab, veel andmeteaduse lõppu. Võime ülal graafikutel näidatud kvantiilide põhjal hinnata palkade jaotusfunktsiooni — ja just selle jaoks on mõeldud R-i pakett rriskDistributions. Kui oletame, et jaotusfunktsioon on log-normaalne4 ja leiame selle jaoks parameetrid5, saame järgmise pildi:
Või kumulatiivselt:
Mudeli täpsuse kontroll
Kui täpne see mudel on?
Esiteks saame kontrollida, kui hästi ennustab mudel keskmist palka. Naiste keskmine palk on 896€, mudel pakkus 878€ (viga -2%); meeste keskmine palk on 1192€, mudel pakkus 1177€ (viga -1.3%). Mõlemal juhul on on täpsus üsna hea.
Veel saame vaadata, kui hästi klapib ennustatud kumulatiivne jaotus tegeliku jaotusega:
Tundub, et jooned kattuvad päris hästi, seega mudel on hea? Jah, aga ainult 0-2000€ piirkonnas. Kõrgemapalgaliste arvu mudel alahindab, eriti naiste puhul. Meeste madalaimas otsas hindab mudel samas palku üle.
Natuke paremini on seda näha järgnevatelt graafikutelt, kus iga punkt näitab ühe kvantiili (näiteks 97% inimestest) asukohta tegelikkuses (horisontaaltelg) ja mudeli arvates (vertikaaltelg). Punane joon näitab ideaalset (täiesti täpset) mudelit.
Andmete analüüsiks ja visualiseerimiseks kasutatud R-i kood on kättesaadav GitHubis.
Jaga:
Märkused
- Keskmine annaks päris palju infot, kui jaotusfunktsioon oleks teada — näiteks oleks tegu normaaljaotusega –, aga ka siis ainult juhul, kui teada on ka standardhälve.
- Tegu on jaotuse kvantiilidega.
- Ma ei tea, miks — ei rikuks kellegi privaatsust, kui kõik Eestis teenitavad brutopalgad avaldataks kasvõi 10-eurose täpsusega. Võib-olla ei ole neil selleks piisavalt tehnilist ressurssi (loe: programmeerijate aega). Igal juhul olen pettunud, et Statistikaameti käsutuses on väärtuslikud andmehulgad (mitte ainult palkade osas), aga avaldatakse ainult kõvasti agregeeritud vaateid.
- Just selle mudeli valisin, kuna a) palgajaotus on ebasümmeetriline, mistõttu normaaljaotus ei sobi, b) log-normaalne jaotus tekib mitme positiivse teguri korrutisena, mis tundub mõistlik mehhanism palga mudeldamiseks ja c) paarist erinevast proovitud mudelist sobis see kõige paremini andmetega.
- Mehed: meanlog=6.9081, sdlog=0.57018. Naised: meanlog=6.6500, sdlog=0.50625.
Väga lahe analüüs.
Kas sa oled mõelnud, missuguseid sääraseid graafikuid inimesed veel tahaksid näha, kuid mida pole avalikul ja paljastatud kujul leida?
Nt. Kodulaenu intressi jaotus, erinevate kaupade tarbimise jaotus jne.
Ma otse nii pole lähenenud — palgajaotust olen ise tahtnud vähemalt kolm korda näha ja pole internetist leidnud. Aga küsimus on hea — mõtlen sellele ja võib-olla kirjutan varsti millestki sellisest :).
Stampvastus on – aga mehed ja naised töötavad erinevatel erialadel, naised ei tahagi rohkem palka saada (st ei panust sama palju töötunde), mehed on rohkem juhtivamatel kohtadel – kriitikute rahustuseks (kelleks ma just end ilmtingimata ei pea) peaks neid parameetreid mudelis ka arvestama.
Neid peaks arvestama juhul, kui ma tahaks ennustada, milline inimeste palk peaks olema — praegu lihtsalt raporteerisin, milline palgajaotus on. Aga olen täitsa nõus, et on palju asju, mis palka mõjutavad, ja oleks põnev näha mudelit selle kohta, kuidas palgaerinevused tekivad.
Pole küll Eesti oma, aga annab hea ülevaate valikutest, mis võivad ka eestlase palka mõjutada.
http://www.leeds.ac.uk/sociology/people/swdocs/Modelling%20gender%20pay%20gaps%20WP%2017.pdf
The first stage of the analysis was to model how different factors impact on wages for
both women and men. Because the BHPS is used, the regression model is able to
include the impact of work histories and a particularly wide range of variables. Key
findings from this part of the research show that:
iii
MODELLING GENDER PAY GAPS
• for each year of full-time education, hourly wages increase by 6%;
• for each year of full-time employment, hourly wages increase by 3%;
• for each year of part-time employment, hourly wages decrease by 1% (in
addition to missing out on the 3% gain that each year of working full-time
brings);
• for each year of interruptions to employment for childcare and family care work,
hourly wages decrease by 1% (again, in addition to missing out on the 3% gain
from each year of full-time employment);
• for every ten percentage points higher the proportion of men working in an
occupation, hourly wages are boosted by 1% (in other words, on average, those
occupations with more women working in them are valued less in terms of the
wages paid):
• other factors associated with being female have a particularly large impact,
reducing hourly wages by 9%. These factors include direct discrimination. They
also include the different preferences, motivations and attitudes to the labour
market of women as compared with men, which may in part be attributable to
indirect discrimination (or systematic disadvantage).
Although some of these percentages sound small, the cumulative effect can be great.
For example, ten years spent as a part-time worker would leave someone with hourly
earnings more than a third below that of someone who had worked full-time for the
same period.
The size of the components of the gender wage gap
The gap in wages between men and women occurs because, on average, the
position of women and men in relation to the above factors that affect wages are
different. For example, on average, the occupation a man is employed in is 68%
male, while that for a woman is 32% male. As stated above, the research shows that
the higher the proportion of males in an occupation, the higher the wages, so the fact
that women are more commonly in occupations with fewer males means that their
average wages are lowered by this factor. Similarly, the fact that women spend more
time out of the labour force caring for their family or working part-time and fewer
years working full-time also lowers their wages relative to men who spend less time
doing so.
On tõesti huvitav analüüs — aitäh! Natuke veider minu jaoks on, et lapsi hooldades veedetud aasta võtab palka maha (oleksin arvanud, et see ei muuda palka üldse), aga eks see võib ka olla osa diskrimineerimisest (või valimi juhuslikkuse tõttu tekkinud viga).
Huvitav lähenemine, et vaadatakse palgalõhet naiste ja meeste vahel. Mitte aga Eestlaste ja mitte Eestlaste vahel. Ehk siis laiemalt vaadatuna kohalike ja sisserännanute vahel. Seda nii Eestis kui ka Soomes, Rootsis, kogu EU-s.
Mis eesmärgil ja kelle rahastusel kulutatakse aega ja tekitatakse lõhet inimeste vahel, jääb arusaamatuks seni kuni ei jõua küsimuse ülestõstajatene ja allikateni. Usun, et Taivo jõuab siin vaadelda ning analüüsida palgalõhet ka teistest vaatevinklitest ning graafikutel kajastub nii reaal kui imaginaar teljel (x,y) telje nimed ja väärtused. Nii selguse mõttes.
Palkade jaotusfunktsiooni graafik on vist see, mida olengi otsinud. Aitäh! Olen üritanud aru saada, kuidas keskmine palk selline on, kui on ometi palju miinimumilähedast palka teenivaid inimesi. Nüüd saan aru, et see on palgavahemike (a la 400-500eur, 500-600eur) mood, mida näha tahaksin. Kahjuks ei oska graafikult välja võtta, kui suur see madalamapalgaliste tipp on (30% või 40%?) – y-teljel pole inimeste arvu.
Originaaltabelit näeb siit: http://andmebaas.stat.ee/Index.aspx?lang=et&DataSetCode=PA629
Selle järgi oli 2014. aastal kõige rohkem inimesi (17.7%) vahemikus 601-800 eurot bruto.
Kogu see leht on täiesti mõtetu, kuna andmed on aastatest 2017-2018 ja kogu lehel ei ole osest viidet loomise aja kohta (html-dokument on aastast 2017).
Selline dateerimata tekstide/andmete ‘rioouma jätmine’ (s.t. looja enam ei jälgi) risustan Interneti ja tekitab noortele palju probleeme. Oma lehet peab pidevalt uuendama – või selle eemaldama.