Riigieksamite edetabelite metoodika ei ole eriti robustne

Ükskõik millise analüüsi metoodikas on võimalik kahelda, aga üks kasulik küsimus on: kui palju muutuksid tulemused, kui metoodikat veidi muuta?

Postimehe tehtud koolide pingerida riigieksamitulemuste põhjal teeb mitu eeldust, muuhulgas selle, et kõik kolm ainet on võrdse kaaluga (seal on veel mitu subjektiivset otsust, näiteks inglise keele tulemuste arvessevõtmise metoodika, aga jätame nad praegu kõrvale). Mis juhtub, kui varieerime eri ainete kaale?

Võtsin Postimehe tabeli ja simuleerisin 500 korda, milline oleks edetabel, kui võrdsete kaalude asemel kasutame juhuslikke kaale (ühtlane jaotus [0, 1], normaliseeritud nii, et summa oleks konstantne). See peaks näitama, kui robustsed on tulemused variatsioonidele metoodikas.

Graafikul on x-teljel Postimehe järjekorranumber ja y-teljel iga kooli jaoks 500 simuleeritud järjekorranumbrit. Iga joon on üks simulatsioon. Mida rohkem iga kooli simuleeritud järjekorranumber vertikaalselt laiali määritud on, seda rohkem muudab täpne metoodika selle kooli edetabelikohta.

Edetabeli tipp — nii esimesed 5 kohta — eriti ei varieeru. Sealt edasi läheb asi aga kiiresti palju kirjumaks: enamiku koolide koht varieerub u 20 võrra ja mõnel koguni 100 kohta 120-st! (Väga suur variatsioon tekib, kui koolil on üks eksamitulemus erakordselt hea või erakordselt halb võrreldes sama kooli ülejäänud kahe tulemusega.)

Ma ei ütle, et kui eesmärk on koole järjestada, siis see metoodika on täiesti mõttetu. Pigem tahaksin, et selliste pingeridade juures antaks ligikaudne usaldusvahemik, mis küll tihti näeks välja umbes “kool X asub vahemikus 30-80”, aga see annakski õige ettekujutuse edetabeli usaldusväärsusest.

Kas skandaal mõjutas Taavi Rõivase häälesaaki valimistel?

Tänane postitus on külalispostitus: autoriteks on Kadri Pungas ja Taavi Pungas.

Eelmisel nädalal sattusid huvitava ajastusega järjestikku mõned sündmused:

  • KOV valimiste eelhääletamine, sh e-hääletamine – kestis kolmapäeval kuni 18:00-ni.
  • Pommuudis meedias Taavi Rõivase nn Malaisia skandaali kohta – avaldati neljapäeva varahommikul, diskussioon jätkus elavalt veel mitmeid päevi.
  • KOV valimiste valimispäev – pühapäev.

Inimeste valimisotsuseid potentsiaalselt oluliselt mõjutav skandaal ilmus meedias pärast e-hääletamise lõppu, aga enne paberhääletamist valimispäeval. Teisisõnu ei saanud skandaal e-hääli mitte kuidagi mõjutada, samas kui Taavi Rõivasele antud paberhäältest peaks skandaali põhjustatud mainekahju juba välja paistma.1 Tänu Vabariigi Valimiskomisjoni lahkusele andmete avaldamisel on e-hääletamise tulemus paberhäältest eristatav, seega on võimalik kontrollida, kui palju hääli sai “skandaalne Taavi Rõivas” mainekahju tõttu vähem kui “tavaline Taavi Rõivas”.

Continue reading

Õppeainete mahust, ETH kursustest ja doktorantuurist

Täna oli mu viimane eksam ETH Zürichi arvutiteaduse magistriõppes: homsest alustan magistritöö plaanimist ja kirjanduse uurimist ja eeldatavasti valmib töö septembriks. Teema üldsuund on paigas — safe reinforcement learning ehk ohutu stiimulõpe — aga kirjutan sellest lähemalt, kui plaan selge.

Eksamite lõpu tähistamiseks tegin uuesti graafiku õppeainetele kulunud ajast — avaldasin sama interaktiivse graafiku Tartu ülikooli lõpetades, aga nüüd lisasin ka kõik läbitud ETH kursused.

Continue reading

Graafikud: Eesti palgajaotus ja palgalõhe

Riigi kodanike palk näitab midagi olulist riigi kohta: näiteks saab iga eestlane võrrelda, kas ta teenib teistest eestlastest rohkem või vähem. Uudistes, raportites ja igasugustes analüüsides räägitakse enamasti keskmisest palgast ja kuigi aritmeetiline keskmine on kõigile selge tõlgendusega arv, ütleb see palgajaotuse kohta väga vähe.1 Paljudes olukordades on keskmise palga vaatamine sama kasutu nagu ütlemine, et keskmisel inimesel on pool peenist ja üks rind.

Milline on siis Eesti palgajaotus? Guugeldades “eesti palgajaotus” on esimene tulemus palgajaotustest, mida tegin Bondora avalikke andmeid analüüsides. Delfi Ärileht on küll natuke kirjutanud keskmise ja mediaani erinevusest, aga täielikku jaotust ei suuda ma internetist leida. Sellepärast teen täna väga lühikese postituse Eesti palgajaotusega, et see oleks kuskil internetis olemas, ja jätan interpreteerimise mõneks teiseks korraks.

Siin ta on (2014. aasta andmetel):

Continue reading

78 põhjust eelistada Eestit

Eelmises postituses küsisin, miks peaks keegi eelistama elukohana Eestit välismaale, kui mujal on nii palju asju paremini — kliimast sissetulekuni. Ootasin, et saan 5-10 vastust, aga lõpuks kirjutas mu Facebooki postituse alla, blogipostituse kommentaaridesse ja isiklikult meili/sõnumiga 26 inimest. Võtan siin kokku põnevamad argumendid, mida neilt kuulsin — ka need, mille veenvuses ma tingimata kindel pole, seega loe kriitiliselt. Lisaks on järgnev kallutatud: postitus keskendub rohkem põhjustele Eestit eelistada kui tasakaalustatud analüüsile, mis on parim elamispunkt maailmas.

See pealkiri võib kõlada nagu clickbait, aga umbes nii palju põhjuseid eri inimestelt kokku sain (arvestades ka kordusi).

Continue reading

Põhinipid selgete graafikute tegemiseks

Ma pööran palju tähelepanu andmete visuaalsele esitusele. Korralikult visualiseeritud andmete põhjal saab teha kasulikke otsuseid või muuta oma meelt mõne olulise probleemi osas; halvast visualiseeringust ei ole heal juhul kellelegi kasu ja halval juhul eksitab see inimesi olulistes küsimustes. Toon siin postituses välja paar elementaarset nippi, mis aitavad minul teha graafikuid, mis a) näevad head välja ja b) annavad info kiiresti ja efektiivselt edasi.

Continue reading

Külalispostitus: Tallinna Vee erakordsed päevad börsil

Käesolev postitus on siin blogis esmakordne: see on külalispostitus Mihkel Kreelt — füüsikadoktorandilt, kelle igapäevatöös on tähtsal kohal eksperimentaalsete mõõtmisandmete statistiline töötlemine ja analüüsimine. Mihkel reageeris operatiivselt Tallinna börsil sel nädalal toimunule ja kirjutas juhtunust põneva analüüsi. Pikema jututa annan nüüd sõna talle.

Continue reading