Projektiideed andmeteaduses

Paar aastat tagasi otsustasin, et andmetega tegelemine on pikaajaliselt mõistlik: esiteks tundus see mu olemasolevate kalduvustega sobivat, teiseks tundus masinõppe kontseptsioon mulle äge ja võimas ja kolmandaks tundus, et tegu on tulevikus aina olulisemaks muutuva alaga.

Tagantjärele tundub objektiivselt — töö- ja koostööpakkumiste ja üldise huvi põhjal –, et mu valik oli õige. Arvan, et see on siiani mõistlik suund, kuhu siseneda: soovitan praegu ülikoolis esimestel kursustel õppijatele keskenduda andmetöötlusele. See soovitus kehtib sõltumata erialast ja tegelikult isegi juba ammu ülikooli lõpetanutele: olla “see tüüp, kes andmetega värki teha oskab” oma alal (olgu see sotsiaalteadus ülikoolis või tootearendus firmas) on hea nišš ja hea viis olla kasulik paljudele kolleegidele.

Pealegi on tegu üldistuvate oskustega, mistõttu ei ole keeruline liikuda teise firmasse või teadussuunda ja seal samasugust väärtust pakkuda. Ma tean vähemalt kaht psühholoogia taustaga andmeteadlast, üht keemikut, üht majandusteadlast ja hunnikut arvutiteadlasi/matemaatikuid/statistikuid/füüsikuid. Tugeva matemaatilise taustaga on võimalik päris kiiresti masinõppega järje peale saada ja ülejäänutel on võimalus võtta ette andmeteaduse teine pool: visualiseerimine ja sisuline analüüs — kaks asja, mis on ettevõtetes väga kasulikud.

Ülalkirjutatust on paljud kindlasti aru saanud ja leidnud, et andmetega töötamine on tõepoolest äge, ning võib-olla isegi võtnud paari kursust sel teemal. Selles positsioonis olles on õppimise mõttes väga väärtuslik teha praktilisi projekte, aga kohe kerkivad küsimused: mis küsimusele oleks huvitav vastata? Mis andmeid võiks selleks kasutada (ja mis on üldse kättesaadav)?

Nendele küsimustele vastamiseks lõin datasci.ee alla lehe, kus on praegu 10 projektiideed, igaühe kohta lühike motivatsioon, kirjeldus ja raskusaste. Projekte on nii lihtsaid kui keerulisi ning nad eeldavad eri taustaga inimesi, seega loodan, et sealt on igaühel midagi põnevat leida.

PS: Lehele saab uusi projektiideid Githubi kaudu lisada igaüks, seega ära jäta oma ideed sahtlisse vedelema!

Graafikud: Eesti palgajaotus ja palgalõhe

Riigi kodanike palk näitab midagi olulist riigi kohta: näiteks saab iga eestlane võrrelda, kas ta teenib teistest eestlastest rohkem või vähem. Uudistes, raportites ja igasugustes analüüsides räägitakse enamasti keskmisest palgast ja kuigi aritmeetiline keskmine on kõigile selge tõlgendusega arv, ütleb see palgajaotuse kohta väga vähe.1 Paljudes olukordades on keskmise palga vaatamine sama kasutu nagu ütlemine, et keskmisel inimesel on pool peenist ja üks rind.

Milline on siis Eesti palgajaotus? Guugeldades “eesti palgajaotus” on esimene tulemus palgajaotustest, mida tegin Bondora avalikke andmeid analüüsides. Delfi Ärileht on küll natuke kirjutanud keskmise ja mediaani erinevusest, aga täielikku jaotust ei suuda ma internetist leida. Sellepärast teen täna väga lühikese postituse Eesti palgajaotusega, et see oleks kuskil internetis olemas, ja jätan interpreteerimise mõneks teiseks korraks.

Siin ta on (2014. aasta andmetel):

Continue reading

Külalispostitus: Tallinna Vee erakordsed päevad börsil

Käesolev postitus on siin blogis esmakordne: see on külalispostitus Mihkel Kreelt — füüsikadoktorandilt, kelle igapäevatöös on tähtsal kohal eksperimentaalsete mõõtmisandmete statistiline töötlemine ja analüüsimine. Mihkel reageeris operatiivselt Tallinna börsil sel nädalal toimunule ja kirjutas juhtunust põneva analüüsi. Pikema jututa annan nüüd sõna talle.

Continue reading