Ettekanne: andmeteadusest ja masinõppest TÜ informaatikutele

Eelmisel nädalal rääkisin Tartu ülikooli informaatika esmakursuslastele andmeteaduse ja masinõppe põnevusest ja olulisusest. Slaidid leiad siit ja video siit.

Ettekanne tuli üsna hästi välja hoolimata sellest, et peaaegu ainuke teema mu peas viimase kahe kuu jooksul on olnud robotite ehitamine, ja tudengite tagasiside oli päris hea: 154 tudengi tagasiside keskmine hinne oli viiepalliskaalal 4.55.

Minu jaoks põnevaim üksik slaid oli andmeteaduse rollist suures pildis: see peaks aitama jõuda arusaamatust ja mürasest andmekogust selgete ja praktiliste otsusteni.

Riigieksamite edetabelite metoodika ei ole eriti robustne

Ükskõik millise analüüsi metoodikas on võimalik kahelda, aga üks kasulik küsimus on: kui palju muutuksid tulemused, kui metoodikat veidi muuta?

Postimehe tehtud koolide pingerida riigieksamitulemuste põhjal teeb mitu eeldust, muuhulgas selle, et kõik kolm ainet on võrdse kaaluga (seal on veel mitu subjektiivset otsust, näiteks inglise keele tulemuste arvessevõtmise metoodika, aga jätame nad praegu kõrvale). Mis juhtub, kui varieerime eri ainete kaale?

Võtsin Postimehe tabeli ja simuleerisin 500 korda, milline oleks edetabel, kui võrdsete kaalude asemel kasutame juhuslikke kaale (ühtlane jaotus [0, 1], normaliseeritud nii, et summa oleks konstantne). See peaks näitama, kui robustsed on tulemused variatsioonidele metoodikas.

Graafikul on x-teljel Postimehe järjekorranumber ja y-teljel iga kooli jaoks 500 simuleeritud järjekorranumbrit. Iga joon on üks simulatsioon. Mida rohkem iga kooli simuleeritud järjekorranumber vertikaalselt laiali määritud on, seda rohkem muudab täpne metoodika selle kooli edetabelikohta.

Edetabeli tipp — nii esimesed 5 kohta — eriti ei varieeru. Sealt edasi läheb asi aga kiiresti palju kirjumaks: enamiku koolide koht varieerub u 20 võrra ja mõnel koguni 100 kohta 120-st! (Väga suur variatsioon tekib, kui koolil on üks eksamitulemus erakordselt hea või erakordselt halb võrreldes sama kooli ülejäänud kahe tulemusega.)

Ma ei ütle, et kui eesmärk on koole järjestada, siis see metoodika on täiesti mõttetu. Pigem tahaksin, et selliste pingeridade juures antaks ligikaudne usaldusvahemik, mis küll tihti näeks välja umbes “kool X asub vahemikus 30-80”, aga see annakski õige ettekujutuse edetabeli usaldusväärsusest.

Kas skandaal mõjutas Taavi Rõivase häälesaaki valimistel?

Tänane postitus on külalispostitus: autoriteks on Kadri Pungas ja Taavi Pungas.

Eelmisel nädalal sattusid huvitava ajastusega järjestikku mõned sündmused:

  • KOV valimiste eelhääletamine, sh e-hääletamine – kestis kolmapäeval kuni 18:00-ni.
  • Pommuudis meedias Taavi Rõivase nn Malaisia skandaali kohta – avaldati neljapäeva varahommikul, diskussioon jätkus elavalt veel mitmeid päevi.
  • KOV valimiste valimispäev – pühapäev.

Inimeste valimisotsuseid potentsiaalselt oluliselt mõjutav skandaal ilmus meedias pärast e-hääletamise lõppu, aga enne paberhääletamist valimispäeval. Teisisõnu ei saanud skandaal e-hääli mitte kuidagi mõjutada, samas kui Taavi Rõivasele antud paberhäältest peaks skandaali põhjustatud mainekahju juba välja paistma.1 Tänu Vabariigi Valimiskomisjoni lahkusele andmete avaldamisel on e-hääletamise tulemus paberhäältest eristatav, seega on võimalik kontrollida, kui palju hääli sai “skandaalne Taavi Rõivas” mainekahju tõttu vähem kui “tavaline Taavi Rõivas”.

Continue reading

Sissejuhatus andmeteadusse

Terve suve on minu poolt postituste põud olnud. Ühelt poolt olen keskendunud magistritööle (tähtaeg on septembri lõpus), aga veel suurem põhjus on olnud Data Science Estonia.

Nimelt kirjutasin koos paari teise panustajaga datasci.ee lehele 7-osalise postituste seeria “Sissejuhatus andmeteadusse” — soovitan seda lühidalt vaadata ja kui praegu lugeda ei jõua, siis meilile tellida.

Lisaks sellele olen organiseerinud üritusi seeriast Ülikoolist andmeteadusse, mille eesmärk on tuua erinevate erialade tudengitele rääkima sama taustaga andmeteadlane, kes siis räägiks oma põhjustest ja teekonnast andmeteadusse minekul. Esimene üritus toimus septembri alguses Tartus, teine toimub samas juba sel reedel ja kolmandat plaanime oktoobriks Tallinnasse. Videod, slaidid ja tulevaste ürituste lingid leiad datasci.ee/meetup.

Kolmas põhjus, miks vähem kirjutan, ongi minu jaoks veidi asendus blogimisele. Tulen sellega välja ilmselt oktoobri alguses, aga tehniliselt on ta juba praegu avalikult kättesaadav — pead lihtsalt oskama otsida. Kindlasti annan ka blogis ja meililistis teada, kui projekt avapaugu saab; jää ootama!

Neli sõnakõlksu: masinõpe, tehisintellekt, suurandmed, andmeteadus

Jagan nelja enda definitsiooni mõistetest, mida kasutatakse palju, aga mille jaoks üldlevinud definitsioone kokku lepitud pole.

Masinõpe [machine learning]: hulk meetodeid, mis võimaldavad arvutil õppida kogemuste põhjal keerulisi ülesandeid lahendama.

Masinõppe kohta kirjutasin paar kuud tagasi ka põhjaliku postituse.

Tehisintellekt [artificial intelligence]:

1) inimese poolt loodud agent, mis on intelligentne, kus “intelligentne” tähendab ligikaudu “inimtasemel”. Mõnikord mõeldakse ka tehisintellekti all üldist intellekti, mis tähendab, et agent on võimeline õppima erinevaid ülesandeid lahendama ja teadmisi ühest ülesandest teise üle kandma.

2) uurimissuund, mille eesmärk on arendada ülalmainitud agente.Tehisintellekt kasutab palju masinõppe meetodeid, aga ka klassikalisemaid arvutiteaduse algoritme (nt otsingupuid).

Suurandmed [big data]: andmestikud, mis ei mahu ühe arvuti mällu (RAMi).

Suurima mäluga Amazoni virtuaalmasinal on praegu mälu 2 TB (2000 GB). Mõnikord mahuvad andmed küll ära, aga nende töötlemine võib nõuda kordades rohkem mälu.

Andmeteadus [data science]: ükskõik milline tegevus, mis aitab andmete põhjal kasulikke otsuseid teha.

See võib tähendada väga mittetehnilisi asju nagu kirjalikke analüüse või lihtsat kirjeldavat statistikat, veidi tehnilisemat tööd nagu andmete ettevalmistamist või visualiseerimist, või matemaatiliselt keerulisemaid asju nagu ennustamist (masinõppe meetodeid kasutades).

Projektiideed andmeteaduses

Paar aastat tagasi otsustasin, et andmetega tegelemine on pikaajaliselt mõistlik: esiteks tundus see mu olemasolevate kalduvustega sobivat, teiseks tundus masinõppe kontseptsioon mulle äge ja võimas ja kolmandaks tundus, et tegu on tulevikus aina olulisemaks muutuva alaga.

Tagantjärele tundub objektiivselt — töö- ja koostööpakkumiste ja üldise huvi põhjal –, et mu valik oli õige. Arvan, et see on siiani mõistlik suund, kuhu siseneda: soovitan praegu ülikoolis esimestel kursustel õppijatele keskenduda andmetöötlusele. See soovitus kehtib sõltumata erialast ja tegelikult isegi juba ammu ülikooli lõpetanutele: olla “see tüüp, kes andmetega värki teha oskab” oma alal (olgu see sotsiaalteadus ülikoolis või tootearendus firmas) on hea nišš ja hea viis olla kasulik paljudele kolleegidele.

Pealegi on tegu üldistuvate oskustega, mistõttu ei ole keeruline liikuda teise firmasse või teadussuunda ja seal samasugust väärtust pakkuda. Ma tean vähemalt kaht psühholoogia taustaga andmeteadlast, üht keemikut, üht majandusteadlast ja hunnikut arvutiteadlasi/matemaatikuid/statistikuid/füüsikuid. Tugeva matemaatilise taustaga on võimalik päris kiiresti masinõppega järje peale saada ja ülejäänutel on võimalus võtta ette andmeteaduse teine pool: visualiseerimine ja sisuline analüüs — kaks asja, mis on ettevõtetes väga kasulikud.

Ülalkirjutatust on paljud kindlasti aru saanud ja leidnud, et andmetega töötamine on tõepoolest äge, ning võib-olla isegi võtnud paari kursust sel teemal. Selles positsioonis olles on õppimise mõttes väga väärtuslik teha praktilisi projekte, aga kohe kerkivad küsimused: mis küsimusele oleks huvitav vastata? Mis andmeid võiks selleks kasutada (ja mis on üldse kättesaadav)?

Nendele küsimustele vastamiseks lõin datasci.ee alla lehe, kus on praegu 10 projektiideed, igaühe kohta lühike motivatsioon, kirjeldus ja raskusaste. Projekte on nii lihtsaid kui keerulisi ning nad eeldavad eri taustaga inimesi, seega loodan, et sealt on igaühel midagi põnevat leida.

PS: Lehele saab uusi projektiideid Githubi kaudu lisada igaüks, seega ära jäta oma ideed sahtlisse vedelema!

Õppeainete mahust, ETH kursustest ja doktorantuurist

Täna oli mu viimane eksam ETH Zürichi arvutiteaduse magistriõppes: homsest alustan magistritöö plaanimist ja kirjanduse uurimist ja eeldatavasti valmib töö septembriks. Teema üldsuund on paigas — safe reinforcement learning ehk ohutu stiimulõpe — aga kirjutan sellest lähemalt, kui plaan selge.

Eksamite lõpu tähistamiseks tegin uuesti graafiku õppeainetele kulunud ajast — avaldasin sama interaktiivse graafiku Tartu ülikooli lõpetades, aga nüüd lisasin ka kõik läbitud ETH kursused.

Continue reading

Mis on hobuse täpne vastand?

Pean nimekirja asjadest, millest tahan kunagi kirjutada. Aeg-ajalt (kord nädalas) võtan sealt ühe teema ja kirjutan postituse, aga mõned küsimused jäävad alati kõrvale, sest tunduvad kas liiga ebaolulised või pisikesed, et omaette postitust vääriks.

Tänane postitus on just sellistest väikestest küsimustest.

  • Miks on isesõitvate autodega maailm parem?
  • Kui hästi Eesti haridussüsteemil läheb?
  • Kas Eesti ilm on objektiivselt halvem kui mujal?
  • Mis juhtuks, kui klooniksin ennast ja kasvataksin klooni üles?
  • Kui eriline on Eesti startup-scene?
  • Mida ei suuda masinõpe/tehisintellekt teha?
  • Mis on hobuse täpne vastand?

Continue reading