Andmeteadust kirjeldatakse viimasel ajal tihti kui 21. sajandi seksikaimat ametit. Üks töökaaslane mainis mulle hiljuti, et Eestis lihtsalt ei ole piisavalt tarkvarainsenere, kes oleksid ka andmetega tugevad. Ennustatakse, et järgmise paari aasta jooksul jääb maailmas täitmata sadu tuhandeid andmeteadlase kohti. Igatpidi on selge, et on hea aeg andmeteadusega tegelema hakata, aga kuidas?
Eestikeelseid materjale ei ole peaaegu üldse, kui välja arvata üks andmeteaduse kursus ja mõned blogid. Samuti ei ole eesti keeles kirjeldatud, milles võiks kasvav andmeteadlane end arendada — põhjalikumaks lugemiseks inglise keeles soovitan selle Quora küsimuse vastuseid ja Open Source Data Science Masters (OSDSM) õppekava.1
Siin postituses võtan kokku, a) mis oskustest minu hinnangul — nii isikliku kogemuse kui ka loetu/kuuldu põhjal — on andmeteadlase tööriistakastis väga palju kasu ning b) kuidas teha algust kõige vajaliku omandamisega.
Kõige olulisemad oskused
Allpool on graaf, mille esialgu koostasin endale ülevaate saamiseks sellest, kuhu suunas areneda.
Ma tean, et see joonis on stiilis “minu 237 prioriteeti elus”2, aga tahtsin joonisele mahutada võimalikult suure hulga olulisi oskuseid. Päris kindlasti on siit jooniselt üht-teist olulist välja jäänud3, seega soovitan endal juurde mõelda ja uurida, mida veel vaja oleks.
Lauri tegi selle joonise kohta hea märkuse: need oskused on olulised praegu, aga kasutatavad tehnoloogiad ja meetodid muutuvad. Seetõttu on oluline pidevalt juurde õppida ja end arengutega kursis hoida.4
Kust alustada
Siin alajaotuses toodu sõltub palju sellest, millise osaga andmetöötluse torus5 tegeleda. Näiteks ei ole ärianalüütikul (Business Analyst) vaja tunda paralleel- ja pilvearvutuse iseärasusi; need jäävad rohkem andmeinseneri (Data [Software] Engineer) valdkonda.
Allpool toon materjalidest ära ainult kõige märkimisväärsemad; Google’i abiga ja OSDSM õppekavast leiab palju materjale veel. Joonis sisaldab oskustele lisaks mõnes kohas ka alamoskusi ja viise nende õppimiseks, kuna piir oskuse ja õpimeetodi vahel pole alati selge.
Programmeerimine ja arvutiteadus
Kui siit jooniselt valida kõige tähtsam oskus, siis soovitan õppida ära R-keele koos joonisel toodud pakettidega. R-keele alustega tutvumiseks on väga mugav brauseripõhine paaritunnine tasuta kursus; edasijõudnumat analüüsi ja visualiseerimist R-is saab (eesti keeles!) õppida TÜ andmeteaduse kursuse materjalide põhjal.
Excel on väga kasulik väga kiirete analüüside ja jooniste tegemiseks, lisaboonuseks on, et pea kõik teised oskavad samuti Exceliga ümber käia ja saavad tehtust aru. Samuti on oluline SQL tundmine, kuna see on põhiline viis ‘päris elu’ andmebaasidest andmete kättesaamiseks. Python on R-ist tunduvalt võimalusterohkem programmeerimiskeel, millest on kasu muuhulgas osana suuremast andmetöötluse torust, andmete kraapimisel veebist, tekstitöötlusel jpm.
Kõigi eelmainitud tehnoloogiate õppimisel on kasulik teha miniprojekte — nii kinnistub õpitu tunduvalt paremini ja õpimotivatsioon on suurem. Parem on teha palju lühikesi projekte kui paari suurt, kuna nii on ühele õpi-iteratsioonile kuluv aeg väiksem ja kokkuvõttes õpid kiiremini.
Algoritmide ja andmestruktuuride ning andmebaaside ehituse tundmine aitab kiiremini õppida uusi tehnoloogiaid ning aru saada programmide/päringute siseehitusest ja efektiivsusest.
Visualiseerimine
Jooniste tegemisel soovitan alustada korralike Exceli jooniste tegemaõppimisest.6 Järgmine samm on R-i teek ggplot2, mis on väga kasulik ja väga laialt kasutusel — sellega saab tutvuda TÜ andmeteaduse kursuse lehel.
Veel soovitan uurida disainipõhimõtete kohta jooniste tegemisel ja meenutada, millised on Sinu arvates hästidisainitud joonised ja veebilehed.
D3.js on vaid üks paljudest tööriistadest andmete visualiseerimiseks veebis, mina õppisin seda kasutama ühe tasuta raamatu abil.
Domeeni- ja äriteadmised
Üritasin siia koondada äriga tihedamalt seonduva. Mulle tundub, et suuremat osa sellest on väga keeruline omandada muudmoodi kui päriselt ettevõttes töötades, aga kindlasti leidub.
Kui kuskilt alustada, siis ‘tootega seonduvast’ — see sisaldab endas asju, mis on toote arendamise (ehk ettevõtte) seisukohalt väga olulised.
Tableau on kiiresti kasvav ja juba laialt kasutusel olev BI tööriist, aga leidub palju sarnase funktsionaalsusega tööriistu.
Domeeniteadmisi on võimalik omandada lihtsalt end uudiste ja ala alustega kurssi viies ja võistlustel (kus ettevõtted panevad oma andmeid analüüsimiseks välja), aga ilmselt kõige lihtsam ettevõttes töötades.
Big data ja pilvearvutus
Siin ei oska ma väga palju kommenteerida, kuna olen ise väga vähe pilve- ja paralleelarvutusega tegelenud; soovitan pigem guugeldada. Samas, nagu mainitud, ei pruugi sõltuvalt valitud toru osast need teadmised nii olulised olla.
Matemaatiline ja teaduslik taust
Need teadmised on ilmselt andmeteadlase jaoks kõige olulisemad, aga ka kõige raskemad omandada. Kui oled tugevalt motiveeritud, siis saad ilmselt siit põhilise õppida ise MOOCide ja õpikute abiga, aga kõige klassikalisem tee on ülikooliharidus.
Eesti ülikoolides (minu TÜ kogemuse põhjal) annavad neid oskusi enim füüsika, statistika ja arvutiteaduse erialad.7 Ka teised teadused (nt keemia või molekulaarbioloogia) ilmselt sobiksid, aga selle sektsiooni oskused nõuavad tugevat matemaatilist tausta, mida Eestis enamikul õppekavadest ei nõuta.
Pehmed oskused
Siin on jällegi palju kasu töökogemusest, aga kindlasti ka erinevate organisatsioonide ja projektide raames tiimis töötamisest. Kirjutasin hiljuti ka pikemalt suhtlusoskuse arendamisest, eriti alustamisest. Individuaalselt saab ennast muuhulgas täiendada erinevaid suhtlusega seotud TED-kõnesid vaadates ja lugedes, kuigi sellist kuiva trenni tehes saabub arvatavasti kasulikkuse piir üsna ruttu.
Kokkuvõte
Ilmselt on igaühe teekond heaks andmeteadlaseks saamisel erinev ja see erinevus tuleb tiimis kokkuvõttes kasuks. Andsin mõned kohad, kust alustada; soovitan alustuseks valida ainult paar asja, millele keskenduda, kuna kõike korraga niikuinii õppida ei saa (ja palju asju tuleb/saab õppida töö kõrvalt). Kõige olulisem on meeles hoida, et vajadus õppida ei kao ka karjääris edasi liikudes kuhugi.
Minu sarnaste postitustega kursis olemiseks telli need otse meilile:
Jaga:
Märkused
- OSDSM nimes on sõna ‘magister’ põhjusega — see eeldab mõningaid alusteadmisi.
- Kui prioriteete on nii palju, siis ei saa nad olla päriselt prioriteetsed.
- Ma ei tea, mis.
- a) Pidev arenemine on loomulikult nõue ka väga paljudel teistel aladel. b) Minu jaoks on pideva juurdeõppimise vajadus pigem pluss kui miinus.
- Kogumine >> hoiustamine >> puhastamine >> analüüsimine & visualiseerimine >> interpreteerimine >> otsuste tegemine.
- Ja edasiliikumisest, kui selgub paratamatu tõsiasi, et Exceli funktsionaalsus on siin üsna piiratud.
- See sõltub loomulikult ka õppekavas tehtud valikutest — ilmselt tuleks füüsikas valida kõrvale arvutiteadust ja statistikat, statistikat õppides kõrvale võtta arvutiteadust ja arvutiteadlasena tugevdada oma statistika ja matemaatika teadmisi.