Paar aastat tagasi otsustasin, et andmetega tegelemine on pikaajaliselt mõistlik: esiteks tundus see mu olemasolevate kalduvustega sobivat, teiseks tundus masinõppe kontseptsioon mulle äge ja võimas ja kolmandaks tundus, et tegu on tulevikus aina olulisemaks muutuva alaga.
Tagantjärele tundub objektiivselt — töö- ja koostööpakkumiste ja üldise huvi põhjal –, et mu valik oli õige. Arvan, et see on siiani mõistlik suund, kuhu siseneda: soovitan praegu ülikoolis esimestel kursustel õppijatele keskenduda andmetöötlusele. See soovitus kehtib sõltumata erialast ja tegelikult isegi juba ammu ülikooli lõpetanutele: olla “see tüüp, kes andmetega värki teha oskab” oma alal (olgu see sotsiaalteadus ülikoolis või tootearendus firmas) on hea nišš ja hea viis olla kasulik paljudele kolleegidele.
Pealegi on tegu üldistuvate oskustega, mistõttu ei ole keeruline liikuda teise firmasse või teadussuunda ja seal samasugust väärtust pakkuda. Ma tean vähemalt kaht psühholoogia taustaga andmeteadlast, üht keemikut, üht majandusteadlast ja hunnikut arvutiteadlasi/matemaatikuid/statistikuid/füüsikuid. Tugeva matemaatilise taustaga on võimalik päris kiiresti masinõppega järje peale saada ja ülejäänutel on võimalus võtta ette andmeteaduse teine pool: visualiseerimine ja sisuline analüüs — kaks asja, mis on ettevõtetes väga kasulikud.
Ülalkirjutatust on paljud kindlasti aru saanud ja leidnud, et andmetega töötamine on tõepoolest äge, ning võib-olla isegi võtnud paari kursust sel teemal. Selles positsioonis olles on õppimise mõttes väga väärtuslik teha praktilisi projekte, aga kohe kerkivad küsimused: mis küsimusele oleks huvitav vastata? Mis andmeid võiks selleks kasutada (ja mis on üldse kättesaadav)?
Nendele küsimustele vastamiseks lõin datasci.ee alla lehe, kus on praegu 10 projektiideed, igaühe kohta lühike motivatsioon, kirjeldus ja raskusaste. Projekte on nii lihtsaid kui keerulisi ning nad eeldavad eri taustaga inimesi, seega loodan, et sealt on igaühel midagi põnevat leida.
PS: Lehele saab uusi projektiideid Githubi kaudu lisada igaüks, seega ära jäta oma ideed sahtlisse vedelema!
Jaga:
Kui eesmärgiks oleks olla “see tüüp, kes andmetega värki teha oskab”, aga koolid on kuidagi nii läbi saanud, et midagi vastavat pole külge jäänud, põhjuseks omaaegne huvipuudus koostöös halva ajastusega (segane üleminekuaeg kus pidevalt õppekavasid jooksvalt muudeti), siis mis võiks olla mõistlikud sammud et ennast jõukohaste juppide haaval asjaga kurssi viia?
Vabandan veninud vastuse eest!
Ma arvan, et oluline komponent sellele küsimusele vastamisel on su isiklik motivatsioon: palju parem on alustada asjadest, mille vastu tunned sisemist huvi ja indu (ja millega juba praegu enam-vähem hakkama saad), sest siis on palju suurem tõenäosus, et jääd ka sellega tegelema.
Andmete visualiseerimine on selles mõttes hea: tagasiside on kiire ja peaaegu ükskõik millisest andmestikust leiab visualiseerides midagi huvitavat.
Kõige lihtsam on alustada tööriistadega, mida juba tunned — ilmselt Excel / Google Sheets –, aga kui tahad sammu edasi minna ja sul programmeerimistausta pole, soovitan õppida tsipa R-i ja siis kasutada sealseid pakette dplyr ja ggplot2 — need on supermugavad ja intuitiivsed tööriistad. Spetsiifiliselt võiks sobida näiteks need kaks kursust (mida ise ka alustades tegin):
1. paaritunnine online-kursus R-i kasutamisest: https://www.datacamp.com/courses/free-introduction-to-r
2. TÜ andmeteaduse aine (3EAP) praktikumide läbitegemine ja võib-olla loengute jälgimine: https://andmeteadus.github.io/2017/
Need kaks annavad head esialgsed oskused. Kui tahaksid alustada veidi suuremast pildist ja enne aru saada, millega andmeteadus tegeleb ja milline see töö välja võiks näha, siis Coursera andmeteaduse suuna esimesed kursused teevad täpselt seda (ja järgmised kursused annavad konkreetseid oskusi, mis on samuti väga kasulikud): https://www.coursera.org/specializations/jhu-data-science
Kui sul veel küsimusi on, võin heameelega vastata, loodetavasti kiiremini kui nädal hiljem :).
Hei! Kuna ma tulin andmeteadusesse eksperimentaalpsühholoogia taustaga, siis Taivo küsis, kuidas ma sellele küsimusele enda vaatenurgast vastaksin. Äkki on sellest abi 🙂
Kaggle-i tehtud statistika kohaselt kasutavad andmeteadlased kõige tihemini regressiooni , klasterdamist ja otsustuspuud (http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html). Seega, kõige efektiivsem oleks ilmselt esimesena teha kolm projekti, mis neid meetodeid kasutaks. Näiteks:
• Regressioon: https://www.kaggle.com/c/house-prices-advanced-regression-techniques (kõige keerulisem)
• Klasterdamine: https://www.kaggle.com/uciml/iris (kõige lihtsam)
• Otsustuspuu: https://www.kaggle.com/c/titanic
Kõige rohkem kasutatakse Pythonit ja R-i. R-i on lihtsam selgeks õppida ja selles on lihtsam ilusaid visualisatsioone teha, aga Python on kiirem ja ettevõtetes kasutatakse seda tihemini.
• http://www.datacamp.com on hea koht, kus mõlemat programmi õppida. Seal on R-i kohta palju rohkem kursuseid ja see on tasuline. Siin on ülevaade R-i ja Pythoni online kursustest: https://medium.freecodecamp.com/if-you-want-to-learn-data-science-start-with-one-of-these-programming-classes-fb694ffe780c
• Statistikat on hea õppida näiteks Andy Fieldi või Triola statistikaõpiku järgi. Selleks, et lihtsalt midagi andmetega teha, võibki minu meelest piisata lihtsalt sellest, kui Andy Fieldi õpikust R-i kasutamist õppida. Harvardi statistikaloengud on ka YouTube-is: https://www.youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo.
• Inspiratsiooniks on hea vaadata näiteks Siraj Ravali YouTube-i videosid