Allikas: kraabitud Facebookist
Suurus: ligi 90 000 staatust ligi 40 lehelt
Kirjeldus: SQLite andmebaas, kus on kaks tabelit: statuses (iga rida on üks postitus) ja pages (iga rida on üks Facebooki leht, kust andmeid kraabiti). Andmed peaks olema enam-vähem ajakohased 07.04.2017 seisuga.
Kuue Eesti parlamendierakonna jaoks on eraldi fail, mis sisaldab kõiki postitusi koos kommentaaridega tabelis comments (kommentaare põhiandmebaasis ei ole). See on kraabitud 06.04.2017 seisuga.
Kasutustingimused: CC BY 4.0; viidata pungas.ee-le ja andmete originaalallikale (Facebook).
Lingid: top 40 lehte (14MB), Eesti erakondade lehed koos kommentaaridega (2.5MB).
Näide: vt allapoole.
Kasutamine:
R-is saab kasutada teeki RSQLite:
library(RSQLite)
fb_db <- src_sqlite("facebook.db")
statuses <- tbl(fb_db, "statuses")
pages <- tbl(fb_db, "pages")
print(collect(pages))
print(str(collect(statuses)))
Selle väljund:
> library(RSQLite)
>
> fb_db <- src_sqlite("facebook.db")
>
> statuses <- tbl(fb_db, "statuses")
> pages <- tbl(fb_db, "pages")
>
> print(collect(pages))
# A tibble: 45 × 3
id owner category
<chr> <chr> <chr>
1 reformierakond Reformierakond erakond
2 161252453921396 Keskerakond erakond
3 IRLerakond IRL erakond
4 rahvuspartei EKRE erakond
5 sotsdem SDE erakond
6 eestivabaerakond Vabaerakond erakond
7 postimees Postimees meedia
8 delfi.ee Delfi meedia
9 Ohtuleht Õhtuleht meedia
10 meeldib.ee meeldib.ee meedia
# ... with 35 more rows
>
> print(str(collect(statuses)))
Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 89976 obs. of 16 variables:
$ id : chr "80124492882_10154345015662883" "80124492882_10154344960697883" "80124492882_10154340901137883" "80124492882_10154340237962883" ...
$ message : chr "Loen uudiseid ja mure on. Uut valitsust tehes ja vana lõhkudes räägiti meile, et tegu on innovatiivse suitsupääsukesega. Et mur"| __truncated__ "Valitsuse plaan muuta pensionisüsteemi on tulnud rutakalt. Tänases saates esindab Reformierakonda Taavi Rõivas. Vaata lisa htt"| __truncated__ "Maris Lauri: \"Sidudes pensionimakse üksnes töötatud aastatega, soodustatakse võimalikult väikse ametliku palga maksmist.\"" "„Rail Baltic on kordumatu võimalus vähendada geograafilises mõttes Eesti kui Euroopa Liidu ääremaa staatust. Kaasaegsed ja mitm"| __truncated__ ...
$ link_name : chr "Kristen Michal valitsuse poliitikast: uuel innovatiivsel suitsupääsukesel on tiibadel naaberriigi tähised" "Foorum" "Reformierakonna fraktsioon" "Kivimägi ja Michal: Rail Balticu rajamisega tuleb edasi liikuda" ...
$ type : chr "link" "link" "video" "link" ...
$ link : chr "http://www.delfi.ee/news/paevauudised/eesti/kristen-michal-valitsuse-poliitikast-uuel-innovatiivsel-suitsupaasukesel-on-tiibade"| __truncated__ "https://goo.gl/ng26Z7" "https://www.facebook.com/reformifraktsioon/videos/1261692343947260/" "https://goo.gl/4jSCBs" ...
$ published : chr "2017-01-24 14:43:30" "2017-01-24 14:29:34" "2017-01-23 17:45:22" "2017-01-23 12:55:34" ...
$ num_reactions: int 88 24 59 13 57 168 57 10 15 38 ...
$ num_comments : int 9 0 11 4 16 13 0 0 0 1 ...
$ num_shares : int 7 1 0 3 5 2 0 0 0 0 ...
$ num_likes : int 71 23 53 13 51 166 57 10 14 38 ...
$ num_loves : int 0 0 0 0 0 2 0 0 0 0 ...
$ num_wows : int 3 1 0 0 2 0 0 0 1 0 ...
$ num_hahas : int 3 0 1 0 1 0 0 0 0 0 ...
$ num_sads : int 9 0 0 0 2 0 0 0 0 0 ...
$ num_angrys : int 2 0 5 0 1 0 0 0 0 0 ...
$ page_id : chr "reformierakond" "reformierakond" "reformierakond" "reformierakond" ...
NULL
Käsurealt saab kasutada sqlite3 programmi:
$ sqlite3 facebook.db SQLite version 3.9.2 2015-11-02 18:31:45 Enter ".help" for usage hints. sqlite> .tables pages statuses sqlite> SELECT * FROM pages; reformierakond|Reformierakond|erakond 161252453921396|Keskerakond|erakond IRLerakond|IRL|erakond rahvuspartei|EKRE|erakond sotsdem|SDE|erakond eestivabaerakond|Vabaerakond|erakond postimees|Postimees|meedia delfi.ee|Delfi|meedia Ohtuleht|Õhtuleht|meedia meeldib.ee|meeldib.ee|meedia avasta.me|AVASTA.me|meedia telegrammeedia|Telegram|meedia siitsealt.ee|SiitSealt.ee|meedia fresita|Fresita|varia Kelly-Sildaru-128602437465|Kelly Sildaru|varia testid|Testid|varia puhkaeestis|Puhka Eestis|varia luxfans|Lux Express|varia eestlased|Eestlased Facebookis|varia www.1a.ee|1a.ee|varia simplesession|Simple Session|varia raadioskyplus|Sky Plus|varia TaxifyEstonia|Taxify|varia thilves|Toomas Hendrik Ilves|varia TeliaEesti|Telia Eesti|varia samsungee|Samsung Eesti|varia selver.ee|Selver|varia sportlandeesti|Sportland Eesti|varia aegaon|Aegaon Watches|varia kinoklubi|Forum Cinemas Kinoklubi|varia tv3eesti|TV3 Eesti|varia hannahfanclub|Hannah|varia Estravel|Estravel|varia weekendbaltic|Weekend Festival Baltic|varia novatours|Novatours|varia omniva.ee|Omniva|varia Sweet.home.merje|Sweet home|varia Hotelliveeb|Hotelliveeb|varia photopoint.ee|Photopoint|varia elisaeesti|Elisa Eesti|varia KAMPAANIAINFO|VARAKAMBER|varia roccaalmare|Rocca al Mare keskus|varia 128602437465|Kelly Sildaru|varia tele2eesti|Tele2 Eesti|varia goldtime.ee|Goldtime|varia sqlite> SELECT page_id, count(*) FROM statuses GROUP BY page_id; 128602437465|536 161252453921396|1386 Estravel|1955 Hotelliveeb|865 IRLerakond|2374 KAMPAANIAINFO|13 Ohtuleht|4867 Sweet.home.merje|2058 TaxifyEstonia|21 TeliaEesti|2153 aegaon|100 avasta.me|1803 delfi.ee|5050 eestivabaerakond|1366 eestlased|516 elisaeesti|2065 goldtime.ee|785 hannahfanclub|700 kinoklubi|4658 luxfans|515 meeldib.ee|4470 novatours|834 omniva.ee|728 photopoint.ee|3602 postimees|5129 puhkaeestis|1650 raadioskyplus|2930 rahvuspartei|2048 reformierakond|2425 roccaalmare|2018 samsungee|3359 selver.ee|1637 siitsealt.ee|1353 simplesession|4168 sotsdem|2456 sportlandeesti|2547 tele2eesti|1482 telegrammeedia|2537 thilves|4057 tv3eesti|3893 weekendbaltic|864 www.1a.ee|2003