Eesti Facebooki lehed

Allikas: kraabitud Facebookist

Suurus: ligi 90 000 staatust ligi 40 lehelt

Kirjeldus: SQLite andmebaas, kus on kaks tabelit: statuses (iga rida on üks postitus) ja pages  (iga rida on üks Facebooki leht, kust andmeid kraabiti). Andmed peaks olema enam-vähem ajakohased 07.04.2017 seisuga.

Kuue Eesti parlamendierakonna jaoks on eraldi fail, mis sisaldab kõiki postitusi koos kommentaaridega tabelis comments  (kommentaare põhiandmebaasis ei ole). See on kraabitud 06.04.2017 seisuga.

Kasutustingimused: CC BY 4.0; viidata pungas.ee-le ja andmete originaalallikale (Facebook).

Lingid: top 40 lehte (14MB), Eesti erakondade lehed koos kommentaaridega (2.5MB).

Näide: vt allapoole.

Kasutamine:

R-is saab kasutada teeki RSQLite:

library(RSQLite)

fb_db <- src_sqlite("facebook.db")

statuses <- tbl(fb_db, "statuses")
pages <- tbl(fb_db, "pages")

print(collect(pages))

print(str(collect(statuses)))

Selle väljund:

> library(RSQLite)
> 
> fb_db <- src_sqlite("facebook.db")
> 
> statuses <- tbl(fb_db, "statuses")
> pages <- tbl(fb_db, "pages")
> 
> print(collect(pages))
# A tibble: 45 × 3
                 id          owner category
              <chr>          <chr>    <chr>
1    reformierakond Reformierakond  erakond
2   161252453921396    Keskerakond  erakond
3        IRLerakond            IRL  erakond
4      rahvuspartei           EKRE  erakond
5           sotsdem            SDE  erakond
6  eestivabaerakond    Vabaerakond  erakond
7         postimees      Postimees   meedia
8          delfi.ee          Delfi   meedia
9          Ohtuleht       Õhtuleht   meedia
10       meeldib.ee     meeldib.ee   meedia
# ... with 35 more rows
> 
> print(str(collect(statuses)))
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':	89976 obs. of  16 variables:
 $ id           : chr  "80124492882_10154345015662883" "80124492882_10154344960697883" "80124492882_10154340901137883" "80124492882_10154340237962883" ...
 $ message      : chr  "Loen uudiseid ja mure on. Uut valitsust tehes ja vana lõhkudes räägiti meile, et tegu on innovatiivse suitsupääsukesega. Et mur"| __truncated__ "Valitsuse plaan muuta pensionisüsteemi on tulnud rutakalt. Tänases saates esindab Reformierakonda Taavi Rõivas. Vaata lisa  htt"| __truncated__ "Maris Lauri: \"Sidudes pensionimakse üksnes töötatud aastatega, soodustatakse võimalikult väikse ametliku palga maksmist.\"" "„Rail Baltic on kordumatu võimalus vähendada geograafilises mõttes Eesti kui Euroopa Liidu ääremaa staatust. Kaasaegsed ja mitm"| __truncated__ ...
 $ link_name    : chr  "Kristen Michal valitsuse poliitikast: uuel innovatiivsel suitsupääsukesel on tiibadel naaberriigi tähised" "Foorum" "Reformierakonna fraktsioon" "Kivimägi ja Michal: Rail Balticu rajamisega tuleb edasi liikuda" ...
 $ type         : chr  "link" "link" "video" "link" ...
 $ link         : chr  "http://www.delfi.ee/news/paevauudised/eesti/kristen-michal-valitsuse-poliitikast-uuel-innovatiivsel-suitsupaasukesel-on-tiibade"| __truncated__ "https://goo.gl/ng26Z7" "https://www.facebook.com/reformifraktsioon/videos/1261692343947260/" "https://goo.gl/4jSCBs" ...
 $ published    : chr  "2017-01-24 14:43:30" "2017-01-24 14:29:34" "2017-01-23 17:45:22" "2017-01-23 12:55:34" ...
 $ num_reactions: int  88 24 59 13 57 168 57 10 15 38 ...
 $ num_comments : int  9 0 11 4 16 13 0 0 0 1 ...
 $ num_shares   : int  7 1 0 3 5 2 0 0 0 0 ...
 $ num_likes    : int  71 23 53 13 51 166 57 10 14 38 ...
 $ num_loves    : int  0 0 0 0 0 2 0 0 0 0 ...
 $ num_wows     : int  3 1 0 0 2 0 0 0 1 0 ...
 $ num_hahas    : int  3 0 1 0 1 0 0 0 0 0 ...
 $ num_sads     : int  9 0 0 0 2 0 0 0 0 0 ...
 $ num_angrys   : int  2 0 5 0 1 0 0 0 0 0 ...
 $ page_id      : chr  "reformierakond" "reformierakond" "reformierakond" "reformierakond" ...
NULL

Käsurealt saab kasutada sqlite3 programmi:

$ sqlite3 facebook.db
SQLite version 3.9.2 2015-11-02 18:31:45
Enter ".help" for usage hints.
sqlite> .tables
pages     statuses

sqlite> SELECT * FROM pages;
reformierakond|Reformierakond|erakond
161252453921396|Keskerakond|erakond
IRLerakond|IRL|erakond
rahvuspartei|EKRE|erakond
sotsdem|SDE|erakond
eestivabaerakond|Vabaerakond|erakond
postimees|Postimees|meedia
delfi.ee|Delfi|meedia
Ohtuleht|Õhtuleht|meedia
meeldib.ee|meeldib.ee|meedia
avasta.me|AVASTA.me|meedia
telegrammeedia|Telegram|meedia
siitsealt.ee|SiitSealt.ee|meedia
fresita|Fresita|varia
Kelly-Sildaru-128602437465|Kelly Sildaru|varia
testid|Testid|varia
puhkaeestis|Puhka Eestis|varia
luxfans|Lux Express|varia
eestlased|Eestlased Facebookis|varia
www.1a.ee|1a.ee|varia
simplesession|Simple Session|varia
raadioskyplus|Sky Plus|varia
TaxifyEstonia|Taxify|varia
thilves|Toomas Hendrik Ilves|varia
TeliaEesti|Telia Eesti|varia
samsungee|Samsung Eesti|varia
selver.ee|Selver|varia
sportlandeesti|Sportland Eesti|varia
aegaon|Aegaon Watches|varia
kinoklubi|Forum Cinemas Kinoklubi|varia
tv3eesti|TV3 Eesti|varia
hannahfanclub|Hannah|varia
Estravel|Estravel|varia
weekendbaltic|Weekend Festival Baltic|varia
novatours|Novatours|varia
omniva.ee|Omniva|varia
Sweet.home.merje|Sweet home|varia
Hotelliveeb|Hotelliveeb|varia
photopoint.ee|Photopoint|varia
elisaeesti|Elisa Eesti|varia
KAMPAANIAINFO|VARAKAMBER|varia
roccaalmare|Rocca al Mare keskus|varia
128602437465|Kelly Sildaru|varia
tele2eesti|Tele2 Eesti|varia
goldtime.ee|Goldtime|varia

sqlite> SELECT page_id, count(*) FROM statuses GROUP BY page_id;
128602437465|536
161252453921396|1386
Estravel|1955
Hotelliveeb|865
IRLerakond|2374
KAMPAANIAINFO|13
Ohtuleht|4867
Sweet.home.merje|2058
TaxifyEstonia|21
TeliaEesti|2153
aegaon|100
avasta.me|1803
delfi.ee|5050
eestivabaerakond|1366
eestlased|516
elisaeesti|2065
goldtime.ee|785
hannahfanclub|700
kinoklubi|4658
luxfans|515
meeldib.ee|4470
novatours|834
omniva.ee|728
photopoint.ee|3602
postimees|5129
puhkaeestis|1650
raadioskyplus|2930
rahvuspartei|2048
reformierakond|2425
roccaalmare|2018
samsungee|3359
selver.ee|1637
siitsealt.ee|1353
simplesession|4168
sotsdem|2456
sportlandeesti|2547
tele2eesti|1482
telegrammeedia|2537
thilves|4057
tv3eesti|3893
weekendbaltic|864
www.1a.ee|2003