Tallsomteller.no
1692
post-template-default,single,single-post,postid-1692,single-format-standard,ajax_fade,page_not_loaded,,qode-theme-ver-7.8,wpb-js-composer js-comp-ver-4.8.1,vc_responsive

Hva kan PST finne ved å grave i sosiale medier?

24 aug Hva kan PST finne ved å grave i sosiale medier?

Fredag kunne vi lese i media at PST vil samle inn stordata også kalt «big data» i kampen mot terrorisme. Dette innebærer blant annet innsamling og lagring av data fra sosiale medier for å avdekke mistenkelig oppførsel. Men hva kan PST og myndighetene egentlig finne ut ved å analysere slike data og har kritikerne rett når de mener at å grave i slike data er som å lete etter en nål i en høystakk?

Tallsomteller.no har studert data tilgjengelig gjennom Twitters API. Dette er data som er tilgjengelig for alle brukere av Twitter og man har mulighet for å se de 3200 siste Twittermeldingene til en hver bruker som har åpen profil, noe de aller fleste Twitterbrukere har. Dette innebærer at hvem som helst kan laste ned gigantiske mengder data, se blant Tallsomtellers sak om politikeres bruk av Twitter.

Bildet nedenfor viser et uttrekk fra Twitters API og viser noen av feltene som er tilgjengelig i datasettet:

  • Tidspunkt og klokkeslett for når meldingen ble lagt ut på Twitter
  • Selve Twittermeldingen
  • Plattform brukeren er tilkoblet via, f.eks Android, Iphone etc.
  • Brukernavn
  • Brukerens lokasjon, f. eks Lillehammer, Bahrain. Avhenger av at brukeren har fylt ut dette
  • Beskrivelse av brukeren som brukeren selv har lagt ut
  • Hashtags nevnt i meldingen, f.eks. #investingirls
  • Andre Twitterbrukere nevnt i meldingen
  • URL-adresser nevnt i meldingen

Twitter

Bildet nedenfor viser de seks siste brukerne som har blitt fulgt av bloggeren Fjordman på Twitter. Tilsvarende uttrekket ovenfor kan man hente ned fullstendige lister som viser samtlige Twitterprofiler en bruker følger og samtlige brukere som følger den valgte Twitterprofilen.

fjordman

Nettverket nedenfor viser hvordan man ved å samle store mengder data om hvem som følger hvem kan tegne nettverk og avsløre delnettverk basert på brukere som følger hverandre gjensidig. I tillegg til å se på følgere kan man tegne opp nettverk basert på følgende informasjon:

nettverk

 

Selv om man klarer å skille ut enkelte grupper som er mer mistenkelige enn andre sitter man likevel igjen med svært store datamengder og det å analysere disse meldingene manuelt vil være tidkrevende. For å lette jobben kan man ta i bruk algoritmer som skiller ut de mest interessante meldingene. En mulighet er gjøre en klassifisering basert på to klasser, «Mistenkelige meldinger» og «Ikke mistenkelige meldinger». Dette kan gjøres ved å kode algoritmer fra grunnen av eller ved og bruke f.eks. Google Prediction API som gjør klassifiseringen basert på tekstlikhet i meldingene.

BigQuery

Kort fortalt består en slik prosess av tre steg:

  1. Man setter opp et treningsdatasett der man definerer enkelte meldinger som mistenkelige og laster dette opp i Google Storage.training
  2. Basert på dette datasettet bygger man en modell.
  3. Man sender inn data med Twittermeldinger og modellen fra første steg  klassifiserer meldingene som enten «Mistenkelig» eller «Ikke mistenkelig». Modellen vil gjøre mange feil og klassifisere helt normale meldinger som «Mistenkelig» men letter arbeidet med å finne de interessante meldingene blant de enorme mengdene dataene man sitter med.


google