Rainer, the miner

Seit gestern abend wird gewählt. Nein, noch nicht offiziell, aber es gibt da eine Webseite twitterwahlen.de auf der man schon mal seine Stimme für die Bundestagswahl abgeben kann. Nicht, dass das ganze repräsentativ wäre, aber vor allem stört mich eines und darum habe ich heute mal einen Tweet dazu verfasst:

„Ich stimme für auf denn demokratische Wahlen sollten geheim und anonym sein.“
— 

Denn wenn man die Webseite der Twitterwahlen besucht, dann sieht man sehr deutlich, wer via Twitter für welche Partei gestimmt hat. In Zeiten der NSA- und GCHQ-Schnüffelei halte ich das für etwas bedenklich. Natürlich mache ich auch online keinen Hehl daraus, welche Partei ich bei der Bundestagswahl wählen werde, aber so eine einfach zu ermittelnde Sympathisantenliste finde ich einfach daneben. Und wie einfach das ist wollen wir mal kurz ansehen.

Dazu installiere ich in der Statistiksoftware R einfach mal das twitteR-Package. Danach nutze ich diese Anleitung um mich als App-Developer bei Twitter zu registrieren und meinen API-Schlüssel zu bekommen. Das ganze geht blitzschnell und schon hat mein Statistiktool den Zugang zur großen weiten Twitter-Welt. Suchen wir doch mal nach meiner Twitter-ID und „#Twitterwahlen“:

Wir sehen also jetzt mal 6 Treffer die genauer angesehen so aussehen:

Fazit: Ich habe hier blitzschnell die Leute gefunden, welche meinen Tweet retweetet haben. Ok, es fehlt einer im Vergleich zu dem was mir die Twitter-Web-App anzeigt, warum das so ist will ich gar nicht groß ergründen, ich nehme an vielleicht eine Limitation durch die Twitter-API.

Aber dieses Beispiel zeigt sehr schnell, wie einfach man Data-Mining betreiben kann. Das ganze hat mich ein paar Minuten gekostet und auch die App hinter Twitterwahlen.de dürfte nicht anders arbeiten.

Das mag zwar jetzt wie eine schöne Spielerei aussehen, aber wenn wir davon ausgehen, dass das Netz nichts vergisst und sich die Verhältnisse vielleicht igendwann ändern könnten, dann kann so ein Data Mining möglicherweise Leute in Bedrängnis bringen. Erinnern wir uns an den Fall #Mollath und den Twitterer welcher eigentlich nur eine Frage postete die man der bayerischen Justizministerin bei einer Wahlkampfveranstaltung hätte stellen können und der prompt Besuch von der Polizei bekam.

Zum Thema Data Minung unter R gibt es ein schönes kleines Buch als PDF und das dazu passende Blog. Es ist ein interesantes Thema und es bietet viel Potential. So könnte man zum Beispiel aus gesammelten Tweets eine Wordcloud basteln und damit dem Dienst TweetCloud Konkurrenz machen.

Und jetzt denken wir einfach mal an Szenarios aus unseren wildesten Datenschutz-Alpträumen und überlegen, wie einfach das wohl umzusetzen wäre. Die Schnittstellen sind vorhanden und bei den Social Networks gilt eben immer noch der folgende Spruch:

Wenn Du einen kostenlosen Dienst nutzt, dann bist Du nicht der Kunde sondern eben das Produkt.

Denn natürlich vermarkten die Dienstanbieter ihre gesammelten Nutzerdaten. Was man damit anfangen kann seht ihr, wenn ihr z.B. bei O’Reilly nach Big Data sucht.

[ratings]