Partner von:
Anzeige

Twitter weiß, wann du schlafen gehst: Wie Algorithmen aus 144 Metadaten die Identität der Nutzer ermitteln

144 Metadaten sendet ein Twitter-Nutzer mit jedem Inhalt an eine Schnittstelle
144 Metadaten sendet ein Twitter-Nutzer mit jedem Inhalt an eine Schnittstelle

"You are your Metadata" lautet der Titel einer Studie, die drei Wissenschaftler nun veröffentlicht haben. Sie zeigen, wie sich aus Metadaten, die Twitter-Nutzer hinterlassen, deren Leben per Algorithmus rekonstruieren lässt. 144 Daten werden laut Studie pro Tweet übermittelt. Selbst die Verschleierung verschiedener Informationen helfe nicht dabei, die Identität zu verbergen.

Anzeige

“Wir konnten anhand der Metadaten jeden von 10.000 Nutzern mit einer Genauigkeit von 96,7 Prozent identifizieren.” So steht es in der Studie “You are your Metadata”, die das Forschertrio Beatrice Perez, Mirco Musolesi und Gianluca Stringhini vom University College London und dem Alan Turing Institut veröffentlicht hat. Die Wissenschaftler wollen mit ihrer Studie mit dem Vorurteil aufräumen, dass Metadaten keine Rückschlüsse auf die Nutzer erlauben würden – dafür haben sie sich den Kurznachrichtendienst mit Sitz in San Francisco ausgeguckt. Demnach übermittelt ein jeder Nutzer mit jedem Tweet, den er in die digitale Welt entsendet, automatisch 144 Datenfelder, die einen einwandfrei und von einem auf Algorithmen basierenden maschinellen System mit Leichtigkeit identifizierbar machen. Unter diese Metadaten fallen Informationen wie Account-Name, Zeit und Ort des Inhalts, favorisierte Accounts, Follower, Links, Hashtags und viele weitere.

“Leute glauben, das sei keine große Sache”

Die Informationsdichte ist jedenfalls derart hoch, dass drei verschiedene auf maschinellem Lernen basierende Systeme, die Identität der Nutzer ermitteln konnten. Das beste schaffte es auf 96,7 Prozent Genauigkeit. Trainiert wurden die drei Systeme mit Tweets aus einem finalen Datensatz von rund 5,4 Millionen Nutzern. Dass in der Arbeit durchweg von 140-Zeichen-Tweets die Rede ist, liegt übrigens nicht an der Uninformiertheit der Forscher, sondern schlicht am Zeitpunkt der Untersuchung. Denn die Daten haben die drei zwischen Oktober 2015 und Januar 2016 gesammelt, also bevor das US-Unternehmen die Zeichenbegrenzung im November 2017 auf 280 hochgesetzt hat.

Anzeige

Gegenüber dem Online-Portal Wired UK sagte die beteiligte Wissenschaftlerin Beatrice Perez, Leute würden fälschlicherweise annehmen, dass Online-Daten keine Rückschlüsse auf die Identität zuließen. Dabei kann ein Durchschnittsnutzer mit Leichtigkeit über die vermittelten Metadaten ausgemacht werden. Die Krux dabei: Kein vernünftiger Mensch würde einem Fremden auf der Straße verraten, wo er wohnt. Womöglich würde er ihm aber auf Nachfrage mitteilen, wann in seinem Schlafzimmer das Licht ein- und ausgeschaltet wird. Und das sei die Mentalität im Umgang mit Metadaten, so Perez. “Die Leute glauben, das sei keine große Sache. Aber sobald ich diese Information mit den Meta-Informationen koppele, weiß ich genau, wann du zu Hause bist.”

Die verblüffende Erkenntnis der Studie: Selbst wenn die Forscher versuchsweise einzelne Datenfelder leer ließen, um es dem System schwerer zu machen, gelang dies nur bedingt. So mischten sie 60 Prozent der Metadaten einfach durch und das System schaffte es dennoch, die Identität der Versuchspersonen mit 95-prozentiger Genauigkeit herauszufinden. “After perturbing 60% of the training data, it is possible to classify users with an accuracy greater than 95%”, heißt es dazu wörtlich im Fazit der Studie. Verschleierungsmethoden seien deshalb ineffektiv, ebenso wie die Anonymisierung von Datensätzen, wie Perez betont.

Die Urheber der Studie schreiben, dass es ihnen nicht um Twitter im Speziellen geht, denn die genutzte Methode könne genauso auf andere Plattformen wie Facebook, Flickr & Co angewandt werden. Ziel sei es, das Bewusstsein für den Datenschutz und dem damit verbundenen Risiko in Zusammenhang mit Metadaten zu erhöhen. Es handle sich wegen der steigenden Anzahl offen zugänglicher Datensätze und Metadaten sowie der Popularität der sozialen Netzwerke samt deren Schnittstellen (APIs) um ein drängendes Problem, so der Schlussappell.

Keine Neuigkeiten aus der Medien-Branche mehr verpassen: Abonnieren Sie kostenlos die MEEDIA-Newsletter und bleiben Sie über alle aktuellen Entwicklungen auf dem Laufenden.

Anzeige

Mehr zum Thema

Anzeige
Anzeige

Alle Kommentare

  1. Im Prinzip schon lange bekannt, es interessiert aber leider keinen. Alle regen sich über Datenmissbrauch auf, aber kaum einer zieht echte Konsequenzen und die Politik schaut weiter dem munteren Datensammeln zu. Trotzdem danke für den Artikel.

  2. Natürlich hat das Konsequenzen! Twitter hat in letzter Zeit Millionen Tweets gelöscht. Wie viele waren echte oder vermeintliche Fake-Accounts? Welche lokaler Debattenstrang wurde mitgelöscht?

    Wer erinnert sich noch an markante Aussagen von Zeitzeugen?

    Was wäre, wenn versehentlich auch US-Präsident Trumps Wahlkampf-Tweets nicht mehr auffindbar sind? Wird das in einem Amtsenthebungsverfahren relevant, oder erklärt ein Richter das nachträglich für irrelevant?

    Bitte einmal selbst befragen:
    “Wie alt sind eigentlich Ihre Likes bei Facebook?”
    Ist gar das Facebook-Kharma kaputt? (Name eines Analyse-Tools).

    Fazit: Facebook und soziale Netzwerke sind nicht gemeinnützig
    http://www.pankower-allgemeine-zeitung.de/facebook-und-soziale-netzwerke-sind-nicht-gemeinnuetzig/

    …. und können keine “Garantenstellung” für Politik einnehmen, für Verkehrswarnungen und Polizeiticker schon!

  3. Und der Deutsche Staatsrundfunk beteuert in zahllosen Anfragen, dass er ohne die Implementierung von Twitter, Facebook, WhatsApp, etc. nicht überlebensfähig ist und er leider leider die Daten seiner Nutzer in die USA übermitteln muss. ( unabhängig davon, ob man einen account bei den asozialen Medien hat oder nicht). Gleichzeitig heult man zur PrimeTime in den Nachrichtensendungen über Facebook&Co. herum. Jeder spielt Opfer, obwohl er Täter ist.

Dein Kommentar

Deine E-Mailadresse wird nicht veröffentlicht.

*

Werben auf MEEDIA
 
Meedia

Meedia