Sammeln digitaler Benutzerdaten, ohne die Privatsphäre zu verletzen

Sammeln digitaler Benutzerdaten, ohne die Privatsphäre zu verletzen
Anonim

von der Universität des Saarlandes

Image

Die statistische Auswertung digitaler Nutzerdaten ist für die Analyse von Trends von entscheidender Bedeutung. Es kann aber auch die Privatsphäre untergraben. Die Saarbrücker Informatiker haben nun ein neuartiges kryptografisches Verfahren entwickelt, mit dem Daten gesammelt und gleichzeitig die Privatsphäre des Nutzers geschützt werden können. Auf der Computer Expo CeBIT in Hannover am Forschungsstand der Universität des Saarlandes (Halle 9, Stand E13) präsentieren sie erstmals ihre Vorgehensweise.

"Viele Website-Anbieter sind in der Lage, Daten zu sammeln, aber nur wenige schaffen dies, ohne die Privatsphäre der Benutzer zu verletzen", erklärt Aniket Kate, die die Forschungsgruppe "Kryptografische Systeme" am Exzellenzcluster "Multimodal Computing and Interaction" leitet ( MMCI) in Saarbrücken. Zwei Aspekte bedrohen die Privatsphäre bei der Datenaggregation: Zum einen, wo und wie werden die Daten aggregiert? Beispielsweise interessieren sich Websitebesitzer für das Alter und Geschlecht ihrer Besucher. Daher speichern sie Datendateien (Cookies) auf ihren Computern, die beobachten, welche anderen Websites sie besuchen. "Diese Fülle an sensiblen Informationen ermöglicht es ihnen jedoch auch, detaillierte Profile jedes Einzelnen zu rekonstruieren", sagt Kate. Auf der anderen Seite ist es wichtig, aggregierte Daten auf datenschutzschonende Weise zu veröffentlichen. "Forscher haben bereits gezeigt, dass sich aus den von sogenannten Smart Metern gesammelten Stromverbrauchsinformationen genaue Informationen über die Gewohnheiten der Bürger rekonstruieren lassen", erklärt Kate.

In Zusammenarbeit mit seinen Kollegen Fabienne Eigner und Matteo Maffei vom Zentrum für IT-Sicherheit, Datenschutz und Rechenschaftspflicht (CISPA) und Francesca Pampaloni vom italienischen IMT-Institut für fortgeschrittene Studien Lucca entwickelte Kate ein Softwaresystem mit dem Namen "Privada". Es ist nicht nur in der Lage, das Dilemma zwischen Informationsbedürfnis und Datenschutz zu lösen, sondern kann auch problemlos in verschiedenen Bereichen angewendet werden. "Zum Beispiel können die Inhaber von Privada-Websites immer noch beobachten, dass ihre Websites hauptsächlich von Frauen mittleren Alters besucht werden, aber nicht mehr", erklärt Kate.

Um dies zu erreichen, teilen Benutzer die angeforderten Informationen auf und senden Teile davon an zuvor definierte Server, um eine Mehrparteienberechnung durchzuführen: Jeder Server wertet seine Daten aus, ohne die Daten anderer Parteien zu kennen. Zusammen berechnen sie ein Geheimnis, können es aber nicht selbst entschlüsseln. Darüber hinaus addiert jede Partei einen Wert, der einer Wahrscheinlichkeitsverteilung entspricht, um die Daten ein wenig ungenau zu machen. Die gestörten Teilergebnisse werden zur eigentlichen Analyse zusammengeführt. Die Störung stellt sicher, dass die Identität der einzelnen Person geschützt wird, während Trends in der aggregierten Statistik über Benutzerdaten weiterhin von Bedeutung sind.

Die Privatsphäre ist sogar dann gewährleistet, wenn alle Server außer einem zusammenarbeiten. Nach Ansicht der Forscher ist es daher sogar denkbar, dass Unternehmen solche Server anbieten. Wenn nur Server und nicht Benutzer die Daten mit einem gewissen Rauschen stören, hat dies zwei Vorteile: Erstens ist auf Benutzerseite nicht viel Rechenleistung erforderlich. Daher kann sogar ein Mobiltelefon das Teilergebnis an einen bestimmten Server senden. Insgesamt wird den aggregierten Daten nur ein minimales Rauschen hinzugefügt. Daher ist die resultierende Statistik über Benutzerdaten so genau wie möglich.

Die Saarbrücker Informatiker haben ihr Konzept bereits umgesetzt. "Die Berechnung ist schnell, die Server brauchen nur ein paar Sekunden", sagt Fabienne Eigner, Mitarbeiterin der Forschungsgruppe "Sichere und datenschutzschonende Systeme" an der Universität des Saarlandes. Sie arbeitete auch am Softwaresystem. Die Architektur ist so aufgebaut, dass es keinen Unterschied macht, wenn jemand die Daten von tausend oder einer Million Menschen analysiert ", erklärt Eigner.