Für das Magazin Computer + Unterricht habe ich einen Artikel zur Kopierbarkeit von Daten und möglichen ethischen Auswirkungen bzw. Perspektiven verfasst. Das Manuskript (Rohfassung) habe ich auf Zenodo als Open-Access-Werk unter CC0/Public-Domain-Freigabe veröffentlicht (weiter unten auf dieser Seite kann der Text direkt online gelesen werden):

Andrasch, Matthias (2017). Alles, was kopiert werden kann, wird kopiert?. Zenodo. https://doi.org/10.5281/zenodo.1117317

Update 18. Dezember 2017: Der Beitrag wurde – zu meiner unglaublich großen Freude – von Benedikt Geyer (Podcaster) eingesprochen und ist auf Soundcloud sowie YouTube frei verfügbar (CC BY-ShareAlike 3.0 US) zu hören:

Die lektorierte und gefeedbackte Version (nicht unter freier Lizenz) erschien in der Ausgabe „Medienethik“ (Computer + Unterricht Nr. 108/2017) und kann beim Friedrich Verlag als Printausgabe bestellt werden. Als großes Learning nehme ich für mich mit, dass die lektorierte Version deutlich prägnanter und somit qualitativ hochwertiger geworden ist. Da es sich um meinen ersten eigenen Beitrag zu einer Fachzeitschrift handelt, war dies meine erste Lektoratserfahrung. Ein solches Lektorat hätte ich wirklich sehr gerne für jeden meiner Blogbeiträge! 🙂 Vielen Dank an Alexander König, die Herausgeber*innen von Computer+Unterricht sowie die Redaktion vom Friedrich Verlag.

Hier die Online-Version für direktes Lesen ohne Umwege:


Alles, was kopiert werden kann, wird kopiert?

Wie bewegen wir uns durch die Welt? Jugendliche wachsen in eine Welt hinein, in welcher Datenerhebungen allgegenwärtig sind und sie potenziell auf Schritt und Tritt begleiten. Werden die geführten Debatten um Jugend, Bildung und Digitalisierung der technischen und gesellschaftlichen Gesamtsituation gerecht?

Im London Science Museum ist derzeit eine Schwarz-Weiß-Fotografie von jungen Frauen ausgestellt, welche Berge von kleinen Papierzetteln sortieren, die sich auf ihren Schreibtischen türmen. Die kleinen Papierzettel sind die 4 Millionen Tickets, die von Bahn- und Busfahrgästen in London im Jahr 1939 eingesammelt und ausgewertet wurden. Die Betreiber wollten u.a. herausfinden, welche Streckenabschnitte wie häufig genutzt werden. Die Sortierung per Hand dauerte laut Bildunterschrift etwa sechs Monate.  


Im Jahr 2017 sind die U-Bahneingänge in London mit elektronischen Schranken ausgerüstet. An diesen können Fahrgäste einen Papierfahrschein mit Magnetstreifen einschieben oder eine Kundenkarte, die sogenannte Oystercard, auf ein Kontaktfeld legen. Ist der Fahrschein nicht mehr gültig oder auf der Oystercard nicht genug Geld vorhanden, leuchtet eine rote Lampe auf und die Schranke  bleibt verschlossen. Ist alles in Ordnung, leuchtet eine grüne Lampe auf und die Schranke öffnet sich. Mit jedem Leuchten wird ein neuer Eintrag in der Fahrgast-Datenbank gespeichert: Art des Fahrscheins, Station, Datum, Uhrzeit. Beim Verlassen werden diese Daten ebenfalls mittels Schrankensystem erhoben, und die Kosten für die Fahrt von der Oystercard abgezogen. Um seine Privatsphäre muss man sich hierbei, abgesehen von den vielen Überwachungskameras in London, eigentlich keine Sorgen machen: Die Oystercard kann ebenso am Automaten mit Bargeld gekauft und aufgeladen werden, ohne die Angabe persönlicher Informationen.

Mit Hilfe dieser erfassten Daten kann man auf www.tubeheartbeat.com/london/ das Fahrgastaufkommen des Jahres 2015 grafisch eindrucksvoll miterleben. Möglich ist dies, weil die Datensätze aus der Fahrgast-Datenbank kopiert, von personenbezogenen Informationen befreit und als offene Daten (Open Data) zur Verfügung gestellt wurden. Was früher ein langwieriges Projekt war, sind heute wenige Klicks und ein paar Sekunden Rechenzeit.

Die Kopierbarkeit von Daten als Kernelement des Digitalen

Die Computertechnologie brachte etwas radikal Neues in das Leben der Menschen: Die Kopierbarkeit ohne Qualitätsverlust. Da bei Daten alles auf Abfolgen von Einsen und Nullen zurückzuführen ist, können diese Abfolgen beliebig vervielfältigt werden: Plötzlich gibt es kein Original mehr? Eine Originaldatei und Kopie lassen sich nur durch Metadaten wie dem Dateinamen oder Änderungsdatum unterscheiden – der Inhalt ist absolut identisch. Die massenhafte Produktion identischer Güter, welche in Manufakturen oder Fabriken über Jahrhunderte von Menschen angestrebt wurde, ist nun in der Computertechnologie möglich. Alles, was wir im Internet tun, ist auf Kopien zurückzuführen: Kopierte Datenpakete, die durch die Welt geschickt werden.

Dennoch wird viel über den Besitz, den Verkauf sowie den Diebstahl von Daten und Datensätzen gesprochen. Selten wird meiner Erfahrung nach die Kerneigenschaft der Datensätze thematisiert, welche sich in Datenbanken von großen oder kleinen Unternehmen, Verwaltungen oder Bildungseinrichtungen befinden: Sie sind einfach und schnell kopierbar. Alle diese Daten lassen sich durch Personen mit den nötigen Zugriffsberechtigungen ganz einfach kopieren und auf andere Rechner oder Speichermedien kopieren. Die Originaldatei bleibt davon unberührt. Und so passt auch der Begriff des Verkaufens nicht recht in die heutige Realität, weil meist nicht die Originaldaten verkauft werden und den Besitzer wechseln, sondern nur Kopien der Daten bereitgestellt werden. Daten sind keine klassischen Sachgüter, diese Unterscheidung ist zentral. Ein Unternehmen verkauft nicht Daten aus seinem Besitz an andere Unternehmen oder Forschungseinrichtungen, sondern es verkauft Kopien bzw. den Zugang zu diesen Daten, die dem Unternehmen erhalten bleiben.

Insofern ist also eigentlich die Frage relevant, wer wann welche Daten mit welcher Erlaubnis kopiert – und wie das nachvollzogen werden kann. In Organisationen kann das Datenkopieren durch die Protokollierung von Benutzeraktivitäten nachvollzogen oder durch Sicherheitsvorkehrungen verhindert werden. Werden Zugriffsberechtigungen oder Sicherheitsmaßnahmen umgangen, dann ist die Konsequenz oft unklar. Zu beobachten ist dies bei Sicherheitslücken oder Hackerangriffen: Oft kann nur gemutmaßt werden, ob und in welchem Umfang Daten aus Kundendatenbanken entwendet wurden. Die Daten sind ja noch in der Kundendatenbank vorhanden. Manchmal tauchen illegal kopierte Daten wieder im Netz auf: Auf www.haveibeenpwned.com können Nutzer*innen prüfen, ob ihre Daten bei solchen Fällen betroffen waren, beispielsweise bei den Fällen der kopierten Kundendaten der großen Unternehmen Adobe oder Sony. Andere Fälle bleiben hingegen jahrelang unentdeckt.  Wieder andere Fälle ereignen sich, wenn die eigentliche Online-Plattform schon gar nicht mehr existiert: Die Nutzerdaten des Portals Mitfahrgelegenheit.de gelangten im Herbst 2016 in die Hände von Hacker*innen, weil eine archivierte Version der Datenbank unzureichend abgesichert wurde durch das neue Unternehmen, welches das Portal übernommen hatte.

Eine weitere Problematik der einfachen Kopierbarkeit sind untergeschobene Beweismittel: Findet man ein gestohlenes Auto bei einer Person in der Garage, dann kann dies ein stark belastender Beweis für einen Diebstahl sein.  Eine Datei mit illegalem Inhalt auf das Smartphone einer Person zu kopieren, ist eine vergleichsweise leichte Übung und kann unter Umständen ohne das Hinterlassen einer nachweisbaren Spur geschehen.  Ein Virenscanner oder eine Firewall kann vielleicht einige oder viele Angriffe abwehren, aber nur ein einziger erfolgreicher Versuch reicht, um kompromittierendes Material auf entfernte Rechner zu kopieren oder Daten unbefugt zu kopieren (umgangssprachlich: zu entwenden). Manchmal verschlimmern Schutzmaßnahmen sogar die Situation: Das eigentlich gutgemeinte Browser-Plugin Web of Trust, welches besuchte Webseiten und personenebezogene Daten offenlegte, ist nur ein Beispiel hierfür. Längst kann man sich bei Apps nicht mehr sicher sein – eine App bzw. ein kleines App-Update reicht aus und der Kommunikationsverkehr auf dem Smartphone wird unter Umständen kopiert und an Dritte verschickt. Die Liste möglicher Szenarien ist lang, bei welchen Daten – befugt oder unbefugt – kopiert und weitergesendet werden.

Ein möglicher Schutz ist die kryptographische Verschlüsselung von Daten. Verschlüsselte Daten können nur durch ein zusätzliches Passwort (Privatschlüssel) entschlüsselt werden, welches nicht auf dem Server des Plattformbetreibers gespeichert ist. Auf politischer Ebene wird eine vollumfängliche Verschlüsselung aber von einigen Akteuren z.B. bei Messengern abgelehnt, weil Onlinekommunikation dadurch nicht mehr staatlich überwacht werden kann – schlichtweg, weil der Plattformbetreiber selber nicht die verschlüsselten Nutzerinhalte einsehen und an Behörden weitergeben kann. Hinzu kommt, dass im viel zitierten Darknet ein Markt für sogenannte „Zero-Day-Exploits“ existiert. Dies sind leicht auszunutzende Sicherheitslücken, von denen die Software-Hersteller noch keine Kenntnis haben. Einige staatliche Geheimdienste kaufen selber diese Sicherheitslücken ein, um sie für eigene Aktionen zu nutzen. Sie setzen somit die Bürger*innen oder Institutionen ihres eigenen Staates einer potenziellen Gefahr aus, da sie die Hersteller nicht auf die Lücken aufmerksam machen. Hier werden die politischen Rahmenbedingungen bei der Debatte um Daten und Sicherheit deutlich. Über die Entwicklungen in diesem Bereich wird u.a. auf dem spendenfinanzierten Blog netzpolitik.org berichtet.

Der Realität ins Auge blicken?

Wie geht man mit dieser, derzeitig diffusen und wenig komfortable erscheinenden Gesamtlage um, in welcher selbst Facebook-Chef Mark Zuckerberg die Webcamlinse seines Laptops abklebt oder der deutsche Bundestag erfolgreich über das Internet angegriffen wird? Eine spontane, nur allzu menschliche Reaktion ist es wohl, an dieser Stelle mehr Kontrolle und Sicherheit einzufordern. Zum Beispiel hohe Strafzahlungen für Unternehmen, die Kopien ihrer Daten unerlaubt weiterverkaufen oder unzureichend absichern. Oder man setzt bei der Verantwortung des Einzelnen an: Nur vertrauenswürdigen Unternehmen Daten anvertrauen, vorsichtig sein, möglichst datensparsam agieren! Das Beispiel des Portals Mitfahrgelegenheit.de sollte aber gezeigt haben, dass selbst bei vermeintlich vertrauenswürdigen Unternehmen die Daten trotzdem irgendwann illegal kopiert werden können – nur wegen einer kleinen Unachtsamkeit von Mitarbeiter*innen oder wegen einer Sicherheitslücke.

Eine andere, für einige vermutlich eher befremdliche Reaktion: Das Akzeptieren der Kopierbarkeit als Kernelement des Digitalen. Was, wenn das Denkmuster der sogenannten analogen Welt in vielerlei Hinsicht nicht zu den technischen Realitäten passen? Treten wir einen Schritt zurück: Wem gehören Daten eigentlich? Haben die Betreiber des Londoner U-Bahnnetzes nicht auch das Recht oder sogar in gewisser Weise die Pflicht, zeitgemäße Datenanalysen zu nutzen, um das Fahrerlebnis zu optimieren? Also auch meine Fahrtstrecken zu erheben und zu speichern? Was habe ich dadurch eigentlich zu verlieren, wenn nur Art des Fahrscheins, Station, Datum und Uhrzeit erhoben wird und sowieso keine personenbezogenen Daten enthalten sind, wenn ich mit Bargeld bezahle? Sollten nicht sowohl der Betreiber als auch ich selbst diesen Datensatz behalten dürfen? Und was ist so schlimm daran, wenn auch Dritte diese Daten in vollem Umfang nutzen dürfen, um Erkenntnisse zu produzieren? Wieso überhaupt Daten schützen? Alles, was kopiert werden kann, wird ja sowieso kopiert?

Die Verknüpfbarkeit von Daten

Die aufgeworfenen Fragen führen allerdings deutlich tiefer in eine verfahrene Situation hinein: Durch Analysemethoden wie Big Data ist es inzwischen möglich geworden, große Massen an Datensätzen zielgenau auszuwerten. Somit können auch Datensätze aus verschiedenen Datenbanken analysiert und in Verbindung gesetzt werden. Die vermeintlich anonymen Fahrtstrecken der U-Bahn könnten beispielsweise durch die GPS-Datenauswertung von Social Media Postings doch wieder einzelnen Personen zugeordnet werden, d.h. deanonymisiert werden (Beispiel Deanonymisierung von Marketingdaten auf wired.com). Es ist schwer bis unmöglich abzuschätzen, welche Daten aus welchen Quellen mit welchen Methoden später einmal verknüpft werden können. Klar ist nur: Derzeit werden in sehr vielen Bereichen des Alltags Daten erhoben sowie Datenanalysen für Entscheidungen eingesetzt – mal eher öffentlich wie im Fall der Londoner U-Bahn, manchmal aber kaum wahrnehmbar. Jüngstes Beispiel ist das Tracking von Kunden mit Hilfe von ausgesendeten Ultraschallsignalen an Ladeneingängen (Beacons), welche von Smartphone-Apps unter Einwillung der Nutzer*innen oder auch heimlich registriert werden können. Somit ist der Ladenbesuch direkt mit einem Kundenprofil verknüpfbar. Wenn dieser Artikel erscheint, ist dieses Beispiel unter Umständen schon durch neuere, raffinierte Trackingmethoden im Marketing ersetzt worden.

Ein zeitgemäßer Umgang?

Für einen zeitgemäßen Umgang mit der Kopierbarkeit müssen nicht die historisch gewachsene Errungeschaften wie Rechtsstaat, Privatsphäre oder die freiheitlich-demokratische Grundordnung über den Haufen geworfen werden, sondern sie müssen in Verbindung gebracht werden mit den Phänomenen und Bedingungen, die die beschriebene Kopierbarkeit mit sich bringt. Die medienethische Dimension spannt sich für mich hierbei nicht grundlegend bei der Programmierung der viel diskutierten Algorithmen auf, sondern ebenso wichtig ist doch die Frage, wer Zugang zu welchen Daten hat und somit erst die Möglichkeit zur Analyse oder Verknüpfung von Daten durch Algorithmen erhält (siehe „Der Flaschenhals sind die Daten“). Im Fall von Big Data ist z.B. zentral, wie die dahinterliegenden Statistikmodelle funktionieren und welche Aussagen damit getroffen werden können. Bei Big Data Methoden ist die Kausalität der Korrelation gewichen – ein Punkt, der in der öffentlichen Diskussion leider oft zu kurz kommt. Mit Machine Learning Methoden sowie den Entwicklung rund um das Thema Künstliche Intelligenz werden sich mit hoher Wahrscheinlichkeit in nächster Zeit hier weitere Verschiebungen ergeben. Forscher*innen berichten bereits, dass manche der produzierten Resultate für Menschen nur noch sehr schwer nachvollziehbar sind. Illustrieren könnte man diese Entwicklung durch den Komplexitätssprung, der zwischen IBMs Schachcomputerprogramm Deep Blue und der Künstlichen Intelligenzlösung Watson liegt. Ein weiteres Beispiel für diesen Sprung ist Googles AlphaGo. Das Ende der Fahnenstange ist hierbei technisch längst nicht erreicht: Das Unternehmen Adobe zeigte mit einer Demonstration der Software VoCo auf, dass inzwischen auch Sprache mittels neuer Methoden leicht bearbeitbar bzw. manipulierbar ist.

Im Videobereich gibt es ähnliche Forschungsprojekte, die einen Vorgeschmack auf die zukünftigen Medienwelten geben:

Nicht zuletzt sollten die soziokulturellen Effekte, die sich ergeben, immer wieder Anlass zur Diskussion und Anpassung von Strategien sein. Dies wird angesichts der technischen Entwicklungssprünge und massenhaften Internetnutzung wohl deutlich öfter und schneller nötig sein. Danah Boyd, Wissenschaftlerin für Technolgie und Gesellschaft, legte erst kürzlich in einem Blogbeitrag eindrücklich dar, wie selbst offene Daten zu einer höhereren sozialen Ungleichheit führen können. Offene Daten also, die eigentlich alle Bürger*innen positiv ermächtigen sollen. In ihrem Beitrag „Toward Accountability. Data, Fairness, Algorithms, Consequences.“ werden sozikulturelle Effekte der Selbst-Segregation angeführt: Eltern, die auf Grund offen einsehbarer Qualitätsdaten von Schulen in New York (School Performance Dashboard), ihre Kinder auf vornehmlich „weiße“ oder „schwarze“ Schulen schickten. Diese Selbst-Segregation gab es schon vorher, aber laut Boyd wurde dieser Effekt noch erheblich verstärkt durch die Verfügbarkeit des Datenwerkzeugs. Weder die Daten allein, noch der der Mensch stehen bei diesem Beispiel im Mittelpunkt, sondern das Zusammenwirken ist entscheidend.

Kulturwissenschaftler Michael Seemann stellte in seinem Buch „Das neue Spiel“ (WTFPDL-Lizenz) vor drei Jahren die folgende These auf: „Wenn deine Strategie voraussetzt, dass du Datenströme kontrollieren kannst, hast du keine Strategie.“. Man muss Seemanns These nicht zwangsläufig zustimmen. Dennoch kann die These als kritische Überprüfung dienen, um Debatten zu identifizieren, welche die digitale Kopierbarkeit als wichtige Rahmenbedingung der heutigen Welt nicht ausreichend berücksichtigen.


Kritisches Feedback ist wie immer sehr gerne gesehen!

Weiterlesen: