(Hinweis: Dies ist ein Follow-Up meines Data Breakthrough Artikels)

„Die Landesanstalt für Medien NRW hat einen guten Erklärfilm für Big Data produziert“ habe ich mal in einem Seminar-Vortrag gesagt. Je länger ich mich allerdings damit beschäftigt habe, desto irreführender finde ich jedoch heute die dort verwendete Visualisierung: Im Video ist es ein großer Tank, in welchem alle Daten landen. Durch Wasserhähne können Daten aus diesem Tank abgezapft und analysiert werden. Warum finde ich das irreführend? Und welche Ideen für neue Bilder habt Ihr?

Disclaimer: Der Film wurde 2012 produziert.

Ich finde die Visualisierung aus folgenden Gründen unter den heutigen Rahmenbedingungen irreführend:

  • Es gibt keinen großen, zentralen Tank. Eher eine Menge großer, mittelgroßer und kleiner Tanks, in denen die vielfältigen Daten landen, die wir durch Interaktionen im Netz oder durch verschiedenste Geräte hinterlassen. Und diese Tanks gehören vielen unterschiedlichen Unternehmen.
  • Der Tank suggeriert eine Kontrolle, von der wir derzeit noch weit entfernt sind. Es suggeriert, man kann diesen Datentank einfach leer pumpen oder die Wasserhähne abdrehen bzw. Kontrollvorrichtungen an den Wasserhähnen anbringen, um die Datenanalyse zu regulieren. Also eine Art Wasserzähler, der das Abzapfen von Wasser nachvollziehbar macht. Diese Regulierung oder Kontrollmöglichkeit wäre theoretisch möglich, praktisch ist diese aber derzeit nicht vorhanden.
    Die heutige Realität: Die Daten gehen wenn überhaupt erstmal direkt in die Datentanks der Unternehmen und nicht erst in einen großen zentralen Tank.
  • „Datentröpfchen“ und die Wasser-Metapher geben keinen Aufschluss darüber, dass Daten beliebig kopiert werden können. Wenn staatliche Geheimdienste oder Hacker*innen einen Datentank angreifen und Daten wie Benutzerprofile oder Passwörter abzapfen, sind diese trotzdem noch im Originaltank – im schlimmsten Fall bemerkt man den kriminellen Zugriff erst Jahre später.
    Und auch wenn Unternehmen Daten legal mit anderen Unternehmen teilen oder sie verkaufen, werden diese teilweise nur in einen anderen Tank kopiert, also dupliziert oder der Zugriff auf sie freigegeben.

Das Beispiel der Informatikerin Carolyn McGregor, welches Viktor Mayer-Schönberger in Vorträgen anführt, zeigt sehr gut die Transformation: Früher gab es auch Maschinen, die ständig Daten produzierten – aber diese Daten wurden nicht gespeichert, sondern nur zu ausgewählten Zeitpunkten manuell erfasst. Die neu produzierten Daten überschrieben einfach die alten auf den Geräten.

Eine neue Beschreibung: der „Data Breakthrough“?

In einem Textentwurf Der Data Breakthrough – Du und die Medienpädagogik in der digitalen Krise? (v0.1) im Kontext der Medienpädagogik habe ich mich bereits daran versucht, ein neue Beschreibung von Big Data und anderen Entwicklungen im Bereich der Datenanalyse (Machine Learning, etc.) zu entwerfen.

Der Data Breakthrough ist für mich ungefähr der Punkt, ab welchem die Datenanalyse gewinnbringend wurde für Unternehmen, staatliche Geheimdienste oder andere Akteure.  Ob diese Datensammlung nur subjektiv oder auch objektiv und messbar gewinnbringend ist, spielt hierbei erstmal keine Rolle. Fest steht zumindest heute: Daten wurden eine wichtige Entscheidungsgrundlage in vielen Bereichen. Die Konsequenz daraus ist: Alle Daten, die erhoben werden, werden auch gespeichert, da sie später noch potenzielle Erkenntnisse oder einen Verwendungszweck in sich tragen könnten. Dieser Verwendungszweck kann dann auch für ein ganz anderes Geschäftsmodell nützlich sein und muss nicht mehr in dem Kontext relevant sein, in welchem die Daten erhoben wurden.
Die Zeit aus dem Beispiel von Carolyn McGregor endgültig vorbei: Dass Maschinen einfach Daten überschreiben, kann und will sich keiner mehr leisten.

In dem Sinne sind die Daten also ausgebrochen, sie haben die Begrenzungen der lokalen Festplatten und des großen Tanks durchbrochen. Alles pulsiert und sendet ständig ins Netz und wird von verschiedenen Richtungen gespeichert (als Kopie). So ungefähr würde ich es spontan beschreiben – mir fällt allerdings noch kein gutes Bild hierfür ein:

Welche neuen Bilder gibt es? Habt Ihr Ideen?

Welche neuen Bilder und Visualisierungen könnte man hierfür finden? Ein Bild, welches die Duplizierbarkeit der Daten beinhaltet? Ein Bild, welches zeigt, dass Geräte und Interaktionen ständig kleine Datentröpfchen oder Punkte(?) aussenden und diese in mehrere Tanks(?) / Datenbanken landen? Und wie kann man eher geschlossene Datensysteme wie Facebook (sehr großer Tank?) mit Daten von Wearables oder dem WLAN-Login an einem bestimmten Ort vergleichen und allgemeingültig beschreiben? Sind das mehrere Datenarten oder spielt das keine Rolle?

Die große Kunst: Es solle ein Bild sein, welches ebenso wie der große Tank und die Datentröpfchen im Jahr 2012 von vielen Personen verstanden wird – aber eben der heutigen (komplexen) Realität gerecht wird.

Habt ihr Ideen oder kennt vielleicht bereits vorhandene Bilder, die sich besser eignen?

Danke im Voraus!

Titelbild: Youtube-Vorschaubild, Rechteinhaber LFM NRW, Lizenz: CC BY-NC-SA (2012), genaue Lizenzversion nicht angegeben. Der Artikel (Text) steht unter einer Creative Commons 4.0 BY Lizenz. Gerne weiterverwenden!