Vortragsreise in Sachen Ethik und Datenanalyse: Nichts genaues weiß man nicht!

Posted on 2016-03-11 by lars
Send us your comments.

Der folgende Text ist zur Vorbereitung eines Vortrags zu den Stichworten “Big-Data” und “Datenanalyse” im Arbeitskreis Ethik des Projektes Assessing Big Data entstanden. Im wesentlichen ist der Text mein Versuch meine eigenen Gedanken darüber zu ordnen, was ich zu diesem Thema in diesem Kreis überhaupt formulieren kann. Bei der Lektüre ist zu bedenken, dass die informatischen Teile im Text deutlich kleiner ausgefallen sind, als im eigentlichen Vortrag. Der technische Teil hat schlicht weniger Vorbereitung benötigt. Der nicht-technische Teil ist allerdings nicht ganz so gut fundiert — Ethik ist halt nicht direkt meine Stärke. Im Gegensatz dazu kann ich das technische Fazit in drei Spiegelstrichen zusammenfassen.

Der Text benötigt gegebenenfalls ein wenig Überarbeitung.

Nichts Genaues weiß man nicht! — Methodik der Datenanalyse und der Ausblick der Beteiligten

Zusammenfassung: In diesem Beitrag soll in die Datenanalyse in großen Datenbeständen aus technischer Perspektive einführen und dabei auch die unterschiedlichen Perspektiven der Beteiligten und Betroffenen einnehmen. Wir werden Murmeln auf multidimensionale, zerklüftete Flächen werfen, quantifizierte Individuen verknüpfen und den Ausblick in einer Filterblase diskutieren. Ich möchte dabei den Bogen von der Methodik zum Effekt spannen und dabei die wichtigsten Anwendungsfelder streifen.

Einleitung

Ich möchte explizit nicht damit anfangen zu versuchen den Begriff „Big Data“ zu definieren. Zum einen wird dies in diesem Kreis in den vergangenen Workshops schon ausreichend diskutiert worden sein. Zum anderen halte ich persönlich den Begriff für ein unzureichendes Buzzword; geeignet für einen Titel und den öffentlichen Diskurs, aber wenig geeignet für eine differenzierte Debatte.

Ich möchte den Begriff lediglich in zwei Aspekte der Datensammlungen differenzieren, die durch ihn adressiert sein können. Zum einen muss der Datenraum in dem jedes Datum einen Punkt darstellt hochdimensional und komplex sein. (Mit „komplex“ meine ich nicht die komplexen zahlen, sondern nicht leicht zu verstehende Zusammenhänge zwischen den Datendimensionen und nicht-stetiges Verhalten.) Zum anderen muß die Menge der betrachteten Datenpunkte so groß sein, dass sie nicht leicht durch eine Liste oder eine offensichtliche, vereinfachte Darstellung verständlich werden.

Datenbeispiel

Ein kleiner Ausschnitt einer Dimension eines solchen Datensatzes eines wenig populären sozialen Netzes, dem verteilten Netz der RDF-Beschreibungen Friend-of-a-Friend~(FOAF).

Datenanalyse

Ich möchte mit dem Blickwinkel der Datenanalyse anfangen. Die Liste der Protagonisten die ich im folgenden verwende ist rein anekdotisch und lässt sich sicherlich durch andere Organisationen ersetzen.

Big Data Landschaft

Mittlerweile lassen sich eine ganze Reihe von Organisationen finden, deren Datensammlungen sich mit dem Begriff „Big“ trefflich beschreiben lassen. Ganz vorne finden sich da die **„sozialen Netze“** — mit Klassenprimus Facebook — oder die Internet-Suchmaschinen — bei denen google sich unter anderem durch die Menge an Diensten hervortut, über welche Daten erfasst werden.

Die Siegertreppe der großen Datensammler wäre nicht vollständig ohne die staatlichen Geheimdienste zu nennen. Über das Ausmaß der Datensammlung zumindest der westlichen Geheimdienste werden wir seit 2013 umfassend aus der Dokumentensammlung von Edward Snowden versorgt. Dessen persönlichen Einsatz für die Aufklärung der Öffentlichkeit kann man vermutlich nicht oft genug loben.

Aber an vielen anderen Stellen finden sich wachsende Datensammlungen, deren Analyse, so wird gehofft, wichtige Erkenntnisse liefert, solange die Algorithmen eben nur mit ausreichend großen Datenmengen gefüttert werden. Hersteller von Landmaschinen, Saatgut oder Dünger streben danach die Landwirtschaft effizienter und effektiver zu gestalten indem Prozeßzeiten, Düngermengen und Werkzeuge punktgenau und feingranular gesteuert werden. Die Produktion soll so, unabhängiger von äusseren Einflüssen, gleichbleibender hohen Ertrag liefern. Die ehemaligen Bauern, jetzt Produzenten, landwirtschaftlicher Produkte binden sich dafür meist langfristig an die Hersteller und ihre Hilfsmittel. Fehlende Standards reduzieren die Interoperabilität zwischen Herstellern und binden den Landwirt ebenso wie die Kombination aus Hybridsamen und daran angepasste Schädlingsbekämpfung und Düngung.

Bei den Suchmaschinen habe ich noch persönlich nachvollziehen können, dass die Algorithmen von Google einen deutlichen Qualitätssprung erzeugt haben. Im Bereich der Landwirtschaft wird noch debattiert, ob die Hochtechnologie aus Big Data und Chemie wirklich höhere Wachstumsraten erzeugen kann als weniger komplexe, an die ökologische Umgebung angepasste Methoden, Stichwort .

Was ist Datenanalyse?
Zielfunktion der Datenanalyse

Der Protest „Ich bin keine Nummer, ich lasse mich nicht in eine Schublade packen!“ beschreibt sehr anschaulich den Ausgangspunkt und das wesentliche Ziel der Datenanalyse. Die gesammelten Daten eines Teilnehmers in einem sozialen Netz stellen im wesentlichen einen Datenpunkt in einem komplexen Datenraum dar. In diesem Sinne ist jedes irgendwie erfasste Ding eine Nummer. Die Komplexität des Datenraums und die Menge der Datenpunkte ist dass was wir mit dem Begriff „Big Data“ wesentlich beschreiben, wenn Menge und Komplexität sehr hoch sind.

Jedes erfasste Subjekt oder Objekt ist zu Beginn der Analysa also tatsächlich erst einmal eine von vielen Nummern. Komplexität und Menge lassen keine einfache Darstellung dieser Datenmenge zu, und so ist die Aussagekraft der Datensammlung zunächst erst einmal auf statistische Artefakte; Mittelwerte, Varianz und Median der einzelnen Dimensionen und einfache Agregation beschränkt.

Damit wird der Datenanalyst heute nicht mehr glücklich. Das Ziel ist es die Datensätze geeignet zu vereinfachen, insbesondere zu Gruppieren und über (versteckte) gemeinsame Charakteristik einer Gruppe von Punkten Information zu gewinnen. „Alle Terroristen tragen rote Socken“ wäre in den 70ern in diesem Land vielleicht ein beliebtes Vorurteil. Mit einer „Big Data“ Verknüpfung von Einkaufsverhalten und politischer Orientierung hätte man dies Validieren können, oder besser noch, dieser Zusammenhang wäre überhaupt erst aufgefallen. Die Strafverfolgungsbehörden heute wünschen sich sicherlich, dass irgendwelche Algorithmen ähnlich einfach erkennbaren Eigenschaften Islamischer Terroristen in den Datenbanken finden.

In der konsumorientierten Onlineökonomie sind die Ziele oftmals weniger dramatisch. Im wesentlichen soll die Welt der angetroffenen Individuen, zum Beispiel den Besucher einer Webseite, in zukünftige Kunden eines Produktes und die wahrscheinlichen Nicht-Kunden unterteilt werden. Je nach Klassifizierung blenden wir dann die passende Werbung ein, passen angebotene Preise an, oder stellen das Dienstangebot um.

Insbesondere im zweiten Fall reicht eine Trefferquote die höher als ein Zufallstreffer liegt. Bei der Jagd nach Straftätern erhoffe ich mir zumindest eine sehr niedrige Fehlerkennungsrate.

Algorithmen in der Datenanalyse

Die meisten „Big Data“ Analysemethoden, wie zum Beispiel Neuronale Netze, sind werden trainiert. Das bedeutet, dass zunächst einmal die Parameter des Algorithmus an einem Trainingsdatensatz eingestellt werden. Oft bilden auch diese Parameter wieder einen vieldimensionalen Datenraum mit komplexen Wirkzusammenhängen. Deshalb wird hier wieder auf wiederholte Versuche an einem Trainingsdatensatz zurückgegriffen. Eine weit verbreitete Methode dafür sind Evolutionäre Algorithmen.

Wesentlicher Punkt hierbei ist die {} die zur Bewertung herangezogen wird .

Partitionierung}

Eine große Menge von individuellen Datenpunkten (Personen) lässt sich vereinfachen, indem wir sie in Klassen „ähnlicher“ Punkte Gruppieren. Für einen Menschen ist diese Unterteilung nur für Datenpunkte in bis zu drei Dimensionen einfach, anschließend wird es mit der Wahrnehmung etwas hakelig. Computer, auf der anderen Seite, tun sich schwer mit unpräziser Wahrnehmung von Formen in einer Menge von Datenpunkten. Computer sind viel besser darin präzise einzelne Werte miteinander zu vergleichen.

Ich möchte ein schnelles, sehr einfaches Beispiel eines Clustering Algorithmus anbringen. Den -Algorithmus. Für diesen Algoritmus müssen wir einerseits in der Lage sein alle unsere Datenpunkte in einem metrischen Raum unterzubringen, zum anderen müssen wir schon vorher wissen, welche Anzahl an Gruppierungen wir wünschen.

Der Algorithmus selbst zeigt anschaulich eine Reihe von grundlegenden Problemen auf. Zum einen ist er sehr empfindlich gegenüber den Anfangsbedingungen. Mein Resultat hängt nicht nur von der Verteilung meiner Datenpunkte im Raum ab, sondern eben auch sehr stark von der Anzahl der ersten „Hypothese“ (der Auswahl der Startpunkte).

Desweiteren ist die Stopbedingung des Algorithmus nicht trivial. Schon für diesen einfachen Algorithmus können wir nicht immer davon ausgehen, dass wir eine Endkonfiguration erreicht haben. Sind die Startpunkte ungeschickt gewählt, dann können die Centroide zwischen mehreren Positionen alternieren.

Social Network De-Anonymisation

Datenanalysierte

Im Folgenden möchte ich den Blickwinkel etwas drehen um die Effekte der großangelegten Datensammlung und -analyse zu diskutieren.

Datacalypse
Datenverlust

Daten sind das „Öl des 21. Jahrhunderts“, diese Metapher, z.B. in [Braun2014] schon im Titel aufgenommen, impliziert natürlich auch Begehrlichkeiten die entstehen, wenn große Datenmengen angehäuft werden. Anders als bei einem Tresor voller Gold, ist ein angefülltes Datenzentrum vielleicht nur für einen eingeschränkten Kreis direkt monetarisierbar. Das große Datensammlungen einen hohen Wert darstellen dürfte aber allgemein unumstritten sein. Anders als Gold, lassen sich die Informationen, die in den Daten kodiert sind, aber nicht wiederbeschaffen, wenn sie entwendet wurden.

Ein Geheimnis, dass enthüllt worden ist, ist kein Geheimnis mehr. Datendiebstahl ist, anders als der Diebstahl von physischen Gütern, eine Einbahnstraße in Bezug auf die Geheimhaltung und lässt sich nicht wieder „reparieren“.

Ein anderer Aspekt ist, dass Daten beliebig und fehlerfrei dupliziert werden können. Eine ähnliche Technik für Gold oder Öl wäre sicher heiß begehrt. Ein wesentlicher Aspekt in Bezug auf den Verlust von Daten ist allerdings, dass dieser Verlust schwierig nachzuweisen ist und sogar völlig unbemerkt bleiben kann. Und das ist letztlich wirklich anders als bei physischen Gütern. Stellen Sie sich kurz vor alles Gold aus dem populären Fort Knox würde entwendet werden, die Lagerhallen wären offensichtlich leer.

Abhängig von der Art der Daten (und der Motivation der Diebe) hat Datenverlust ganz unterschiedliche Auswirkungen. Für Politiker ist der „Verlust“ ihrer Email-Korrespondenz gelegentlich katastrophal für die nächste Wahl, für die Datensammler vom Anfang ist ihre Datenbank in der Regel ein sorgsam gehütetes Heiligtum, die Quelle der eigenen Existenz.

Datenüberfluss und Kontrollverlust}

Was aber, wenn wir die Menge der Daten nicht mehr handhaben können? Die algorithmische Aggregation, so hoffe ich anschaulich gemacht zu haben, scheint bisher zumindest in kontrollierbarem Rahmen Fehler zu machen. Aber schon jetzt ist es eigentlich nicht möglich die Ergebnisse der Berechnungen vollständig zu validieren. So wirklich klar ist, mir zumindest, nicht, ob wir, unterhalb von katastrophalen Auswirkungen, wirklich wahrnehmen würden, dass wir die Datenflut nicht mehr kontrollieren können.

Und, selbst, wenn uns die Heuristiken nachweislich in die Irre geführt haben, weil wir zum Beispiel die Ernte eines Jahres größtenteils verloren haben, ist fraglich, ob wir den Zauberbesen wieder in seine Kammer zurückschicken können. Um zu entscheiden, auf welche Daten wir verzichten können, müssen wir diese zunöchst im Datenberg identifizieren können — im wesentlichen die gleiche Anforderung die wir in dem Fall nicht erfüllen konnten.

Verhalten unter Beobachtung}

Menschen ändern ihr Verhalten wenn Sie befürchten müssen ihr bisheriges Verhalten führte zu Nachteilen für sie. Dabei ist tatsächlich unwesentlich, ob sie tatsächlich beobachtet und kontrolliert werden. Wesentlich ist die Möglichkeit der Beobachtung des eigenen Verhaltens und die daraus resultierende Bestrafung. Die Konsequenzen müssen dabei nicht unbedingt organisierte Repression beinhalten, der ist der bekannte Ausdruck für niederschwellige Konformitätsmotivation durch andere Menschen.

Druck erzeugt vereinzelt sicher Widerstand, und anscheinend gibt es Grenzen erduldbaren Drucks, bei deren Überschreiten sich die Masse der Unterdrückten, durchaus schlagartig, gegen die Unterdrücker wendet (wenden kann). Solche Ereignisse füllen dann die Geschichtsbücher. Eine grundsätzliche Frage ist aber, ob die Unterdrückung nicht lediglich zu ungeschickt waren. Anders herum gefragt, gibt es eine technologische Entwicklung, die Unterdrückung ohne die Wahrnehmung übermäßigen Drucks ermöglicht.

Vielleicht ist gerade das Informationsungleichgewicht, welches „Big Data“ erzeugt der für schmerzfreie Unterdrückung. Ein paar beobachtbare Effekte deuten darauf hin. Stuart McMillan (2009) fasst das gleichlautende Buch von Neil Postman im Comic zu „Amusing Ourselves to Death“ gut zusammen, ohne allerdings direkt das Werkzeug „Big Data“ zu erwähnen.

„Big Data“ ist allerdings eine grundlegende Technik, vielleicht die eine grundlegende Technik, für die beiden bekannten Distopien von George Orwell und Aldous Huxley. In einem Fall ist es eine umfassende Datenbasis, welche die Unterdrückung des Individuums ermöglicht. Im anderen Fall ist es die Ablenkung der Aufmerksamkeit von „unangenehmen Ideen“, über die das Individuum gleichgeschaltet wird.

Filterblasen}

Das Konzept der Filterblase beschreibt, dass durch (automatische) Filterung die Menge der durch ein System präsentierten Informationen nur noch die Ansichten und Meinungen des Rezipienten widerspiegeln. Alleine die Vorsortierung nach Kritierien der Ähnlichkeit, und damit der angenommenen, individuellen Wichtigkeit, der präsentierten Informationen führt dazu, dass kontroverse Informationen nicht mehr wahrgenommen werden.

Ein Mensch in einer Filterblase kriegt im wesentlichen nur noch eine Sicht auf die Welt präsentiert, die seiner eigenen Weltsicht entspricht. Dadurch wird diese Weltsicht konstant verstärkt, weil das Individuum keinen Widerspruch mehr wahrnimmt.

Empfehlungssysteme behindern derart die Diskussion und sind, wenn man es hart formuliert, schädlich für den Meinungspluralismus und essentiell die Fähigkeit des Einzelnen zur freien Meinungsbildung. Der Schaden mag sich bei der Empfehlung von Konsumgütern noch in engen Grenzen halten, aber der Anspruch vieler „Big Data“-Anwendungen, wie zum Beispiel Suchmaschinen und Sozialen Netzen ist deutlich umfassender und betrifft alle Bereiche des Informationsaustausches und der Kommunikation.

Probleme falscher Schlußfolgerung}

Die Auswirkungen fehlerhaft wirkender Algorithmen hängen natürlich deutlich vom Anwendungsfall ab. Die Nichtgewährung eines Kredits mag schon sehr unangenehm sein, die Aussage „We kill people based on metadata“ durch Michael Hayden, ehemaliger Chef der NSA (siehe, deutet da noch auf wesentlich unangenehmere Konsequenzen hin. (Und für das Protokoll merke ich an, dass ich die Konsequenz „Tötung“ auch dann ablehne, wenn sie nicht zusätzlich auch noch auf fehlerhafter Datenanalyse basiert.)

Fazit

Ich möchte mit einem der treffenderen Kommentare zu Online Social Networks schließen, der mir bisher untergekommen ist. Die gestellte Frage: „Warum sind wir unseren Online-Freunden näher als unseren Nachbarn?“ impliziert vielleicht gleich mehrere Big-Data-Effekt. Filtermechanismen mögen ihren Anteil daran haben, dass wir Online mehr und besser passende Bekanntschaften finden, als durch die zufällige räumliche Nähe.

Die Frage impliziert aber auch, dass dies nicht unbedingt gewünscht sein muß. Umso direkter geht es mit der Antwort zu. Im wesentlichen sind Soziale Netze und auch die Datensammlungen um die es hier heute geht ökonomisch motiviert, und diese Ökonomie folgt bestimmten, menschgemachten Regeln. Ökonomische Ziele entsprechen aber nicht immer den ethisch oder politisch angestrebten Zielen (meiner Meinung nach ist die Überschneidung sogar sehr eng begrenzt und findet häufig nur dann statt, wenn die Ökonomie durch Reglementierung eingeschränkt wird).

Ein weiterer Punkt, den ich deutlich hervorheben möchte ist, dass, ähnlich wie ein hoher Berg, große Datensammlung eine Form von potentieller Energie in sich haben. Es gibt sicherlich Möglichkeiten dieses Potential vorteilhaft zu nutzen, ähnlich wie ein Stausee zur Energieerzeugung genutzt werden kann. Aber der Vergleich mit dem Stausee bietet, ebenso wie der Datenberg, das Potential für Katastrophen. Der wesentliche Unterschied ist, dass Daten für uns Informationen kodieren und der Effekt von Information ist die Formung unseres individuellen und gemeinschaftlichen Weltbildes. Die große Gefahr ist nicht einfach, dass der Staudamm bricht, sondern, dass die Auswirkungen der Katastrophe nicht bemerkt werden können.

Wenn der Staudamm bricht und ich keinen Effekt bemerke, ich zum Beispiel nicht wahrnehme, dass ich ertrinke, dann bin ich sehr wahrscheinlich auch nicht ertrunken und tatsächlich nicht betroffen. Wenn der Datenstaudamm bricht, bekomme ich vielleicht nicht mit, dass ich ertrinke, obwohl es tatsächlich der Fall ist.

Ich hoffe heute deutlich gemacht zu haben, das die Techniken die wir unter dem Schlagword Big Data zusammenfassen, wie die meisten Technologien, nicht per se gut oder böse sind. Die moralische Qualität kommt in der Regel durch den Einsatzzweck dazu und dieser ist üblicherweise bestimmt durch ökonomische Faktoren.

Die Welt in der wir leben wandelt sich langsam von einer in der jede Technologie genutzt werden musste um das Überleben der Menschheit sicherzustellen zu einer in der wir uns überlegen müssen, ob die Technik nicht kontraproduktiv ist.

END—–