Veröffentlicht am 31.01.2019

Big Data: Viele Daten, viele Fragezeichen

Folgt man der populärwissenschaftlichen Literatur zum Thema Big Data, so scheint es wenig Grenzen zu geben. Die einzige Frage scheint zu lauten, was kommt als nächstes? Politik und Gesellschaft diskutieren derweil die Frage, wie weit es noch gehen soll? Und kann man es besteuern? In unserer Branche lauten die Fragen oft: Was geht denn jetzt wirklich? Woher bekommt man so viele Daten? Und ist das nicht eigentlich verboten?

Typ:: Blogartikel

Rubrik:: Analytik & IT

Themen:: KI / AI / künstliche Intelligenz Data Analytics Big Data

Big Data: Viele Daten, viele Fragezeichen

Was geht denn eigentlich wirklich?

Gerade erst haben wir uns an den Gedanken gewöhnt, dass schon ein paar Dutzend Facebook-Likes genügen, um ein Persönlichkeitsprofil zu erstellen. Das soll möglicherweise sogar geeignet sein, um Wahlentscheidungen der so analysierten Menschen zu beeinflussen. Wahrscheinlich finden es viele Menschen erst einmal beruhigend, dass das dahinterstehende Unternehmen Cambridge Analytica (CA) schon wieder vom Markt verschwunden ist und sich Facebook nach Kräften bemüht, derartige Analysen ihrer Mitgliederdaten durch Dritte in Zukunft zu beschränken. Dass diese Form der Persönlichkeitsanalyse freilich nicht an dem einen bekannten Unternehmen (was die können, können andere auch, und die Cambridge-Analytica-Konzernmutter SCL Group und -Großmutter SCL Elections scheinen weiterhin operatives Geschäft zu betreiben) hängt, gerät hingegen leicht aus dem Blick. Fernab des Mainstreams geht derweil schon die nächste Meldung durch die Fachpresse: Offenbar genügt es tatsächlich, einem Menschen nur in die Augen zu schauen, um seine Persönlichkeit deuten zu können. Genauer gesagt auf die Bewegung der Augen während der Verrichtung von Alltagsgeschäften. In Zukunft genügt es also, eine Kamera lang genug auf das Gesicht einer Person zu richten, um von einer künstlichen Intelligenz eine Einschätzung zu bekommen, wie diese Person tickt und für welche Art von Beeinflussung sie möglicherweise empfänglich ist.

Die erwähnte Studie und die Berichterstattung dazu sind ein gutes Beispiel wie Forschung und Realität auseinanderklaffen können. Untersucht wurden grade einmal 50 Personen, alle samt Student/-innen (42 weiblich, 8 männlich) einer Hochschule in Adelaide, Australien. Für eine statistische Betrachtung sind 50 Probanden nicht besonders viel, trotzdem scheint das maschinelle Lernen zu funktionieren. Das weckt Hoffnungen: Genügen also bereits rund 50 Datensätze, um eine künstliche Intelligenz in einer ziemlich komplexen Aufgabenstellung wie dieser zu trainieren? Natürlich nicht. Im vorliegenden Fall haben die 50 eventuell genügt, um grundsätzlich zu zeigen, dass es möglich wäre, eine künstliche Intelligenz zu trainieren, Persönlichkeitsprofile anhand von Augenbewegungen zu bestimmen. Aber das Forscherteam hat noch keine künstliche Intelligenz, die diese Aufgabe auch zuverlässig für alle Menschen erfüllt, sondern eben nur für eine kleine, geschlossene Studenten/-innen-Gruppe aus Adelaide. Und dieser Unterschied zwischen Zusammenhang zeigen und Zusammenhang nutzen können ist größer, als es auf den ersten Blick erscheint. Wie viele Aufnahmen von Augenbewegungen wird es zum Training einer allgemeinen Maschine brauchen? Das ist schwer zu sagen. Gut wäre sicherlich für jede Persönlichkeitsausprägung tatsächlich auch mehrere Datensätze zu haben, und zwar jeweils von Menschen unterschiedlichen Geschlechts, Alters, kultureller Prägung, Bildungsstandes usw. Dazu vielleicht auch noch eine ähnliche Menge an Trainingsdaten von Personen mit Persönlichkeitsstörungen, Augenleiden und weiteren möglichen Einflussfaktoren. Die Zahl wird also schnell groß und ist eher im Bereich von Millionen, als im Bereich von Tausenden zu suchen. Das sollten Sie bitte immer im Hinterkopf behalten, falls Sie nach der Lektüre eines solchen Beispiels denken, „na die fünfzig Trainingsdatensätze bekomme ich doch bestimmt schnell zusammengesucht“.

Woher kommen so viele Daten?

Wird dem Hype um das Thema Maschine Learning damit für alle praktischen Anwendungen die Luft abgelassen? Keineswegs, denn es gibt durchaus Marktteilnehmer, die die nötige Größenordnung an Daten bekommen können. Denken Sie nur an die ganzen modernen Smartphones, Tablets und Notebooks, die sich entsperren, wenn die Kamera das Gesicht der legitimen Benutzer erkannt hat. Moderne Virtuell-Reality-Brillen verfolgen die Augenbewegungen, um die Szenerie möglichst realitätsgetreu anpassen zu können. Wenn also Brillen oder Kontaktlinsen mit Display zunehmend Verbreitung finden und unter der Vermutung, dass dort eine ähnliche Marktkonzentration wie bei den Smartphones und Smartphone-Betriebssystemen erfolgt, kommt schnell eine große Datenmenge zusammen.

Diese Ungleichheit und Konzentration in der Verfügbarkeit großer Datenmengen wird zunehmend zu einem Problem werden – längst nicht nur in unserer Branche. Zum Ausgleich versuchen viele Unternehmen jetzt, neue Datenquellen zu erschließen, sei es mit neuen Produkten (Telematik, Smart Home, Smart Health), sei es durch die nachträgliche Analyse der bestehenden Datenbestände. Vor allem in den überwiegend nur grob vorstrukturierten Dokumentenarchiven schlummert sicherlich noch so mancher Schatz. Auch neue elektronische Kundenzugänge (Chatbots und inhaltlich adaptive Websites) und Open-Innovation-Prozesse werden teilweise mit dem Ziel etabliert, Kundenintentionen und -verhalten quantitativ besser modellieren zu können.

Ist das nicht eigentlich verboten?

Beispiele wie das der Persönlichkeitsanalysen lassen immer wieder aufhorchen. Wie kann so etwas (außerhalb des Labors) legal sein, ohne vorherige Einwilligung der Kunden? Schwebt über einer solchen Einwilligung nicht schon grundsätzlich das Schwert der Unzulässigkeit, da es kaum möglich sein wird, den eiligen Kunden ausreichend zu informieren? Durch Pseudonymisierung und Kapselung können gewisse Hürden genommen werden, aber solche Verfahren stoßen auch an Grenzen. Je mehr Daten zum Einzelnen zur Verfügung stehen, umso leichter ist es, die Pseudonymisierung rückgängig zu machen.

Die Assekuranz ist dabei überwiegend vorsichtig. Schon wird diskutiert, ob nicht jedes Datum, das von Kunden erhoben wird, personenbezogen sei – denn was zur Tarifierung gebraucht wird, muss ja geradezu auf die Person zugeschnitten sein. Google kauft währenddessen Kreditkartendaten. Und aus Australien und Neuseeland erfahren wir, dass gute Kreditoren daran erkannt werden können, dass sie hochwertige Holzpolitur und Schmieröle kaufen. Die ANZ Bank hat diese Erkenntnis gewonnen, während sie sich auf die Open-Account-Gesetzgebung vorbereitete, also darauf, dass auch Drittanbieter vom Kontoinhaber den direkten Zugriff auf das Kontenbuch bekommen können.

Irgendwie ist es absurd. Facebook und Twitter schneiden zunehmend alle Schnittstellen für Drittanbieter ab. Vielleicht, weil sie erkannt haben, dass ihre Kunden die Einwilligungen leichtfertig und uninformiert geben, vielleicht auch, weil sie erkannt haben, wie unverfroren einige Drittanbieter (Cambridge Analytica lässt grüßen) das technisch Mögliche nutzen. Vielleicht auch einfach nur, um das eigene Geschäft zu schützen und den exklusiven Zugriff auf die Kundendaten zu behalten. Gleichzeitig werden Banken von Neuseeland bis Europa gezwungen, genau solche Schnittstellen wieder zu schaffen.

Es ist daher davon auszugehen, dass Big-Data-Analysen nicht von vorn herein an Verbotsschildern scheitern, wohl aber davon beeinflusst werden.

Mitarbeiter unserer Partnerunternehmen haben die Möglichkeit, unser 14-täglich erscheinendes Versicherungsforen-Themendossier kostenfrei zu abonnieren. Das Themendossier informiert über aktuelle Entwicklungen und wichtige Themen der Versicherungswissenschaft und -praxis und erscheint jeweils am 15. und am letzten Arbeitstag eines Monats.

Autor