Welche Rolle spielen Daten? – Datenbewusstsein am Beispiel von Empfehlungssystemen im Kontext von Streamingplattformen

Steckbrief des Unterrichtsmoduls

Core idea

Das Unterrichtsvorhaben setzt sich aus vier Teilen zusammen und thematisiert als Beispielanwendung die Erhebung und Verarbeitung von Daten exemplarisch bei der Nutzung des Streamingplattformen, fokussiert auf den Einsatz von Empfehlungssystemen, und weiterführend in anderen Alltagskontexten der Lernenden.

Im ersten Teil wird in den Kontext der Streamingplattform eingeführt, bei dem Empfehlungssysteme verwendet werden, um personalisierte Filmempfehlungen anzuzeigen. Dabei wird erarbeitet, welche persönlichen Daten bei der Nutzung einer exemplarischen Streamingplattform erhoben werden, um mit diesen personalisierte Filmempfehlungen zu ermitteln. Zum Beispiel sind dafür Nutzungsdaten interessant, wie etwa über die von einem Nutzenden angeschauten Filme. Dafür wechseln die Schüler:innen in die Perspektive eines Anbieters einer Streamingplattform und geben anderen Schüler:innen Filmempfehlungen. Gemeinsam reflektieren sie anschließend ihr Vorgehen und erarbeiten Ideen für die Erhebung persönlicher Daten als Grundlage für das Generieren persönlicher Filmempfehlungen. Im zweiten Teil wird die Funktionsweise eines Filmempfehlungssystemes rekonstruiert, wofür die Schüler:innen in einer vorbereiteten Lernumgebung mit einem gegebenen Filmempfehlungsdienst interagieren und schrittweise die Funktionsweise von der Erhebung von Daten bis hin zur automatisierten Ermittlung von Empfehlungen mit einem Verfahren des maschinellen Lernens erarbeiten (in diesem Falle ist es das k-nearest neighbor Verfahren). Im dritten Teil wird exemplarisch eine Zweitverwertung von Nutzungsdaten durch eine Streamingplattform thematisiert, indem sich die Schüler:innen im Rahmen einer Diskussionsrunde mit dem sekundären Zweck einer personalisierten Bezahlschranke basierend auf der Idee des Empfehlungssystemes auseinandersetzen. Dabei wird der Interaktionskontext hinsichtlich der Erhebung und Verarbeitung persönlicher Daten reflektiert und bewertet. In diesem Teil werden verschiedene Aspekte der Wechselwirkung zwischen Nutzendem und der Streamingplattform (mit Fokus auf Empfehlungssysteme) thematisiert, wie etwa Verstärkungen von Abhängigkeiten im Nutzungsverhalten oder Wirkungen im Sinne der Filterblasen. Im vierten Teil werden zuvor gelernte Konzepte zur Rolle von Daten bei datengetriebenen digitalen Artefakten zu einem Erklärmodell zusammengeführt. Dies wenden sie anschließend auf weitere datengetriebene Anwendungen aus ihrem Alltag an, in denen Empfehlungssysteme eingesetzt werden. Danach stellen sich die Schüler:innen ihre Untersuchungsergebnisse vor und evaluieren und bewerten die Datenerhebung und -verarbeitung in den verschiedenen Beispielen. Dabei reflektieren sie zudem ihre eigene Rolle (inbs. im Hinblick auf ihre Entscheidungs- und Handlungsmöglichkeiten) in diesen Kontexten und nehmen eine begründete Position zu Empfehlungssystemen ein.

Zielgruppe:

Informatik in Klasse 8 bis 10 (Gymnasium, Gesamtschule, Realschule) – Anknüpfung an Politik- und Philospophieunterricht möglich

Inhaltsfeld:

„Informatik, Mensch und Gesellschaft“, „Information und Daten“ und „Künstliche Intelligenz und maschinelles Lernen“ (überwachtes Lernen)

Vorkenntnisse:

Dieses Unterrichtsvorhaben setzt keine besonderen Vorkenntnisse der Schüler:innen voraus. Es sollte jedoch eine grundlegende Erfahrung im Umgang mit dem Computer vorhanden sein. Außerdem sind grundlegende Vorstellungen des Datenbegriffs wünschenswert; entsprechende Einführungen könnten jedoch auch in diesem Modul integriert werden. Ein Verständnis von Konzepten der Künstlicher Intelligenz oder Maschinellem Lernen ist nicht nötig (z.B. überwachtes Lernen etc.); im Gegenteil werden in diesem Modul Aspekte des überwachten Lernens bereits aufgegriffen (insb. ein Beispiel eines solchen Lernverfahrens). In dem Unterrichtsvorhaben wird ein Jupyter Notebook verwendet, wofür keine Programmierkenntnisse vorausgesetzt werden.

Zeitlicher Umfang:

6-8 Unterrichtsstunden je 45 Minuten

Überblick zum Verlauf des Unterrichtsmoduls

Goals

Im Sinne der Förderung von Datenbewusstsein, ist das übergeordnete Ziel, dass Schülerinnen und Schüler ein Erklärmodell für datengetriebene Technologien lernen, womit sie die Rolle von Daten bei der Nutzung unterschiedlicher Anwendungen erkennen, verstehen und reflektieren können. Dadurch soll ein Beitrag zu einer selbstbestimmten und kompetenten Handlungsfähigkeit in alltäglichen Interaktionen mit datengetriebenen Anwendungen geleistet werden. Konkretisiert wird dies in die folgenden Teillernziele, gegliedert nach den drei Teilen des Unterrichtsvorhabens.

Teil 1: Filmempfehlungen und Datenerhebung durch einen Empfehlungssystem

Die Schüler:innen verstehen die Bedeutung von personalisierten Filmempfehlungen, indem sie selbst anderen Personen Filmempfehlungen geben und diesen Prozess reflektieren.
Die Schüler:innen können die Begriffe der explizit und implizit erhobenen Daten unterscheiden und Daten aus dem Kontext eines Empfehlungssystems entsprechend zuordnen.
Die Schüler:innen begründen die Bedeutung explizit und implizit erhobener Daten zum Ermitteln personalisierter Filmempfehlungen beispielhaft für die Erstellung einer Startseite bei einer Streamingplattform (primärer Zweck).

Teil 2: Aufbau und Funktionsweise von Filmempfehlungssystemen

Die Schüler:innen können wesentliche Schritte zur automatisierten Ermittlung von personalisierten Filmempfehlungen mit Bezug zur Grundidee des kollaborativen Filterns am Beispiel des Verfahrens k-Nearest Neighbors aus dem maschinellen Lernen beschreiben.
Die Schüler:innen können die Rolle von Datenmodellen über Nutzende für Empfehlungssysteme erklären.
Die Schüler:innen können die Begriffe der primären und sekundären Zwecke unterscheiden und Beispiele aus dem Kontext der Empfehlungssysteme zuordnen.

Teil 3: Zweitverwertung durch ein Empfehlungssystem

Die Schüler:innen können die Datenpraktiken bei einer fiktiven Streamingplattform bewerten, wofür sie die Wechselwirkung zwischen Nutzenden und der Streamingplattform diskutieren.
Die Schüler:innen können eine begründete Position zum Einsatz von Empfehlungssystemen einnehmen.

Teil 4: Weitere Kontexte mit Empfehlungssystemen

Die Schüler:innen können Beispiele für datengetriebene digitale Artefakte aus ihrem Alltag, in denen Empfehlungssysteme eingesetzt werden, untersuchen, indem sie die Konzepte des Erklärmodells darauf anwenden.
Die Schüler:innen können aufbauend auf ihren Ergebnissen der Auseinandersetzung mit Beispielen für datengetriebene digitale Artefakte ihre Rolle in diesen Situationen reflektieren, indem sie vor allem ihre Entscheidungs- und Handlungsmöglichkeiten diskutieren und bewerten.

Zentrale Leitfragen

Teil 1: Filmempfehlungen und Datenerhebung durch einen Empfehlungsdienst

Was gebe ich einer anderen Person personalisierte Filmempfehlungen und welche persönlichen Informationen über diese Person sind dafür hilfreich?

Teil 2: Aufbau und Funktionsweise von Filmempfehlungssystemen

Wie können anhand explizit und implizit erhobener Daten automatisiert personalisierte Filmempfehlungen ermittelt werden?
Welche Rolle spielen Datenmodelle über Nutzende für die Funktionsweise eines Empfehlungssystems?

Teil 3: Zweitverwertung durch einen Empfehlungsdienst

Wozu könnten Datenmodelle über Nutzende neben dem Zweck der Ermittlung personalisierter Filmempfehlungen ansonsten genutzt werden?
Welche Bedeutung hat die Rolle von Daten im Rahmen der Nutzung von Streamingplattformen hinsichtlich der Wechselwirkung zwischen Nutzenden und Streamingplattformen?

Teil 4: Weitere Kontexte mit Empfehlungssystemen

In welchen anderen Kontexten werden Empfehlungssysteme eingesetzt und welche Rolle spielen Daten dort?
Welche Rolle spiele ich in den anderen Beispielsituationen, insbesondere im Hinblick auf meine Entscheidungs- und Handlungsfähigkeit?

Lesson overview

Teil 1: Filmempfehlungen und Datenerhebung durch einen Empfehlungsdienst

Phase	Content	Goals	Material
1a	Einführung in den Kontext und Problematisierung: Die erste Phase des Unterrichtsvorhabens beginnt mit einem Unterrichtsgespräch, das einen Kontext einführt, der als Grundlage für das gesamte Modul dient. Dieser Kontext bezieht sich auf die Nutzung der Streamingplattform Netflix. Dort werden Empfehlungssysteme (Recommender Systems) eingesetzt, um die angezeigten Startseiten zu personalisieren. Zur Veranschaulichung dieses Kontexts wird ein Beispielbild einer Netflix-Startseite gezeigt. Das Unterrichtsgespräch wird dann im Wesentlichen an zwei Leitfragen orientiert: (1) Was ist eine Streamingplattform? – Die Schüler:innen erklären anhand des Beispielbildes, was eine Streamingplattform ist, wobei sie auch ihre eigenen Erfahrungen mit Netflix oder ähnlichen Plattformen einbeziehen können. (2) Wie ist eine solche Startseite aufgebaut? – Die Schüler:innen erklären anhand des Beispielbildes die Struktur einer solchen Startseite. Hierbei sollte deutlich werden, dass eine solche Startseite personalisiert ist (Netflix beschreibt etwa, dass alle Nutzenden vollständig individualisierte Startseiten haben). Die Personalisierung erfolgt durch die Anordnung der Kategorien (Zeilen) und die Reihenfolge der Inhalte in diesen Kategorien (Spalten). Zusätzlich werden die Vorschaubilder der Inhalte je nach Nutzer:in ausgewählt. Im Wesentlichen handelt es sich also um Empfehlungen von Inhalten, die auf der Startseite angezeigt werden. Während des Unterrichtsgesprächs wird gemeinsam die Frage erarbeitet, wie solche Filmempfehlungen zustande kommen. Diese Frage wird in dieser Phase noch nicht beantwortet, sondern dient als Überleitung zur nächsten Phase. Didaktischer Kommentar: Der Beispielkontext wurde aufgrund der Bekanntheit der Plattform im Alltag der Schüler:innen ausgewählt, um so die Anknüpfung an alltägliche Erfahrungen der Schüler:innen zu ermöglichen. Dennoch ist zu beachten, dass einige Schüler:innen möglicherweise weniger Erfahrungen damit haben als andere. In dieser Unterrichtsphase ist es das Ziel, alle Schüler:innen einzubeziehen und ihre unterschiedlichen Erfahrungen zu berücksichtigen. Das Unterrichtsgespräch zielt darauf ab, die letzte Leitfrage zu erarbeiten und die Schüler:innen zu motivieren sowie dazu anzuregen, zu hinterfragen, wie solche personalisierten Filmempfehlungen ermittelt werden können. Die Offenheit dieser Fragestellung soll eine problemorientierte Herangehensweise ermöglichen und die Schüler:innen dazu anregen, aktiv über den Prozess der automatisierten Ermittlung von Empfehlungen nachzudenken und einen Perspektivwechsel zur Rolle von Anbietern solcher Technologien durchzuführen.	Aktivieren von Vorkenntnissen über und alltäglichen Erfahrungen mit Streamingplattformen und zur Personalisierung bzw. personalisierten Empfehlungen Wecken von Neugierde an der Funktionsweise eines Empfehlungssystemes	Netflix stellt Beispielbilder für die Plattform bereit, die hier abge-rufen werden können: https://about.netflix.com/de/company-assets
1b	Empfehlungsspiel: Bedeutung von Empfehlungen und die zugehörige Datenerhebung Die Schüler:innen bearbeiten in Partnerarbeit das Arbeitsblatt AB1, das als eine Art spielerischen Zugang zum Hinterfragen des Prozesses der Ermittlung von Empfehlungen darstellt. Die Besonderheit dieser Partnerarbeit ist, dass die Schüler:innen nur in bestimmten Aufgaben miteinander sprechen dürfen und sonst nicht. Für die Bearbeitung ist es wichtig, dass Schüler:innen zusammenarbeiten, die sich möglichst wenig kennen. Die Schüler:innen geben sich in dieser Arbeitsphase gegenseitig Filmempfehlungen und werden so in die Situation versetzt, selbst Inhalte für eine andere Person auszuwählen (in diesem Fall: Filme). Diese Arbeitsphase spiegelt somit auf anschauliche Weise die Aufgabe eines Empfehlungssystems wider und zeigt auf, was es bedeutet, ‚personalisierte‘ Filmempfehlungen zu ermitteln und welche persönlichen Informationen dafür hilfreich sind. Zunächst überlegen sich die Schüler:innen in der Partnerarbeit Filmempfehlungen für den jeweils anderen (Aufgabe 1 auf AB1), dann dürfen sie sich gegenseitig Fragen stellen (Aufgabe 2a auf AB1). Das Stellen der Fragen simuliert das Erheben von „Daten“ über den/die Arbeitspartner:in. Anschließend überarbeiten die Schüler:innen ihre zuvor überlegten Empfehlungen (Aufgabe 2b auf AB1). Diese Empfehlungen stellen sie sich anschließend gegenseitig vor und werten diese aus (Aufgabe 3 auf AB1). Abschließend werden in Aufgabe 4 (von AB1) zwei Arten der Datenerhebung eingeführt: Die explizite und implizite Erhebung von Daten. Mithilfe dessen reflektieren die Schüler:innen ihre Bearbeitungen der vorherigen Aufgaben des AB1 und entwickeln Ideen für Daten, die von einer Streamingplattform erhoben werden könnten und bei der Ermittlung von personalisierten Filmempfehlungen hilfreich sein könnten. Didaktischer Kommentar: Durch den Wechsel zwischen Nutzungs- und Entwicklungsperspektive reflektieren die Schüler:innen diesen Prozess der Auswahl von Inhalten beziehungsweise des Gebens von Filmempfehlungen. Die Einführung des Konzepts der expliziten und impliziten Datenerhebung erfolgt im Rahmen der Aufgabe 4 des AB1, um die Schüler:innen zu unterstützen eine differenzierte Perspektive auf die Erhebung von persönlichen Daten in dem betrachteten Kontext der Interaktion mit einer Streamingplattform einzunehmen. In der Auswertung dieser Phase sollte einerseits auf die Einordnung von explizit und implizit erhobenen Daten geachtet werden und andererseits auf die Unterscheidung der Begrifflichkeiten von Daten und Information berücksichtigt werden. Zum Beispiel sollte hierbei für erhobene Daten etwa nicht von „Interesse“ gesprochen werden, da vielmehr die Frage besteht, welche Daten nötig sind, um das Interesse einer Person zu schätzen. Die Partnerarbeit mit dem ‘Empfehlungsspiel’ motiviert, die Funktionsweise eines Empfehlungssystemes zu hinterfragen. Im Gegensatz zu einer Streamingplattform, geben sich die Schüler:innen zunächst basierend auf persönlichen Präferenzen und intuitiven Einschätzungen zum Interesse ihres Gegenübers Empfehlungen. Die Schüler:innen bekommen persönliche Informationen über ihr Gegenüber (ähnlich wie eine Streamingplattform persönliche Daten erhebt) und können damit bessere Empfehlungen geben. Durch das Reflektieren dieses Prozesses können die Schüler:innen Ideen entwickeln, welche Daten über Nutzende zur automatisierten Ermittlung von Empfehlungen hilfreich sein könnten.	Lernen der Konzepte der expliziten und impliziten Datenerhebung und anwenden dieser im Kontext Ideen für die Personalisierung von Filmempfehlungen entwickeln Ggf. Wiederholung der Unterscheidung von Daten und Information	AB1

Teil 2: Aufbau und Funktionsweise von Filmempfehlungssystemen

Phase	Content	Goals	Material
2a	Überleitung zum Empfehlungsdienst im Jupyter Notebook: Die vorherige Leitfrage (Wie kommen Filmempfehlungen zustande?) wird erneut aufgegriffen. Die Schüler:innen haben sich zuvor mit der Idee personalisierter Filmempfehlungen beschäftigt und Ideen für Daten entwickelt, die für die automatisierte Ermittlung von Filmempfehlungen hilfreich sein könnten. Für diese Frage ist allerdings noch offen, wie diese Daten verarbeitet werden, um eine automatisierte Auswahl an Filmen für entsprechende Empfehlungen vorzunehmen. Diese Überlegung wird als Überleitung zu diesem zweiten Teil genutzt. Das heißt, in diesem Fall wird die automatisierte Ermittlung von Filmempfehlungen erarbeitet, was analog zu dem steht, was die Schüler:innen zuvor bei dem Empfehlungsspiel intuitiv „im Kopf“ gemacht haben. Für die nachfolgende Phase wird ein vorbereitetes Jupyter Notebook verwendet. Die Lehrkraft führt in das Jupyter Notebook und den Umgang damit ein (insbesondere sollte das Ausführen von Zellen geklärt werden). In diesem Jupyter Notebook ist ein Empfehlungsdienst implementiert, mit dem Schüler:innen eigene Filmempfehlungen bekommen und darauf aufbauend die Funktionsweise eines Empfehlungssystemes erarbeiten. Didaktischer Kommentar: Die offene Leitfrage aus Teil 1 wurde noch nicht vollständig beantwortet: Die Schüler:innen haben Ideen entwickelt, welche Daten für einen Empfehlungsdienst explizit und implizit erhoben werden könnten; offen ist jedoch, wie damit dann automatisiert eine Auswahl von Filmen zur Empfehlung ermittelt werden kann, was die Schüler:innen zuvor in der Partnerarbeit von AB1 eher intuitiv gemacht haben. Abhängig von den Vorerfahrungen der Schüler:innen kann die Einführung des Jupyter Notebooks unterschiedlich erfolgen. In jedem Fall sollte die Lehrkraft den Zellenaufbau eines Jupyter Notebooks sowie das Ausführen von Zellen erklären. In der Überleitung wird bewusst die Verbindung zwischen dem vorherigen eigenständigen Geben von personalisierten Filmempfehlungen und einem nun digitalen Empfehlungsdienst hergestellt. Dies ermöglicht den Schüler:innen einen Übergang von ihren bisherigen Erfahrungen zu einer tieferen Auseinandersetzung mit der automatisierten Funktionsweise von Empfehlungssystemen.	Reflexion der vorherigen Leitfrage zum Ermitteln von personalisierten Filmempfehlungen, wofür zuvor Ideen für die Datenerhebung entwickelt wurden	Jupyter Notebook
2b	Rekonstruktion der Datenerhebung und des digitalen Doppelgängers bei einem gegebenen Empfehlungsdienst: Die Schüler:innen bearbeiten das gegebene Jupyter Notebook, was mehrere Aufgaben enthält. Zunächst geben die Schüler:innen eigene Bewertungen von Filmen an, mit denen sie personalisierte Filmempfehlungen angezeigt bekommen (Aufgabe 1). Anschließend reflektieren die Schüler:innen die in diesem Beispiel explizit und implizit erhobenen Daten (sowohl über die Schüler:innen in dem Jupyter Notebook als auch andere herangezogene Daten) (Aufgabe 2). In diesem Zusammenhang wird das Konzept der Datenmodelle über Nutzende (hier als digitale Doppelgänger bezeichnet) eingeführt. Die Schüler:innen wenden dieses Konzept in dem Kontext an und reflektieren dies bezüglich ihrer Vorerfahrungen mit Streamingplattformen (Aufgabe 3). Didaktischer Kommentar: Die Rekonstruktion der Datenerhebung schließt an die ersten Ideen auf dem AB1 an, sodass in der Auswertung dieser Phase auch die Bearbeitung von AB1 aufgegriffen werden kann. So könnten diese Ideen etwa in diesem Kontext vergleichend reflektiert werden. In dieser Bearbeitung sollte die Interaktion mit einer Streamingplattform, die in der Aufgabe 1 abstrahiert dargestellt ist, mit der Perspektive der expliziten und impliziten Datenerhebung betrachtet werden. Es sollte deutlich werden, welche explizit und implizit erhobenen Daten in diesem Jupyter Notebook tatsächlich herangezogen werden. Zu Beginn des Jupyter Notebooks werden bereits automatisiert Filmempfehlungen gegeben. Für die folgenden Phasen der Rekonstruktion wird die Leitfrage dahingehend konkretisiert, dass nun im Mittelpunkt steht, wie diese konkreten Empfehlungen zustande kommen.	Betrachtung der Nutzung einer Streamingplattform aus der Perspektive des Konzepts der expliziten und impliziten Erhebung von Daten Konzept des digitalen Doppelgängers kennenlernen Charakteristiken der Konstruktion eines digitalen Doppelgängers kennenlernen und auf den Kontext des Film-Empfehlungssystemes anwenden	Jupyter Notebook
2c	Rekonstruktion der Datenverarbeitung zur Ermittlung von personalisierten Filmempfehlungen: In den Aufgaben 4 bis 7 im Jupyter Notebook erarbeiten die Schüler:innen schrittweise, wie personalisierte Filmempfehlungen basierend auf Bewertungs- bzw. Nutzungsdaten systematisch ermittelt werden können. Zunächst wird dies anhand eines reduzierten, einfach zu verarbeiteten Datenbeispiels und anschließend mithilfe eines ML-Verfahrens rekonstruiert. In dem Jupyter Notebook wird die Umsetzung eines Empfehlungssystemes mithilfe des kollaborativen Filterns betrachtet. Die Unterscheidung dessen im Gegensatz inhaltsbasierten Filtern lernen die Schüler:innen im Laufe dieser Bearbeitung kennen. Ein reduziertes Beispiel ähnlich zu dem, wie es im Unterricht betrachtet wird, wird in den weiterführenden Informationen erklärt. Darauf aufbauend erarbeiten die Schüler:innen anschließend, geleitet von dem Jupyter Notebook, die automatisierte Berechnung personalisierter Empfehlungen mithilfe der ML-Methode „k-nearest-neighbor“. Damit werden basierend auf den Daten zu allen verfügbaren Filmen ähnliche Nutzende ermittelt. Als Grundlage für diese Bearbeitung dient die vorherige reduzierte Ermittlung personalisierter Filmempfehlungen. Als optionale Sprinteraufgabe können sich Schüler:innen mit dem sogenannten Cold-Start Problem befassen (s. AB2). Die Schüler:innen gehen der Frage nach, inwiefern der primäre Zweck eines Empfehlungssystemes (Empfehlungen geben) erfüllt werden kann, wenn Nutzende oder Inhalte neu in das System kommen. Zwischen der reduzierten und der automatisierten Ermittlung von Filmempfehlungen kann bei Bedarf eine Zwischensicherung eingeschoben werden, um insbesondere das Prinzip der Ähnlichkeit und die darauf basierende Ermittlung der Vorhersage für ein Bewertungsmaß sowie Entscheidung für oder gegen die Empfehlung eines Films zu sichern. In der Auswertung dieser Phase werden das Vorgehen zur Ermittlung der ähnlichen Nutzenden, das Aufstellen eines Modells (und dessen Bedeutung) sowie die Ermittlung der Vorhersagewerte (für Ratings) besprochen, sodass anschließend exemplarisch Wege zur Auswahl von Filmen für die personalisierte Empfehlung reflektiert werden können. Außerdem sollte auch darauf eingegangen werden, dass das kollaborative Filtern von der Grundidee ein „Vergleichen“ von digitalen Doppelgängern ist, sodass der eigene digitale Doppelgänger auch bei den Filmempfehlungen anderer Personen eine Rolle spielt (und andersherum). Hierbei sollte ebenfalls aufgegriffen werden, dass die Vorhersagewerte (s.o.) ebenfalls als Information im digitalen Doppelgänger enthalten sind und dieser somit ebenfalls Daten mit Vorhersagen zum zukünftigen Interaktionsverhalten enthält. Ggf. kann in der Auswertung die Idee des Cold-Start Problems aufgegriffen werden, beispielsweise indem dies von einzelnen Schüler:innen, die sich damit befasst haben, zusammen mit ihren Lösungsideen vorgestellt wird. Didaktischer Kommentar: Zunächst wird sich auf zwei Filme beschränkt. Es werden also nur die Daten zu zwei Filmen betrachtet, um damit Empfehlungen „nicht-automatisiert“ zu ermitteln. Dies dient zunächst zur Vereinfachung, um die Idee der Ähnlichkeit einzuführen. Die hierbei verfolgte Idee ist vergleichbar mit dem Prinzip der ML-Methodik k-nearest-neighbors, die darauffolgend für die automatisierte Ermittlung personalisierter Filmempfehlungen eingeführt wird. Diese Methode ist ein Beispiel, mit dem Zusammenhänge zwischen Nutzenden ermittelt werden können. Es werden also gerade zu einem festgelegten Nutzendem ein individuelles Cluster von ähnlichen Nutzenden berechnet. Dabei gilt die Grundannahme, dass die Filme, die die ähnlichen Nutzende interessant fanden, auch für die festgelegte Person vermutlich interessant sein werden. In diesem Jupyter Notebook wird ein Fokus auf das Ziel zum Verstehen des Prinzips der Ermittlung personalisierter Filmempfehlungen und der damit verbundenen Rolle digitaler Doppelgänger als Datenmodelle über die Nutzenden gelegt und nicht auf das eigenständige Trainieren und Testen von ML-Modellen. Als Adaptionsmöglichkeit könnten für das ML-Verfahren weitere Konzepte des ML integriert werden, wie etwa das Testen von ML-Modellen oder das Berechnen einer Performance dieser Modelle. Sofern bereits Vorkenntnissen zu ML bestehen, könnten diese an dieser Stelle einbezogen werden.	Erkennen die Verknüpfung von digitalen Doppelgängern zur Weiterentwicklung eines digitalen Doppelgängers, exemplarisch an Vorhersagen für zukünftiges Verhalten von Nutzenden Kennenlernen der automatisierten Ermittlung von personalisierten Filmempfehlungen auf der Basis des kollaborativen Filterns anhand persönlicher Bewertungs- und Nutzungsdaten Unterscheiden des kollaborativen und inhaltsbasierten Filterns Kennenlernen der Nutzung eines ML-Verfahrens am Beispiel der Methodik k-nearest-neighbors	Jupyter Notebook Ggf. AB2 als Sprinteraufgabe
2d	Überleitung zu sekundären Zwecken (Zweitverwertung): Die Schüler:innen reflektieren in einem Unterrichtsgespräch die Rolle von Daten im exemplarischen Kontext der Interaktion mit einer Streamingplattform, der ein Empfehlungssystem nutzt. Dies ist zunächst auf die bisher betrachteten Facetten beschränkt: Sie fassen die explizite und implizite Erhebung von Daten in diesem Kontext zusammen, beschreiben die Rolle des digitalen Doppelgängers sowie die Verarbeitung der Daten und digitalen Doppelgänger für den primären Zweck des Ermittelns von personalisierten Filmempfehlungen. Darauf aufbauend sollen Schüler:innen eine Position zur Erhebung und Verarbeitung von Daten beziehen und diese Datenpraktiken bewerten. In der Regel wird an dieser Stelle eine wertschätzende Haltung gegenüber der Personalisierung der Startseite eingenommen. In einer Diskussion können etwa folgende Aspekte hervorgehoben werden: (1) Mit der personalisierten Startseite kann eine Informationsüberflutung reduziert werden und (2) eine personalisierte Startseite lässt Nutzende eher interessante Inhalte finden und kann damit das Nutzungserlebnis verbessern. Dabei liegt der Fokus zunächst auf den primären Zwecken. Anschließend wird das Konzept der primären und sekundären Zwecke eingeführt, womit eine Überleitung zu der nächsten Phase erfolgt, in der eine genauere Betrachtung sekundärer Zwecke einbezogen wird. Didaktischer Kommentar: Mit dieser Zwischenreflexion soll einerseits das Verständnis für die Rolle der Daten in diesem Kontext hinsichtlich der Facetten von Datenbewusstsein gefestigt werden. Andererseits wird durch diese Reflexion ermöglicht eine breitere Perspektive einzunehmen, mit der die jeweiligen Aspekte verknüpft und die Bedeutung der Daten erkannt werden kann, was für eine spätere Evaluation nötig ist. Die Einführung des Konzepts der primären und sekundären Zwecke soll für die nachfolgenden Phasen eine differenziertere Perspektive ermöglichen, die neben der Betrachtung von Features auch eine Abwägung von individuellen und gesellschaftlichen Implikationen berücksichtigt.	Reflektieren der Rolle von Daten in dem gegebenen Interaktionskontext hinsichtlich der zuvor thematisierten Facetten von Datenbewusstsein (explizite und implizite Datenerhebung, digitaler Doppelgänger, primärer Zweck) Bewertung des primären Zwecks der Erhebung und Verarbeitung der Daten für die Anzeige einer personalisierten Startseite Kennenlernen der Konzepte der primären und sekundären Zwecke

Teil 3: Zweitverwertung durch einen Empfehlungsdienst

Phase	Content	Goals	Material
3a	Einführung in eine Diskussionsrunde bzgl. einer Zweitverwertung: Einführung in die Erarbeitungsphase (Diskussionsrunde) der nächsten Phasen: Damit die Schüler:innen eine Position gegenüber der Erhebung und Verarbeitung von Daten durch Streamingplattformen einnehmen können, findet im Folgenden eine Betrachtung von sekundären Zwecken statt. Dazu wird folgende Leitfrage aufgeworfen: Was könnte man mit den Daten von dem Empfehlungsdienst aus Sicht eines Anbieters sonst noch machen? Diese Frage wird in den nächsten Phasen in einer Diskussionsrunde aus verschiedenen Perspektiven betrachtet.	Vornehmen eines Perspektivwechsels zur Anbieterperspektive
3b	Diskussionsrunde als Rollenspiel zu einer fiktiven Zweitverwertung: Ausgangssituation: Die Lehrkraft stellt das Rollenspiel mit der Ausgangssituation vor, welche auf dem AB3 notiert ist. Die Schüler:innen können dazu Fragen stellen. Anschließend wird das AB3 an die Schüler:innen ausgeteilt. Die Schüler:innen bilden Gruppen, in denen sie sich mit den Rollen befassen. Dabei geht es darum, dass in einer Abteilungsleitersitzung eines Anbieters einer Streamingplattform ein Vorschlag diskutiert werden soll. Dieser Vorschlag bezieht sich darauf, mithilfe der Vorhersagedaten des Empfehlungssystemes personalisierte Angebote („Bezahlschranke“) für Inhalte anzubieten, die nicht im Abo bei der Plattform enthalten sind. Vorbereitungs- & Spielphase: Die Schüler:innen bereiten sich in Gruppen auf gegebene Rollen vor, wofür sie mit dem AB3 entsprechende Rollenkarten bekommen. Es gibt die folgenden Rollen: Geschäftsführung, Leitung der technischen Abteilung, Leitung einer Forschungsabteilung und Leitung einer Kundenbetreuung. Die Gruppen bearbeiten die Ausgangssituation aus dem Blickwinkel der jeweiligen Rolle und halten Argumente und eine Position zu dem Vorschlag der Bezahlschranke fest (s. AB3). In der Spielphase vertreten die Schüler:innen ihre Rolle und diskutieren den Vorschlag der Ausgangssituation. Diese Diskussion wird von einem Moderator/einer Moderatorin geleitet, die insbesondere die Beteiligung aller Rollen an der Diskussion sicherstellen soll. Die Schüler:innen sind angehalten ihre Argumente unterzubringen und ihre besprochene Haltung zu vertreten. Alle anderen Schüler:innen sind Beobachter:innen und machen sich Notizen zu den Argumenten, den Perspektiven und Entscheidungen. Auswertungsphase: Die Diskussion wird anschließend im Plenum ausgewertet. Zu Beginn der Auswertung findet eine Abstimmung zur Frage statt, ob der Vorschlag umgesetzt werden sollte oder nicht. Das Ergebnis sollte notiert werden. Danach bewerten die Schüler:innen die Rollen, kommentieren die Diskussion und reflektieren die vertretenden Positionen und Argumente. Dann wird abschließend über den Vorschlag erneut abgestimmt. Die Schüler:innen formulieren ein persönliches Fazit zur Erhebung und Verarbeitung von Daten durch Streamingplattformen. In der Reflexion sollten insbesondere auch die Aspekte bzgl. der Wechselwirkung zwischen Nutzendem und Streamingplattform bezogen auf den Einsatz eines Empfehlungssystemes aufgegriffen werden. Die Reflexion und das Einnehmen einer eigenen Position gegenüber der Erhebung und Verarbeitung persönlicher Daten kann zusätzlich durch folgende Frage unterstützt werden: Inwiefern kannst du in einem solchen Kontext entscheiden, welche Daten über dich erhoben und wofür diese verwendet werden? Exemplarisch kann hierbei hervorgehoben werden, dass die Vorhersagedaten, um die es in der Diskussionsrunde geht, aus einfachen Bewertungsdaten generiert werden können. Didaktischer Kommentar: In dem Rollenspiel wird ein sekundärer Zweck evaluiert, der im Kontext der Streamingplattformen vielleicht eher als fiktiv angesehen werden kann. Dennoch bietet die Auseinandersetzung mit dieser Situation einen Anlass über verschiedene Aspekte bzgl. der Wechselwirkung zwischen Nutzendem und Streamingplattform zu diskutieren. Dies schließt etwa die Bildung von Filterblasen oder bzgl. verstärkter Abhängigkeiten der Nutzenden ein. Die Schüler:innen sollen angeregt werden, die Situation aus den verschiedenen Perspektiven zu betrachten und zu reflektieren. Dabei sollen die Schüler:innen eine begründete Position einnehmen und die mögliche Verwendung der erhobenen Daten zum sekundären Zweck bewerten. Wichtig dabei ist, dass die Lehrkraft im Sinne des Indoktrinationsverbots (als Teil des Beutelsbacher Konsens im Kontext der politischen Bildung) keine Meinung vorgeben darf. Die Schüler:innen sollen eine eigene Position einnehmen, diese begründen können und gleichzeitig andere Positionen wahrnehmen und akzeptieren.	Vertiefen der Kenntnisse zur Erhebung und Verarbeitung der persönlichen Daten zu dem zuvor thematisierten primären Zweck Vornehmen eines Perspektivwechsels zur Anbieterperspektive Reflektieren der Wechselwirkung zwischen Nutzendem und Streamingplattform (bezogen auf den Einsatz eines Empfehlungssystemes) Reflektieren der eigenen Entscheidungs- und Handlungsfähigkeit in der Interaktion mit einer Streamingplattform Bewertung der Zweitverwertung von Daten, die aus einfachen Nutzungsdaten generiert werden können	AB3 in 4 Varianten für die jeweiligen Rollen

Zwischenphase: Zusammentragen der Konzepte zum Erklärmodell

Phase	Content	Goals	Material
	Im Sinne einer Zusammenfassung und eines Zwischenfazits sollten nun die zuvor gelernten Konzepte des Erklärmodells zusammengetragen werden. Dafür kann etwa die Abbildung zum Erklärmodell dienen, in denen die verschiedenen Konzepte eingetragen sind. (Hinweis: Die Beschreibung des Erklärmodells kann etwa von der Interaktion aus starten, dann mit der Datenerhebung fortführen und einmal die Schleife mit der Datenverarbeitung und den digitalen Doppelgängern durchlaufen.)	Erkennen der Zusammenhänge zwischen den verschiedenen Konzepten zur Rolle von Daten	Erklärmodell für Datenbewusstsein (etwas vereinfachte Variante) im Zusatzmaterial

Teil 4: Weitere Kontexte mit Empfehlungssystemen

Phase	Content	Goals	Material
4a	Sammlung weiterer Beispiele mit Empfehlungssystemen: Im Plenum werden weitere Beispiele für datengetriebenen digitale Artefakte aus dem Alltag der Schüler:innen gesammelt, in denen Empfehlungssysteme eingesetzt werden. Diese können beispielsweise Feeds bei Social Media Plattformen, andere Plattformen aus dem Streamingbereich, Online-Shopping Plattformne oder auch eine Suchmaschine sein. Didaktischer Kommentar: Den Schüler:innen soll es hiermit ermöglicht werden, dass sie ihre Vorstellungen über Empfehlungssysteme auf ihren Alltag insofern anwenden, dass sie diese Beispiele im Sinne datengetriebener digitale Artefakte identifizieren können, sodass erste Reflexionsprozesse angestoßen werden. Als Stütze kann dienen, dass Empfehlungssysteme im Sinne der individuellen Interaktion mit datengetriebenen digitalen Artefakten oft im Kontext der Personalisierung von Inhalten bzw. dessen Darstellung oder Auflistung wiederzufinden ist.	Anwendung des Gelernten über Empfehlungssysteme auf eigene Alltagserfahrungen Identifizieren von datengetriebenen digitalen Artefakten, die Empfehlungssysteme einsetzen
4b	Anwendung der zuvor gelernten Konzepte auf ausgewählte Beispiele aus dem eigenen Alltag: Mithilfe der Konzepte des Erklärmodells untersuchen die Schüler:innen verschiedene Beispiele aus der vorherigen Sammlung (s. Phase 4a) im Hinblick auf die Rolle von Daten bei der Interaktion mit dem jeweiligen datengetriebenen digitalen Artefakt. Als Orientierung dafür dient AB4. Diese Bearbeitung der Aufgaben von AB4 findet wahlweise in Partner- oder Kleingruppenarbeit statt. Für die Bearbeitung sollten die Schüler:innen sich das jeweils gewählte datengetriebene digitale Artefakt anschauen können bzw. dazu recherchieren können. Die Wahl des zu untersuchenden Kontexts sollten die Schüler:innen selbst vornehmen können, es kann jedoch darauf geachtet werden, dass in der Lerngruppe insgesamt verschiedene Beispiele gewählt werden. Didaktischer Kommentar: Die Schüler:innen sollen die zuvor gelernten Konzepte (explizite und implizite Datenerhebung; primäre und sekundäre Zwecke sowie digitaler Doppelgänger) auf Beispiele aus ihrem Alltag anwenden. Damit wird der Transfer des Gelernten auf den eigenen Alltag sowie das Verknüpfen dessen mit eigenen Alltagserfahrungen gefördert. Außerdem soll dadurch angeregt werden, dass die Schüler:innen ihre alltäglichen Interaktionen mit datengetriebenen digitalen Artefakten reflektieren und üben das Gelernte in alltäglichen Interaktionen anzuwenden.	Anwenden der Konzepte zur Rolle von Daten in datengetriebenen Anwendungen des Ansatzes Datenbewusstsein auf weitere Kontexte aus dem Alltag der Schüler:innen Vertiefung und Übung des Verständnisses bezüglich der gelernten Konzepte Üben diese Art der Betrachtungsweise auf alltägliche Interaktionskontexte anzuwenden	AB4, Internetfähiges Endgerät zur Recherche
4c	Auswertung und Reflexion der analysierten Kontexte: Aus verschiedenen Gruppen der vorherigen Phase setzen sich Lernende im Sinne eines Gruppenpuzzles zusammen. Geleitet durch die Aufgaben von AB5 stellen sich die Schüler:innen gegenseitig ihre Untersuchungsergebnisse zu den verschiedenen Beispielen vor. Dabei erklären sie das jeweilige Empfehlungssystem sowie ihre Ergebnisse hinsichtlich der expliziten und impliziten Datenerhebung, der primären und sekundären Zwecke für die Verwendung und Verarbeitung dieser Daten sowie die Rolle des digitalen Doppelgängers. Anschließend diskutieren die Schüler:innen die verschiedenen Beispiele, insbesondere im Hinblick auf die Datenpraktiken in den verschiedenen Beispielen. Zudem reflektieren sie in der Gruppe ihre Entscheidungs- und Handlungsmöglichkeiten in den verschiedenen Situationen basierend auf den vorherigen Ergebnissen der Gruppen. Im Plenum werden die Erfahrungen der Schüler:innen aus der Diskussion und Reflexion diskutiert. Im Sinne einer Sicherung sollte dabei angestoßen werden, dass die Lernenden ein persönliches Fazit zu der Interaktion mit den verschiedenen datengetriebenen digitalen Artefakten formulieren und eine Haltung im Hinblick auf die Erhebung und Verarbeitung persönlicher Daten in den verschiedenen Beispielkontexten einzunehmen. Diese kann durchaus kontextabhängig sein. Aufgegriffen werden sollte dabei insbesondere auch die eigene Rolle der Lernenden in solchen Interaktionen mit datengetriebenen digitalen Artefakten und ihren Entscheidungs- und Handlungsmöglichkeiten. Dabei sollte etwa hervorgehoben werden, dass in den verschiedenen Kontexten hinsichtlich der verschiedenen Arten der Datenerhebung sowie der verschiedenen Zwecke unterschiedliche Bewertungen und Haltungen möglich sind, ein:e Nutzende:r sich für verschiedene Handlungen entscheiden kann und ggf. Einfluss auf die Datenerhebung und -verarbeitung vornehmen kann. Wichtig sollte dabei sein, dass die Schüler:innen ihre eigene Haltung dazu entwickeln und sie verstehen, dass es durchaus auch wichtig ist, eine eigene Entscheidung zu treffen (keine Resignation fördern!). Didaktischer Kommentar: Die Lernenden sollten bei dieser Phase einen Eindruck für den Einsatz von Empfehlungssystemen in ihrem Alltag bekommen. Durch die Auseinandersetzung mit den verschiedenen Beispielen mithilfe des Erklärmodells sollen die Schüler:innen motiviert werden, das Erklärmodell im Alltag anzuwenden und sich im Alltag mit datengetriebenen digitalen Artefakten auseinanderzusetzen. Außerdem entwickeln sie ausgehend von dieser Perspektive und basierend auf den Konzepten des Erklärmodells Ideen für Handlungsmöglichkeiten im Rahmen der Interaktion mit einem datengetriebenen digitalen Artefakt. Dies soll dazu führen, dass sich die Lernenden als handlungsfähig wahrnehmen und keine resignierte Haltung entwickeln. In beiden Varianten sollten die Lernenden eine persönliche (begründete) Bewertung bzw. Haltung zu datengetriebenen digitalen Artefakten in den verschiedenen Interaktionskontexten vornehmen und sich selbst dazu positionieren. Wichtig dabei ist, dass weder eine vermeintlich „richtige“ Position vorgegeben wird noch ein „richtiges“ Verhalten besprochen wird. Diese Entscheidung muss im Sinne der Selbstbestimmung den Schüler:innenn überlassen werden.	Kennenlernen verschiedener Kontexte aus der Perspektive von Datenbewusstsein Bewertung der Rolle von Daten in den verschiedenen Kontexten sowie Entwicklung einer eigenen Haltung diesbezüglich Reflektieren der Entscheidungs- und Handlungsfähigkeit des Nutzenden in den jeweiligen Kontexten, insb. bezüglich der Rolle von Daten

Genutzte Daten

In diesem Unterrichtsvorhaben ziehen wir reale Nutzungsdaten von Nutzer:innen der Plattform MovieLens (movielens.org) heran. Auf der Plattform angemeldete Nutzer:innen können dort u.a. Filme bewerten und Filmempfehlungen bekommen. Es ist also ein Empfehlungsdienst eingebettet. Die Betreibenden haben Bewertungsdaten öffentlich zugänglich gemacht (Referenz zum Projekt; Referenz zu den Daten). Für das Unterrichtsvorhaben haben wir diese Daten aus Performancegründen verkleinert, sodass wir lediglich ca. 50000 Bewertungen von ca. 5000 User:innen zu insgesamt ca. 600 Filmen nutzen. Die Filme, die bewertet werden können, wurden manuell nach einer subjektiven Einschätzung des Bekanntheitsgrades sowie unter Einbezug von IMDB-Hitlisten ausgewählt. Filme, welche unter den möglichen Empfehlungen erscheinen, haben eines Mindestanzahl an Bewertungen erhalten. Die Nutzer:innen in dem Datensatz wurden so ausgewählt, dass sie alle mindestens einen der Filme, die in diesen Unterrichtsvorhaben bewertet werden können, bewertet haben. Zusätzlich haben wir die Filme in den Daten hinsichtlich der Altersfreigaben gemäß FSK gefiltert, um eine für den Schuleinsatz angemessene Auswahl an Filmen zu bekommen. Für das Unterrichtsvorhaben nutzen wir die Daten in Form von Datentabellen (DataFrames). Diese sind in den nachfolgenden Bildern dargestellt. Sie umfassen in der ersten Datentabelle Informationen über die Filme (Titel, Genre, Erscheinungsjahr) und in der zweiten Datentabelle gerade die explizit und implizit erhobenen Bewertungen der Nutzer:innen (Ids, Datum, Uhrzeit, Fertig_Angeschaut, Rating). Sowohl die Nutzer:innen als auch die Filme bekommen eine ID zugewiesen, mit der sie jeweils eindeutig identifiziert werden.

Als optionale Adaption des Jupyter Notebooks wurden in dem Datensatz neben den expliziten Bewertungen zusätzlich implizite Beurteilungen generiert, um die beiden Konzepte zu veranschaulichen. Dabei sind implizite Filmbewertungen im Filmdatensatz die binäre Antwort auf die Frage, ob Nutzer:innen einen Film zu Ende geschaut haben oder nicht. Dieses neue Attribut wurde nachträglich auf Basis der vorhandenen Bewertungen ergänzt. 85% der Bewertungen mit mehr als vier Sternen wurden zufällig auf den Wert 1 (Film zu Ende angeschaut) gesetzt. Bei Bewertungen unter vier Sternen wurden bei 40% zufällig der Wert auf 1 gesetzt. Alle übrigen Bewertungen erhielten den Wert 0 (Film nicht zu Ende angeschaut).

Vorbereitetes Jupyter Notebook

Für dieses Unterrichtsvorhaben haben wir Bibliotheken entwickelt und ein Jupyter Notebook für den Unterricht vorbereitet. In dem Jupyter Notebook (Empfehlungsdienst für Filme.ipynb) werden zunächst die Daten automatisiert eingelesen und ein Empfehlungsdienst beschrieben. Anschließend bekommen die Schüler:innen nach Eingabe von eigenen Bewertungen eigene Filmempfehlungen über einen bereits implementierten Empfehlungsdienst. Dieser basiert auf dem k-Nearest-Neighbor Verfahren (Erklärung siehe unten) und nutzt als Basis seiner Vorschläge die vorgefilterten Bewertungsdaten. In der Standardeinstellung arbeitet der Dienst ausschließlich mit expliziten Bewertungen. Über einen Parameter im Code kann dieser jedoch die Empfehlungen auch basierend auf impliziten Bewertungen berechnen. Im nächsten Schritt wird die Frage thematisiert, welche Daten erhoben wurden. Danach beschäftigt sich das Notebook schrittweise mit der Frage, wie personalisierte Empfehlungen automatisiert berechnet werden können. In dem Jupyter Notebook werden in blauen Boxen die Aufgaben dargestellt sowie in grünen Boxen Einführungs- und Erklärungstexte gegeben.

Wichtiger Hinweis zur Nutzung des Jupyter Notebooks:
Beim ersten Zugriff auf das Verzeichnis mit den Jupyter Notebooks muss man einen Login erstellen, mit dem zu einem späteren Zeitpunkt wieder an die letzte Bearbeitung angeschlossen werden kann. So bleiben die Änderungen auch nach Schließen des Jupyter Notebooks weiterhin bestehen. Das Verzeichnis ist unter folgendem Link zu erreichen: https://go.upb.de/Empfehlungssysteme
Beim ersten Aufrufen muss ein Zugang erstellt werden, wofür Name und Passwort selbst gewählt und eingegeben werden können.

Ansonsten kann das Jupyter Notebook mit den genutzten Daten im folgenden GitHub-Repository bezogen werden: Link zum GitHub Repository

Materials

Download of all materials

Hier können Sie alle Arbeitsblätter, Hilfszettel und Hinweisblätter als komprimierten Ordner herunterladen:

Download Materialien

Die für das Unterrichtsvorhaben erstellten Jupyter Notebooks und Bibliotheken sowie die verwendeten Daten sind hier zu finden: Link zum GitHub Repository

Was bedeutet Datenbewusstsein?

Im Alltag begegnen uns datengetriebene digitale Artefakte (s. Glossar unten), wie beispielsweise News Feeds in Social Media, Personalisierungen auf Streamingplattformen oder Ergebnislisten von Suchmaschinen. Bei Interaktionen mit datengetriebenen digitalen Artefakten haben Nutzende bestimmte Handlungsziele, die meist auf an den Features des digitalen Artefakts orientiert sind (z.B. Kommunizieren mit Freunden, Finden von interessanten Filmen, Recherchieren von Informationen über etwas). In diesen Interaktionen spielen Daten eine besondere Rolle. Das Konzept Datenbewusstsein zielt gerade darauf ab, Schüler:innen zu befähigen, sich in solchen Interaktionen mit datengetriebenen digitalen Artefakten mit der Rolle der Daten auseinanderzusetzen – also von ihrem eigentlichen Handlungszielen absehen und die Aufmerksamkeit auf die Rolle der Daten richten zu können. Datenbewusstsein bedeutet dabei, dass Schüler:innen in der Lage sind, die Rolle von Daten sowie ihre eigene Rolle in solchen Interaktionen mit datengetriebenen digitalen Artefakten erkennen, verstehen und reflektieren zu können. Damit soll Datenbewusstsein eine selbstbestimmte, mündige und verantwortungsvolle Handlungsfähigkeit in Interaktionen dieser Art fördern.

Für die Rolle von Daten in solchen Interaktionen mit datengetriebenen digitalen Artefakten wurde im Konzept Datenbewusstsein ein Erklärmodell entwickelt (siehe Abbildung 1). Dieses beschreibt fünf Konzepte: (1) die explizite und (2) implizite Datenerhebung, (3) die Konstruktion von Datenmodellen über Nutzende und die für die Datenverarbeitung zugrunde liegenden (4) primären und (5) sekundären Zwecke. Diese Konzepte werden nachfolgend kurz näher beschrieben.

Die Erhebung persönlicher Daten während einer solchen Interaktion geschieht durch a) aktive Eingaben von Informationen seitens des Nutzenden, b) durch Beobachtung und Tracking des Verhaltens sowie c) durch Verarbeitung bereits zuvor erhobener Daten. Dies kann unterteilt werden in die explizite Datenerhebung, also die mit der Handlung intendierte aktive und direkte Bereitstellung von Daten durch den Nutzenden, und die implizite Datenerhebung, also durch nebenher zur eigentlichen Handlung ablaufende Prozesse, wie etwa Beobachtung, Tracking und Generierung durch Datenverarbeitung. Nutzende von datengetriebenen digitalen Artefakten sind sich oft der explizit erhobenen Daten bewusst, der implizit erhobenen Daten jedoch oft nicht bewusst. Die so erhobenen persönlichen Daten im Rahmen einer Interaktion mit einem datengetriebenen digitalen Artefakt können mithilfe verschiedener datengetriebener Methoden verarbeitet werden, etwa aus dem Bereich der Data Science und des Maschinellen Lernens (ML). Ein Beispiel dafür ist die Verwendung von ML-Modellen zur Vorhersage persönlicher Daten wie zukünftige Verhaltensweisen oder Präferenzen eines Nutzenden. Mit der Verarbeitung und Verwendung der Daten werden verschiedene Zwecke verfolgt. Dabei können erhobene Daten zum („technischen“) Betreiben von Funktionen des datengetriebenen digitalen Artefakts (primäre Zwecke) und/oder für darüberhinausgehende Zwecke, zur Untersuchung von Weiterentwicklungen des datengetriebenen digitalen Artefakts oder etwa zur Verwendung in anderen Kontexten (sekundäre Zwecke) verarbeitet und verwendet werden. Primäre Zwecke sind dabei aus Sicht der Nutzenden zu verstehen und sekundäre Zwecke eher aus Sicht der Anbietenden, da diese nicht direkt an die Funktionalitäten des Systems gebunden sind. Im Rahmen der Verarbeitung und Verwendung der persönlichen Daten werden häufig Datenmodelle über Nutzende konstruiert (auch digitaler Doppelgänger genannt). Dies stellt eine Modellierung des Nutzenden dar, die auf die explizit und implizit erhobenen Daten basiert und insbesondere auch Vorhersagen für persönliche Eigenschaften oder zukünftiges Verhalten umfassen können.

Mit diesem Erklärmodell sollen Schüler:innen eine Orientierung erhalten, aus Sicht dessen sie sich mit datengetriebenen digitalen Artefakten aus ihrem Alltag auseinandersetzen können und die Rolle von Daten sowie ihre eigene Rolle in diesen Interaktionen erkennen, verstehen und reflektieren können. Dadurch sollen Schüler:innen zu einer selbstbestimmten, mündigen und verantwortungsvollen Handlungsfähigkeit in ihren Interaktionen mit datengetriebenen digitalen Artefakten befähigt werden.

Further information

Empfehlungssysteme im Allgemeinen (engl.: Recommender Systems)

Ein Empfehlungssystem (auch -dienst genannt) verfolgt das Ziel, die Menge aller vorhandenen Items (z. B. Filme, Musiktitel, Shopping-Produkte, …) auf eine Vorauswahl (Empfehlungen) einzuschränken, um Nutzer:innen bei der Entscheidungsfindung zu unterstützen. Dem Nutzenden werden also nicht alle Items angezeigt, sondern lediglich eine Auswahl, für die sich der Nutzende potenziell interessieren könnte. Die Anbie-tenden des Dienstes zielen damit auf eine Gewinnmaximierung ab, indem „neue und interessante“ Items „entdeckt“ werden. Dadurch werden die Nutzer:innen zu längeren und häufigeren Zugriffen (Steigerung der Nutzungszeit) angeregt, wodurch sie mehr Daten hinterlassen und womöglich der Umsatz durch Käufe oder Werbungen gesteigert werden kann.
Im Wesentlichen gibt es inhaltsbasierte (content-based), kollaborative (collaborative) und hybride Methoden zum Filtern der Items. Beim kollaborativen Filtern werden ähnliche Nutzer:innen identifi-ziert, um dann Empfehlungen basierend auf deren Daten (bspw. Filmbewertungen) zu ermitteln (hier etwa: Mittelwerte der Bewertungen der ähnlichen Nutzer:innen). Beim inhaltsbasierten Filtern wer-den Daten herangezogen, welche inhaltliche Informationen über die Produkte enthalten bzw. zumin-dest operationalisieren (z.B. Tags, Genres, Wortvorkommen in Textbeschreibungen). Das hybride Filtern verbindet verschiedene Methoden des kollaborativen und inhaltsbasierten Filterns – i.d.R. nach-einander.

Erklärung des k-Nearest-Neighbor Verfahrens

Im Unterricht wird das k-Nearest-Neighbor Verfahren genutzt. In der folgenden Abbildung ist ein Minimalbeispiel gegeben, anhand dessen die grundlegende Idee des Suchens von k nächsten Nachbarn erklärt werden kann. Es gibt Bewertungsdaten von fünf Nutzer:innen zu insgesamt drei Filmen. Gesucht sind zum Beispiel zwei Nutzer:innen (k=2), die ähnlich zum markierten User 5 sind. Das sind dann etwa die User 1 und 4, da diese die kleinste Abweichung in ihren Bewertungen der beiden Filme zu User 5 haben. Konkret heißt das, dass die Abstände zwischen der Tabellenzeile von User 5 und denen von User 1 und 4 am kleinsten sind, die Differenz also möglichst klein ist. (Anmerkung: Mathematisch nutzen wir in unserer Umsetzung die euklidische Metrik für die Bestimmung von Abständen.) Um nun für einen dritten Film C zu entscheiden, ob dieser dem User 5 empfohlen werden sollte, werden die Bewertungen der ähnlichen Nutzer:innen betrachtet. Anhand dieser Bewertungen kann etwa ein Mittelwert berechnet werden (in diesem Fall: 4.5), der als Vorhersagewert für den User 5 gilt. Das heißt, wenn User 5 den Film C schauen und bewerten würde, würde er wahr-scheinlich eine Bewertung von 4.5 abgeben. Dem User 5 sollte der Film C also durchaus empfohlen werden. Dieses (hier stark reduzierte) Verfahren ist auf eine große Anzahl von Nutzer:innen und Filmen übertragbar.

Ähnlich zu diesem reduzierten Beispiel mit fünf Nutzenden und drei Filmen rekonstruieren die Schüler:innen im Unterricht die systematische Idee der kollaborativen Filtermethodik basierend auf Ähnlichkeiten von Nutzenden (d.h. es werden ähnliche Nutzende gesucht und anhand derer Bewertungs-/Nutzungsdaten wird entschieden, ob ein dritter Film einem Nutzenden empfohlen werden sollten.

Empfehlungssysteme im Allgemeinen (engl.: Recommender Systems)

In diesem Unterrichtsvorhaben liegt ein Fokus auf Streamingplattformen, wodurch vor allem Plattformen wie Netflix und Spotify im Mittelpunkt stehen. Trotzdem ist dieser Markt stetig am Wachsen: Amazon Prime Video, Disney+, Apple Music oder Amazon Music sind nur einige der Wettbewerber:innen. Schon seit dem Aufkommen von modernen Streamingplattformen arbeiten diese an folgender Frage: Wie können einem Kunden/einer Kundin möglichst maßgeschneiderte (personalisierte) Produktempfehlungen angeboten werden und wie können somit möglichst viele Kund:innen zum Bezahlen im jeweiligen Preismodell motiviert werden?
Folgende zwei Zitate zu Empfehlungssystemen bei Netflix und Spotify illustrieren dies:

“A problem we face is that our catalog contains many more videos than can be displayed on a single page and each member comes with their own unique set of interests. Thus, a general algorithmic challenge becomes how to best tailor each member’s homepage to make it relevant, cover their interests and intents, and still allow for exploration of our catalog.” – Nextflix TechBlog
“Spotify has created engines to control and manage everything from your personal best home screen to carefully chosen and organized playlists like Discover Weekly, and continues to explore new ways to understand music, and why people listen to one song or genre over another. All this is achieved with a combination of different recommender systems.” – Daniel Roy

Netflix steht mit seinen über 15000 Filmen und Serien und über 200 Millionen zahlenden Abonnenten weltweit (Stand 2023) vor der Herausforderung, dass es seinen Nutzer:innen nur eine begrenzte Anzahl an Film- und Serientiteln vorschlagen und auf der Startseite anzeigen kann. Ein vergleichbares Bild ergibt sich bei Spotify, wo sich zwar ein anderes Produkt wiederfindet, der Aufbau der Plattform-Seite und die Datenbasis jedoch ähnlich sind. Der Einsatz von Empfehlungssystemen in diesen Plattformen wird recht gut daran deutlich, wie die Startseiten erzeugt werden. (Abbildungen zur Erklärung der Sortierung der Inhalte bei Netflix: Blogpost Netflix). Bei diesen Startseiten werden sowohl Reihen als auch Spalten abhängig von dem/der Nutzer:in sortiert. Das Geschäftsmodell von Netflix ist abonnementbasiert. Dabei gibt es jeweils verschiedene Abo-Pläne, welche im Einzelnen jedoch nicht das Angebot erweitern, sondern z. B. die Anzahl der Nutzenden pro Account verändern. Das Ziel ist es also, die Anzahl der zahlenden Kund:innen zu maximieren und Abonnements immer wieder zu verlängern. Dies wird dadurch erreicht, möglichst passende Vorschläge für Filme/Musik zu realisieren. Neben Streamingplattformen mit vollem Zugriff auf das komplette Angebot nach Zahlung einer monatlichen Rate gibt es auch andere Geschäftsmodelle, wie etwa bei Amazon Prime Video. Diese Plattform stellt nach einem Abonnement ebenfalls einen Teil seines Film- und Serienangebots zur Verfügung. Darüber hinaus gibt es jedoch Medien, welche nach wie vor durch die Zahlung eines einmaligen Betrages freigeschalten werden müssen.

Erhebung von Daten bei der Nutzung von Streamingplattformen

Das Nutzungsverhalten der Nutzer:innen ist für Empfehlungssysteme essenziell. Dabei spielen grundsätzlich jegliche Arten von Interaktionen der Nutzer:innen mit dem System eine Rolle. Dies fängt bei einfachen Feedbackmechanismen an, wie etwa der “Gefällt mir”-Button, und geht weiter zum Nutzungsverhalten über angeschaute Filme und angehörte Musik. Dabei spielen im Grunde immer ähnliche Daten eine Rolle. Auf der einen Seite die verschiedenen Produkte, welche auf der Plattform angeboten werden (Filme, Videos, Bücher, …). Auf der anderen Seite stehen die Nutzer:innen und ermöglichen die Erhebung und Generierung von Daten durch die Interaktion mit den jeweiligen digitalen Artefakten (Schreiben von Rezensionen, Ansicht von Produkten, Verbindungen zu anderen Nutzer:innen, …). Durch diese und weitere erhobene Daten werden von Nutzenden digitale Doppelgänger konstruiert. Auf Basis dessen können dann Empfehlungen ermittelt werden. Interessant für Empfehlungssysteme sind insbesondere Bewertungen für Produkte, wie bspw. Filme, die explizit oder implizit vorliegen können. Explizit sind Bewertungen dann, wenn der/die Nutzer:in das Produkt direkt beurteilt, bspw. über ein Gefällt-mir-Button oder eine Sternebewertung. Dadurch gibt der/die Nutzer:in i.d.R. seine Meinung zu dem Produkt bzw. sein Interesse an dem Produkt aktiv zum Ausdruck. Implizite Bewertungen werden nicht von dem/der Nutzer:in direkt angegeben. Das bedeutet, dass bestimmte Daten erhoben, generiert und verarbeitet werden, welche bspw. als Operationalisierung für das Interesse an dem Produkt dienen können. Beispiele für implizite Bewertungen sind: Hat der/die Nutzer:in das Produkt gekauft? Hat er oder sie den Film vollständig geschaut oder früher beendet? Wurde der Film mehrmals geschaut? Wurde sich das Produkt gemerkt (Merklisten)?

Glossar relevanter Begriffe

Datengetriebene digitale Artefakte: Im Konzept Datenbewusstsein wurde der Begriff der datengetriebenen digitalen Artefakte (ddA) eingeführt. Dieser beschreibt eine spezielle Art von digitalen Artefakten. Digitale Artefakte sind ein Sammelbegriff für digitale Werkzeuge, Computersysteme aller Art, ihre Bestandteile, ihre Verbindung untereinander. Sie umfassen sowohl Hardware, Software, Daten und Objekte sowie Algorithmen und Datenstrukturen. Datengetriebene digitale Artefakte sind dann digitale Artefakte, die sich selbst oder ihre Rückmeldung in der Interaktion mit diesem durch die Verarbeitung erhobener Daten verändert. Diese nutzen dann oft zum Beispiel auch Methoden des Maschinellen Lernens.

Explizite und implizite Datenerhebung:Im Konzept Datenbewusstsein wurden die Begrifflichkeiten der explizit und implizit erhobenen Daten eingeführt. Diese stehen in der Regel in der Verbindung zum Nutzenden – oft stellen sie personenbezogene Daten dar. Die explizit erhobenen Daten sind jene, die der Nutzende mit seiner Handlung intendiert zu erstellen, also direkt und aktiv eingibt bzw. erzeugt. Darüber sind sich Nutzende in der Regel bewusst. Dies sind zum Beispiel bei Social Media Plattformen gepostete Texte und Bilder, bei einer Suchmaschine etwa der Suchbegriff. Im Gegensatz dazu, werden implizit erhobene Daten indirekt durch Beobachtung (Tracking) oder Verarbeitung bereits erhobener Daten nebenher zur eigentlichen Handlung des Nutzenden erhoben und generiert. Dieser Datenerhebung sind sich Nutzende oft nicht bewusst. Im Beispiel der Social Media Plattform sind dies etwa Likes und Klicks, bei der Suchmaschine etwa Klicks auf Suchergebnisse. Die implizite Datenerhebung umfasst zudem die Generierung von Daten, wie etwa im Kontext der Empfehlungssysteme die Vorhersagen für Inhalte, mit denen der Nutzende bisher noch nicht interagiert hat.

Primäre und sekundäre Zwecke der Datenverarbeitung: Im Konzept Datenbewusstsein wurden die Begrifflichkeiten der primären und sekundären Zwecke der Verarbeitung und Verwendung erhobener Daten eingeführt. Diese beziehen sich auf die Verarbeitung und Verwendung von Daten über einen Nutzenden, die bei der Nutzung von datengetriebenen digitalen Artefakten erhoben werden. Primäre und sekundäre Zwecke beziehen sich auf die Intention, mit der diese zuvor erhobenen Daten verarbeitet und verwendet werden. Primäre Zwecke umfasst, dass die erhobenen Daten dazu verarbeitet und verwendet werden, um das datengetriebene digitale Artefakt mit den Features anbieten zu können. Diese beziehen sich auf einer Nutzerperspektive auf die Verarbeitung und Verwendung: Die Daten werden verarbeitet und verwendet, um Nutzenden Features anbieten zu können. Im Beispiel der Suchmaschine ist dies etwa das Anzeigen von Suchergebnissen. Auch inbegriffen wäre, wenn die Suchergebnisse personalisiert geordnet werden. Im Sinne des Features für den Nutzenden würde dies bedeuten, dass der Nutzende gerade die Ergebnisse angezeigt bekommt, die für ihn idealerweise relevant sind. Sekundäre Zwecke bedeutet, dass die Daten anderweitig verarbeitet werden. Diese „Zweitverwertung“ der Daten bezieht sich auf einer Anbieter:innenperspektive auf die Verarbeitung und Verwendung der erhobenen Daten: Wozu kann ein:e Anbieter:in eines datengetriebenen digitalen Artefakts die erhobenen Daten noch nutzen? Im Kontext von Streamingplattformen (z.B. Spotify) könnte dies etwa umfassen, dass Nutzungsdaten (z.B. gehörte Musik) zur Analyse der Emotionen der Nutzenden verwendet werden.

Citation:

Höper, L., Schulte, C., Biehler, R., Fleischer, Y., Hüsing, S. & Podworny, S. (2025). Welche Rolle spielen Daten? – Datenbewusstsein am Beispiel von Empfehlungssystemen im Kontext von Streamingplattformen. https://www.prodabi.de/materialien/datenbewusstsein-mittelstufe/

Veröffentlicht am 17.08.2023

Version:

License note:

Creative Commons Attribution-ShareAlike (CC BY-SA 4.0)