Zum Inhalt
DATA CHAMPION: VERÖFFENTLICHUNG VON DATENSÄTZEN IN DER BILDUNGSFORSCHUNG

„Wir profitieren von der Veröffentlichung eigener und fremder Datensätze“

Hannah Gaspard, Elisabeth Graf © Felix Schmale, Ines Blatterer​/​TU Dortmund
Hannah Gaspard, Elisabeth Graf

Prof. Hanna Gaspard leitet die Arbeitsgruppe „Educational Data Science“ am Institut für Schulentwicklungsforschung (IFS) der Fakultät Erziehungswissenschaft, Psychologie und Bildungsforschung. Gemeinsam mit der wissenschaftlichen Mitarbeiterin Dr. Elisabeth Graf ist sie Teil des interdisziplinären Forschungsbereichs „FAIR – From Prediction to Agile Interventions in the Social Sciences“, in dem innovative Ansätze aus der Statistik und den Datenwissenschaften genutzt und weiterentwickelt werden, um Prognose- und Interventionsmodelle in der Empirischen Bildungs-, Rehabilitations- und Sozialforschung zu optimieren. Beide berichten, wie die Publikation eigener und die Nachnutzung fremder Forschungsdaten unter Berücksichtigung des Datenschutzes gelingt.

Sie haben bereits verschiedene Materialien wie Instrumente und Analysecodes über das Open Science Framework (OSF) veröffentlicht und somit anderen Forschenden zugänglich gemacht. Welchen Mehrwert sehen Sie darin, solche Forschungsdaten im OSF zu publizieren?

Hanna Gaspard: Es wird transparenter, wie bestimmte Forschungsfragen in einzelnen Studien untersucht worden sind. Dadurch wird die Reproduzierbarkeit der Forschung erhöht. Zudem fordern Zeitschriften und Gutachter*innen zunehmend, dass Instrumente und Analysen zugänglich gemacht werden. Wir haben die Erfahrung gemacht, dass Materialien oft individuell angefragt werden müssen. Die Forschenden sind jedoch zu diesem Zeitpunkt teilweise nicht mehr erreichbar. Diese Hürden lassen sich vermeiden, wenn Materialien direkt zur Verfügung gestellt werden.

Elisabeth Graf: Derartige Details passen nicht immer ins Manuskript. Insbesondere Analysecodes lassen sich schwierig im Supplemental Material veröffentlichen, sodass Informationen zu den Studien fehlen. Instrumente sind häufiger verfügbar. Aber es macht einen Unterschied, ob nur Items oder der gesamte Fragebogen bereitgestellt werden, denn auch Instruktionen liefern weiterführende Studieninformationen. Forschende profitieren durch eine Veröffentlichung, da eigene Instrumente schneller und einfacher nachgenutzt werden können.

In der Bildungsforschung wie auch in angrenzenden Wissenschaften wird immer mehr gefordert, Datensätze nachzunutzen und damit das Potenzial von Sekundäranalysen auszuschöpfen. Welche Erfahrungen haben Sie damit gemacht?

Hanna Gaspard: Ich habe Sekundärdaten genutzt sowie selbst erhobene Daten zur Nachnutzung bereitgestellt, insbesondere für eine große Interventionsstudie über das Forschungsdatenzentrum am Institut zur Qualitätsentwicklung im Bildungswesen (IQB) an der Humboldt-Universität zu Berlin. Dieses Zentrum ist auf die Bereitstellung großer Datensätze aus der Bildungsforschung spezialisiert. In der Bildungsforschung sind häufig große Stichproben notwendig, um überhaupt sinnvolle Aussagen treffen zu können. Dadurch sind Datenerhebungen sehr teuer und aufwendig – auch für die teilnehmenden Schulen. Aus diesem Grund ist es wünschenswert und ressourcenschonend, die Daten für andere Forschungsfragen nutzbar zu machen. Auch in FAIR ist eine Publikation der erhobenen Daten geplant.

Häufig werden auch verschiedene Konstrukte mit erhoben, die es möglich machen, zusätzliche Fragestellungen zu untersuchen. So kann man schauen, ob sich in anderen Datensätzen ähnliche Ergebnisse zeigen bzw. diese über Studien hinweg generalisierbar sind. Wichtig ist, dass die Datenerhebung von Anfang an gut dokumentiert und aufbereitet wird. Schon bei der Einwerbung des Projektes sollte der Aufwand der Dokumentation mit einkalkuliert werden.

Wie lassen sich Rohdaten auffinden und weiterverarbeiten?

Elisabeth Graf: Hilfreich ist, wenn man weiß, wo man Daten suchen kann. So gibt es etwa Repositorien, die Variablensuchen zur Verfügung stellen, damit man filtern kann, in welchem Datensatz Konstrukte, die einen interessieren, erfasst sind. Ein Beispiel hierfür wäre die Variablensuche vom LifBi für die Daten des Nationalen Bildungspanels (NEPS), mit denen ich im Rahmen eines FAIR-Projekts gearbeitet habe. Zudem bieten verfügbare Rohdaten die Möglichkeit, nicht nur Metaanalysen, die auf aggregierten Effektstärken basieren, sondern auch Metaanalysen mit „individual participant data“ (IPD) durchzuführen: Hier werden Daten direkt synthetisiert, um somit auf einer größeren Datenbasis Analysen durchführen zu können.

Datenschutzregelungen beeinflussen die Publikation und Nachnutzung von Forschungsdaten zum Beispiel mit Blick auf „sensible Daten“. Was bedeutet das für Ihr eigenes Datenhandling?

Elisabeth Graf: Wenn man weiß, dass es detailliertere Informationen gibt, die aus Datenschutzgründen aber nicht publiziert werden konnten, besteht die Möglichkeit, mit den Autor*innen zu kollaborieren. Ich habe zum Beispiel Daten nachgenutzt, die ich in einem sehr detaillierten Auflösungsgrad benötigt hätte. Hier habe ich meine Analyseskripte zunächst mit simulierten Daten geschrieben. Diese wurden von den Autor*innen mit den Originaldaten ausgeführt und ich habe die aggregierten Ergebnisse bekommen. Anschließend haben wir sie gemeinsam analysiert. So konnte ich die detaillierten Daten und Ergebnisse nutzen, ohne die Daten selbst vorliegen zu haben.

Hanna Gaspard: Eine mögliche Datenpublikation sollte vor der Erhebung mitgedacht werden, beispielsweise in Bezug auf das Einverständnis der Teilnehmenden zur Veröffentlichung der Daten. Ich rate dazu, sich frühzeitig mit dem Datenschutzbeauftragten an der Universität und gegebenenfalls mit der Ethikkommission auszutauschen. Es kann sein, dass sensible Daten separat gespeichert werden müssen und nicht alle Forschungsdaten im Anschluss für die Nachnutzung zur Verfügung gestellt werden können. Qualitative Daten lassen sich häufig nicht so leicht anonymisieren. Das betrifft etwa Videodaten aber auch Textdaten, bei denen man nicht immer sicherstellen kann, dass nicht doch noch Informationen enthalten sind, die eine Identifikation einzelner Personen möglich machen. Fachspezifische Forschungsdatenzentren wie das IQB haben da eine entsprechende Expertise. Es war sehr hilfreich, dass dort noch einmal geprüft wurde, ob die von uns erhobenen Daten tatsächlich so geteilt werden konnten. Teilweise wurde der Auflösungsgrad bei einzelnen Variablen durch Aggregation reduziert, sodass eine Zuordnung zu einzelnen Personen nicht mehr möglich sein sollte. Insgesamt empfehle ich, sich beraten zu lassen und Expertise von anderen einzuholen.

Zu den Personen:

  • Prof. Gaspard ist seit März 2023 Professorin für Educational Data Science am IFS und ist Principal Investigator im interdisziplinären Forschungsbereich FAIR
  • Dr. Elisabeth Graf promovierte 2023 in Psychologie an der Universität Wien, Österreich, und ist seit Januar 2024 wissenschaftliche Mitarbeiterin am IFS

Prof. Gaspard und Dr. Graf werden als Data Champions porträtiert, weil sie Forschungsdaten zur Verfügung stellen, die den gesamten Forschungsprozess nachvollziehbar machen, ohne die Interessen und Rechte der Studienteilnehmenden zu gefährden.