PubliHM – Ein Forschungsinformationssystem
DTLab-Challenge mit FORWIN
Problem
Die Publikationsleistung einer Hochschule ist eine zentrale Information zum Umfang und zur Qualität ihres wissenschaftlichen Arbeitens. Sie ist Grundlage u.a. für die Einwerbung von Drittmitteln, von Universitätsrankings oder für das Promotionsrecht und hat somit eine zentrale strategische Bedeutung. Zudem wird das Gesamtbild der Hochschulleistung regelmäßig vom zuständigen Ministerium für Wissenschaft und Forschung abgefragt.
Das Problem, welches bei diesem Projekt angegangen wurde, war, dass die Forschungsinformationen der unterschiedlichen Disziplinen und ForscherInnen bisher in unterschiedlichen, voneinander getrennten Systemen vorlagen. Dies machte es den ErstellerInnen von Berichten zur Publikationsleistung schwer, Berichte schnell, unkompliziert und vollständig zu erstellen. Sie mussten stattdessen durch zeitintensive, manuelle Arbeit zusammengestellt werden. Da diese Berichtsanfragen oftmals kurzfristig kommen, wurden die ExpertInnen in den zuständigen Fachabteilungen, die sich um das erstellen kümmern der Berichte kümmern, bisher zusätzlich und nicht planbar belastet.
Vorgehen
Die Stabstelle Zentrum für Forschungsförderung und wissenschaftlichen Nachwuchs (FORWIN) ist mit der regelmäßigen Erstellung von Berichten zur Publikationsleistung der HM betraut. Sie hatte bereits ein Konzept für ein System erarbeitet, welches einen zentralen Zugang zu den vollständigen Publikationsdaten der HM gewährleistet. Um zu gewährleisten, dass dies allen Kundenanforderungen und -bedürfnissen entsprechend verfasst wurde, wurde das Konzept in Anlehnung an den Amazon Innovationsprozess „Working Backwards“ in eine Pressemitteilung („Press Release“) übersetzt. Dann wurde geprüft, welche Datenquellen für das Einspeisen der Daten infrage kommen würden.
Die Untersuchung ergab, dass ein Großteil der gängigen Verlagsangebote sowie Portale wie ResearchGate oder Google Scholar nicht geeignet sind, da die Anbieter den Datenabruf nicht oder nur eingeschränkt ermöglichen. Vor diesem Hintergrund wurden die frei zugänglichen ORCID Daten, also die alphanumerische Codes zur eindeutigen Identifizierung von AutorInnen und Mitwirkenden an wissenschaftlicher Kommunikation, als Hauptdatenquelle bestimmt. Die Konzeption von PubliHM erfolgte auf Basis verschiedener AWS Services. Grundlage soll ein Data Lake, also ein zentrales Repositorium sein, welches mit Informationen zu Publikationen befüllt werden soll, die der HM zugeordnet werden können.
Innovation in Aktion
Mit Hilfe von AWS wurde folgendes Konzept für PubliHM erstellt:
Die AWS Step Function fungiert im ersten Schritt als Steuerungskomponente, um an definierten Zeitpunkten eine Amazon-Lambda-Funktion zu aktivieren. Letztere wird eingesetzt, um den Code mit überschaubarer Laufzeit auszuführen, ohne dass hierfür ein zusätzliches System in Betrieb genommen werden muss. Die dadurch gewonnenen Daten werden anschließend innerhalb von AWS S3-Buckets abgelegt. Der Service AWS Glue liest die in S3-Buckets gespeicherten Daten aus und führt diese innerhalb virtueller Tabellen zusammen, sofern der Einsatz für die bereits erwähnte Ausbaustufe des Projektes vorteilhaft ist. Zudem wird die Zugriffssteuerung über diese Komponente geregelt. Im Anschluss findet die Analyse und bedarfsgerechten Darstellung der entsprechenden Datensätze statt.
Nächste Schritte
Im kommenden Semester wird sich eine neue Gruppe von Studierenden mit der Verfeinerung und Automatisierung des Reportings in PubliHM beschäftigen. PubliHM soll dann zudem in die Pilotphase gehen und von ersten AnwenderInnen getestet werden.
Challengegeber: HM, FORWIN
Professor: Prof. Rainer Schmidt
Semester: Wintersemester 2020/21
Unterstützende Dokumente
- Studienarbeit