2026/03/28

Leitfaden zur Auswertung klinischer Daten: Vom Krankenhausdatensatz zur publikationsreifen Analyse

Praxisorientierter Durchgang durch die vollständige Pipeline der klinischen Datenanalyse — vom Export aus dem Krankenhausinformationssystem bis zu publikationsreifen Ergebnissen.

Sie haben eine XLSX-Datei aus dem Krankenhausinformationssystem exportiert. Hunderte Patientendatensätze mit Aufnahmedaten, Laborwerten und Verlaufsergebnissen. Die Spaltenüberschriften lauten HbA1c, SBP, DBP, eGFR, manche Zellen sind leer, das Datumsformat ist uneinheitlich — und Sie wissen nicht, wo Sie anfangen sollen.

Genau hier stehen viele klinisch Forschende zu Projektbeginn. Die Daten aus der elektronischen Patientenakte zu exportieren, ist nicht das Problem. Schwierig ist es, daraus eine publizierbare klinische Studie zu machen.

Dieser Beitrag führt durch die vollständige Pipeline — vom Datenexport bis zur fertigen Analyse.

Schritt 1: Daten exportieren und sichten

Klinische Daten stammen typischerweise aus Krankenhausinformationssystemen (KIS), elektronischen Patientenakten (EMR), klinischen Registern oder Plattformen für die Datenerfassung wie REDCap. Die meisten Systeme exportieren in Excel oder CSV.

Sobald Sie die Datei haben, prüfen Sie:

Steht jede Zeile für eine Person (oder einen Behandlungsfall)?
Sind die Spaltennamen verständlich? Sind das Standardabkürzungen (ALT, AST, WBC) oder systemgenerierte Codes?
Gibt es Summenzeilen, Header-Kommentare oder verbundene Zellen, die im Datenstrom auftauchen?
Ist das Datumsformat einheitlich (manche als 2024-01-15, andere als 20240115 oder 15.01.2024)?
Enthält die Datei direkt identifizierende Patientendaten, die anonymisiert werden müssen?

Den Datenaufbau zu verstehen, ist die Grundlage für alles Weitere. Bei Längsschnittstudien (mehrere Datensätze pro Person) klären Sie, ob die Daten im Wide-Format (eine Spalte pro Visite) oder im Long-Format (eine Zeile pro Visite) vorliegen.

Schritt 2: Daten bereinigen

Roh exportierte klinische Daten sind selten analysebereit. Typische Aufgaben:

Fehlende Werte einordnen: Unterscheiden Sie zwischen „nicht erhoben" und „Ergebnis verloren" — das Erste kann klinisch bedeutsam sein, das Zweite ist ein Datenqualitätsproblem. Bei Schlüsselvariablen mit hohem Missing-Anteil (z. B. > 20 %) erwägen Sie den Ausschluss oder eine multiple Imputation
Kodierungen vereinheitlichen: Dieselbe Diagnose taucht möglicherweise als „Typ-2-Diabetes", „T2DM" oder „type 2 DM" auf — diese Varianten gehören zusammengeführt
Ausreißer prüfen: Ein systolischer Blutdruck von 300 mmHg oder ein Alter von -5 Jahren ist ein Eingabefehler und muss verifiziert oder ausgeschlossen werden
Datumsformate vereinheitlichen: Alles auf YYYY-MM-DD bringen
Anonymisieren: Namen, Sozialversicherungsnummern, Fallnummern und andere identifizierende Angaben entfernen
Ableitungsvariablen berechnen: BMI aus Größe und Gewicht, Verweildauer aus Aufnahme- und Entlassdatum, Überlebenszeit aus OP-Datum und letztem Follow-up

Diese Phase kostet oft mehr Zeit als die eigentliche Statistik — bestimmt aber die Verlässlichkeit aller folgenden Ergebnisse.

Schritt 3: Tabelle der Basischarakteristika

Tabelle 1 in praktisch jedem klinischen Artikel ist die Tabelle der Basischarakteristika: demografische und klinische Merkmale nach Gruppen.

Standardvorgaben:

Kategoriale Variablen (Geschlecht, Raucherstatus, Komorbiditäten): Häufigkeit und Prozentanteil. Gruppenvergleich per Chi-Quadrat-Test oder Fisher-Exact-Test
Normalverteilte stetige Variablen (Alter, BMI): Mittelwert ± Standardabweichung. Vergleich per Student-t-Test für unabhängige Stichproben oder ANOVA
Schiefe stetige Variablen (Verweildauer, einzelne Laborwerte): Median (Interquartilsabstand). Vergleich per Mann-Whitney-U-Test oder Kruskal-Wallis-Test

Die Basistabelle beschreibt nicht nur die Stichprobe — sie zeigt Reviewer·innen auch, ob bei Confoundern Imbalancen zwischen Gruppen vorliegen. Das beeinflusst die Wahl der nachfolgenden Analysestrategie unmittelbar.

Schritt 4: Statistische Methode wählen

Die Methodenwahl hängt von Studiendesign und Outcome-Typ ab.

Gruppenvergleiche

Stetiges Outcome + zwei Gruppen: t-Test für unabhängige Stichproben (normal) oder Mann-Whitney-U-Test (nicht normal)
Stetiges Outcome + mehrere Gruppen: ANOVA (normal) oder Kruskal-Wallis-Test (nicht normal)
Kategoriales Outcome: Chi-Quadrat-Test oder Fisher-Exact-Test

Multivariable Analysen

Stetiges Outcome: Multiple lineare Regression
Binäres Outcome (z. B. Komplikation ja/nein): Logistische Regression
Time-to-Event-Outcome (z. B. progressionsfreies Überleben): Cox-Regression mit proportionalen Hazards
Zähldaten (z. B. Anzahl Krankenhaustage): Poisson-Regression oder negative Binomial-Regression

Diagnostik und Prädiktion

Diagnostische Genauigkeit: ROC-Kurve und AUC
Kalibrierung von Prädiktionsmodellen: Hosmer-Lemeshow-Test, Kalibrierungskurven

Überlebenszeitanalyse

Überlebenskurven: Kaplan-Meier-Methode
Gruppenunterschiede im Überleben: Log-rank-Test
Multivariable Überlebenszeitanalyse: Cox-Regression

Jede Methode hat Voraussetzungen. Logistische Regression braucht eine ausreichende Fallzahl (typischerweise mindestens 10 bis 20 Ereignisse pro Prädiktor). Cox-Regression setzt die Annahme proportionaler Hazards voraus. Analysen ohne Prüfung dieser Voraussetzungen sind ein häufiger Grund, warum Manuskripte zurückgeschickt werden.

Schritt 5: Interpretieren und berichten

Statistische Ausgaben sind Zahlen. Eine Publikation braucht klinische Schlussfolgerungen. Sie übersetzen statistische Ergebnisse in klinische Sprache:

Effektgrößen und Konfidenzintervalle berichten, nicht nur p-values. „Komplikationsrate 12,3 % in der Behandlungsgruppe vs. 23,1 % in der Kontrollgruppe (OR = 0,47, 95 %-KI: 0,28–0,79, p = 0,004)" ist deutlich aussagekräftiger als „p < 0,05, statistisch signifikant"
Tabellen folgen Journal-Standards: meist dreiliniges Tabellenlayout, stetige Variablen als Mittelwert ± SD oder Median (IQR), kategoriale Variablen als n (%)
Passende Diagrammtypen wählen: Kaplan-Meier-Kurven für Überlebenszeitdaten, ROC-Kurven für diagnostische Bewertung, Forest Plots oder Balkendiagramme für Gruppenvergleiche
Multivariable Regressionsergebnisse meist als Forest Plot mit OR/HR und Konfidenzintervallen

An dieser Stelle bleiben viele stecken — die Analyse läuft, aber die Ergebnisse in publikationsreifer Sprache zu formulieren, fällt schwer.

Das Problem manueller Workflows

Wer das alles in SPSS oder R durchzieht, springt typischerweise zwischen Statistiksoftware und Word, formatiert Basistabellen von Hand, justiert Diagramme einzeln und übersetzt Statistik-Output in Manuskript-Text. Ein Datensatz kann so leicht eine Woche oder mehr beanspruchen.

Klinische Daten sind dabei komplexer als Befragungsdaten — stetige, kategoriale, Zeit-bis-zum-Ereignis- und zensierte Variablen treten gemischt auf, was die Analyse-Pipeline fehleranfälliger macht.

Wie Data2Paper in den Workflow passt

Data2Paper unterstützt die vollständige Pipeline der klinischen Datenanalyse. Sie laden Ihre Excel- oder CSV-Datei hoch, beschreiben Forschungsthema und Gruppenstruktur, und das System übernimmt Datenbereinigung, Erkennung der Variablentypen, Methodenauswahl, Analyseausführung und die Generierung der Manuskriptabschnitte.

Das System erkennt gängige klinische Variablennamen (HbA1c, SBP, eGFR), bestimmt Variablentypen automatisch und wählt passende Tests aus. Die Ausgabe enthält formatierte Basistabellen, Regressionsergebnisse, Überlebenskurven, ROC-Kurven und ergänzende Interpretationstexte — bereit für die Einreichung.

Für klinisch Forschende, die sich auf die klinische Frage konzentrieren wollen, statt sich mit Statistiksoftware aufzuhalten, ist das ein spürbarer Reibungsabbau.

Klinische Daten hochladen und Manuskript generieren →

Alle Beiträge

Autor·in

Data2Paper-Team

Kategorien

Tutorials

Schritt 1: Daten exportieren und sichten Schritt 2: Daten bereinigen Schritt 3: Tabelle der Basischarakteristika Schritt 4: Statistische Methode wählen Gruppenvergleiche Multivariable Analysen Diagnostik und Prädiktion Überlebenszeitanalyse Schritt 5: Interpretieren und berichten Das Problem manueller Workflows Wie Data2Paper in den Workflow passt

Weitere Beiträge

Tutorials

Vom Befragungsdatensatz zum vollständigen Forschungsartikel: Ein End-to-End-Workflow

Wie Sie aus rohen Survey-Exporten einen vollständigen Forschungsartikel ableiten — die komplette Pipeline von Google Forms- oder Qualtrics-Daten bis zu druckreifen Deliverables.

Data2Paper-Team

2026/03/20

Produktfunktionen

KI-gestützte Literaturreviews: Wie Data2Paper aus einem Thema einen Forschungsbericht erstellt

Mit der Research-Report-Funktion von Data2Paper entsteht aus einem Forschungsthema eine strukturierte Literaturübersicht — inklusive belastbarer Quellen, thematischer Synthese und Downloads in PDF, Word und LaTeX.

Data2Paper-Team

2026/04/15

Produktfunktionen

KI-gestütztes Peer Review: Wie Data2Paper Ihren Artikel mit fünf unabhängigen Gutachtenden prüft

Paper Review von Data2Paper simuliert ein vollständiges Editorial Board — fünf KI-Gutachtende mit unterschiedlicher Expertise, Prüfung der Zitationsintegrität, redaktionelle Entscheidung und priorisierte Revisions-Roadmap.

Data2Paper-Team

2026/04/15

Werden Sie Teil der Community

Abonnieren Sie unseren Newsletter und erhalten Sie aktuelle News und Updates

2026/03/28

Leitfaden zur Auswertung klinischer Daten: Vom Krankenhausdatensatz zur publikationsreifen Analyse

Praxisorientierter Durchgang durch die vollständige Pipeline der klinischen Datenanalyse — vom Export aus dem Krankenhausinformationssystem bis zu publikationsreifen Ergebnissen.

Dieser Beitrag führt durch die vollständige Pipeline — vom Datenexport bis zur fertigen Analyse.

Schritt 1: Daten exportieren und sichten

Sobald Sie die Datei haben, prüfen Sie:

Steht jede Zeile für eine Person (oder einen Behandlungsfall)?
Sind die Spaltennamen verständlich? Sind das Standardabkürzungen (ALT, AST, WBC) oder systemgenerierte Codes?
Gibt es Summenzeilen, Header-Kommentare oder verbundene Zellen, die im Datenstrom auftauchen?
Ist das Datumsformat einheitlich (manche als 2024-01-15, andere als 20240115 oder 15.01.2024)?
Enthält die Datei direkt identifizierende Patientendaten, die anonymisiert werden müssen?

Schritt 2: Daten bereinigen

Roh exportierte klinische Daten sind selten analysebereit. Typische Aufgaben:

Fehlende Werte einordnen: Unterscheiden Sie zwischen „nicht erhoben" und „Ergebnis verloren" — das Erste kann klinisch bedeutsam sein, das Zweite ist ein Datenqualitätsproblem. Bei Schlüsselvariablen mit hohem Missing-Anteil (z. B. > 20 %) erwägen Sie den Ausschluss oder eine multiple Imputation
Kodierungen vereinheitlichen: Dieselbe Diagnose taucht möglicherweise als „Typ-2-Diabetes", „T2DM" oder „type 2 DM" auf — diese Varianten gehören zusammengeführt
Ausreißer prüfen: Ein systolischer Blutdruck von 300 mmHg oder ein Alter von -5 Jahren ist ein Eingabefehler und muss verifiziert oder ausgeschlossen werden
Datumsformate vereinheitlichen: Alles auf YYYY-MM-DD bringen
Anonymisieren: Namen, Sozialversicherungsnummern, Fallnummern und andere identifizierende Angaben entfernen
Ableitungsvariablen berechnen: BMI aus Größe und Gewicht, Verweildauer aus Aufnahme- und Entlassdatum, Überlebenszeit aus OP-Datum und letztem Follow-up

Diese Phase kostet oft mehr Zeit als die eigentliche Statistik — bestimmt aber die Verlässlichkeit aller folgenden Ergebnisse.

Schritt 3: Tabelle der Basischarakteristika

Tabelle 1 in praktisch jedem klinischen Artikel ist die Tabelle der Basischarakteristika: demografische und klinische Merkmale nach Gruppen.

Standardvorgaben:

Kategoriale Variablen (Geschlecht, Raucherstatus, Komorbiditäten): Häufigkeit und Prozentanteil. Gruppenvergleich per Chi-Quadrat-Test oder Fisher-Exact-Test
Normalverteilte stetige Variablen (Alter, BMI): Mittelwert ± Standardabweichung. Vergleich per Student-t-Test für unabhängige Stichproben oder ANOVA
Schiefe stetige Variablen (Verweildauer, einzelne Laborwerte): Median (Interquartilsabstand). Vergleich per Mann-Whitney-U-Test oder Kruskal-Wallis-Test

Schritt 4: Statistische Methode wählen

Die Methodenwahl hängt von Studiendesign und Outcome-Typ ab.

Gruppenvergleiche

Stetiges Outcome + zwei Gruppen: t-Test für unabhängige Stichproben (normal) oder Mann-Whitney-U-Test (nicht normal)
Stetiges Outcome + mehrere Gruppen: ANOVA (normal) oder Kruskal-Wallis-Test (nicht normal)
Kategoriales Outcome: Chi-Quadrat-Test oder Fisher-Exact-Test

Multivariable Analysen

Stetiges Outcome: Multiple lineare Regression
Binäres Outcome (z. B. Komplikation ja/nein): Logistische Regression
Time-to-Event-Outcome (z. B. progressionsfreies Überleben): Cox-Regression mit proportionalen Hazards
Zähldaten (z. B. Anzahl Krankenhaustage): Poisson-Regression oder negative Binomial-Regression

Diagnostik und Prädiktion

Diagnostische Genauigkeit: ROC-Kurve und AUC
Kalibrierung von Prädiktionsmodellen: Hosmer-Lemeshow-Test, Kalibrierungskurven

Überlebenszeitanalyse

Überlebenskurven: Kaplan-Meier-Methode
Gruppenunterschiede im Überleben: Log-rank-Test
Multivariable Überlebenszeitanalyse: Cox-Regression

Schritt 5: Interpretieren und berichten

Statistische Ausgaben sind Zahlen. Eine Publikation braucht klinische Schlussfolgerungen. Sie übersetzen statistische Ergebnisse in klinische Sprache:

Effektgrößen und Konfidenzintervalle berichten, nicht nur p-values. „Komplikationsrate 12,3 % in der Behandlungsgruppe vs. 23,1 % in der Kontrollgruppe (OR = 0,47, 95 %-KI: 0,28–0,79, p = 0,004)" ist deutlich aussagekräftiger als „p < 0,05, statistisch signifikant"
Tabellen folgen Journal-Standards: meist dreiliniges Tabellenlayout, stetige Variablen als Mittelwert ± SD oder Median (IQR), kategoriale Variablen als n (%)
Passende Diagrammtypen wählen: Kaplan-Meier-Kurven für Überlebenszeitdaten, ROC-Kurven für diagnostische Bewertung, Forest Plots oder Balkendiagramme für Gruppenvergleiche
Multivariable Regressionsergebnisse meist als Forest Plot mit OR/HR und Konfidenzintervallen

An dieser Stelle bleiben viele stecken — die Analyse läuft, aber die Ergebnisse in publikationsreifer Sprache zu formulieren, fällt schwer.

Das Problem manueller Workflows

Wie Data2Paper in den Workflow passt

Für klinisch Forschende, die sich auf die klinische Frage konzentrieren wollen, statt sich mit Statistiksoftware aufzuhalten, ist das ein spürbarer Reibungsabbau.

Klinische Daten hochladen und Manuskript generieren →

Alle Beiträge

Autor·in

Data2Paper-Team