
Introduction à l'analyse de survie : courbes Kaplan-Meier, test du Log-rank et régression de Cox
Guide pratique de l'analyse de survie pour chercheurs cliniciens — quand l'utiliser, comment préparer les données, comment interpréter les courbes KM et la régression de Cox.
Votre étude compare les résultats de deux groupes de patients, et le critère est le « délai entre chirurgie et récidive ». Certains patients ont rechuté, d'autres étaient encore exempts de récidive au dernier suivi, d'autres ont été perdus de vue. Vous ne pouvez pas comparer simplement les délais moyens par un test t — pour les patients qui n'ont pas rechuté, vous ignorez quel aurait été leur véritable délai de récidive.
C'est précisément pour cela qu'existe l'analyse de survie.
Qu'est-ce que l'analyse de survie ?
L'analyse de survie regroupe les méthodes statistiques conçues pour traiter des données de type délai avant événement. L'« événement » n'est pas nécessairement le décès — ce peut être tout résultat d'intérêt :
- récidive tumorale ;
- progression de la maladie ;
- complication post-opératoire ;
- échec de greffe ;
- décès du patient.
L'atout central de l'analyse de survie : elle traite correctement les données censurées — les individus n'ayant pas encore vécu l'événement à la fin de la période d'observation. Si vous excluez ces patients, vous introduisez un biais sérieux. Si vous traitez leur durée de suivi comme un délai d'événement, le résultat est tout aussi faux. L'analyse de survie offre un cadre mathématique pour exploiter correctement cette information incomplète.
Quel format de données est requis ?
Pour une analyse de survie, chaque patient a besoin d'au moins deux variables :
- Variable temps : durée entre le point de départ et l'événement ou la censure. Le point de départ est typiquement la date de diagnostic, de chirurgie ou d'inclusion. L'unité peut être en jours, en mois ou en années, mais doit être cohérente.
- Variable statut (indicateur d'événement) : signale si le patient a vécu l'événement. Codée typiquement 1 = événement survenu, 0 = censuré.
Par exemple :
| ID patient | Suivi (mois) | Statut événement | Groupe |
|---|---|---|---|
| 001 | 24 | 1 (récidive) | Traitement |
| 002 | 36 | 0 (censuré) | Contrôle |
| 003 | 12 | 1 (récidive) | Traitement |
| 004 | 30 | 0 (censuré) | Traitement |
Qu'est-ce qui constitue une censure ?
- Le patient n'a pas vécu l'événement à la fin de l'étude.
- Le patient est perdu de vue.
- Le patient s'est retiré pour des raisons sans lien avec l'événement étudié (déménagement, refus de poursuivre).
Les erreurs les plus fréquentes dans la préparation des données : des calculs de temps incohérents (certains patients depuis le diagnostic, d'autres depuis la chirurgie) et un statut de censure imprécis. Vérifiez avant de lancer l'analyse.
La méthode Kaplan-Meier
La méthode Kaplan-Meier (KM) est l'outil le plus fondamental et le plus utilisé en analyse de survie. Elle estime la fonction de survie — la probabilité qu'un patient n'ait pas encore vécu l'événement à un instant t donné.
Comment lire une courbe KM
L'axe des abscisses d'une courbe KM est le temps, l'axe des ordonnées la probabilité de survie (de 0 à 1, ou de 0 % à 100 %) :
- la courbe démarre à 1,0 (100 %) en haut à gauche ;
- chaque fois qu'un patient subit l'événement, la courbe descend d'une marche ;
- les observations censurées sont généralement signalées par de petites barres verticales ou des signes plus — la courbe ne descend pas à ces points, mais le nombre à risque diminue ;
- une courbe plus plate indique un taux d'événement plus faible et un meilleur pronostic ;
- une plus grande séparation entre deux courbes indique une différence plus marquée entre les groupes.
Médiane de survie
La médiane de survie correspond à la valeur de temps où la courbe KM croise la ligne des 50 % de probabilité de survie. Cela signifie que la moitié des patients ont vécu l'événement avant cet instant.
Si la courbe reste au-dessus de 50 % sur toute la durée (plus de la moitié des patients n'ont pas vécu l'événement pendant l'observation), la médiane de survie n'est pas calculable — situation fréquente dans les études à pronostic favorable.
Tableau du nombre à risque
Une courbe KM bien présentée intègre un tableau de risques sous la courbe, indiquant combien de patients restent « à risque » à chaque instant. Ce tableau compte parce que les estimations de la partie tardive de la courbe reposent souvent sur très peu de patients et manquent de précision. Si seulement 5 patients restent à un instant donné, les fluctuations de la courbe ne sont pas fiables.
Le test du Log-rank
Les courbes KM révèlent des différences visuelles, mais il faut un test statistique pour déterminer si la différence entre groupes est statistiquement significative.
Le test du Log-rank est la méthode standard. Il compare le nombre observé d'événements au nombre attendu à chaque instant d'événement, entre les groupes.
- Hypothèse nulle : les courbes de survie des deux groupes sont identiques.
- Sortie : une statistique chi-deux et un p-value.
- Hypothèse : le rapport de risques entre les groupes est approximativement constant sur la période de suivi (les courbes KM ne se croisent pas).
Si les courbes KM se croisent (par exemple un traitement meilleur à court terme mais moins bon à long terme), le test du Log-rank perd en puissance. Dans ce cas, envisagez des tests alternatifs (test de Wilcoxon, analyse par segments).
Régression de Cox à risques proportionnels
Le test du Log-rank vous dit si deux groupes diffèrent, mais pas de combien, et il n'ajuste pas sur des facteurs confondants. C'est là qu'intervient la régression de Cox.
La régression de Cox à risques proportionnels est la méthode multivariée majeure de l'analyse de survie. Sa sortie est le hazard ratio (HR) :
- HR = 1 : risque équivalent dans les deux groupes ;
- HR > 1 : le facteur augmente le risque (pronostic défavorable) ;
- HR < 1 : le facteur diminue le risque (pronostic favorable).
Par exemple, « HR du groupe traitement vs contrôle = 0,62 (IC 95 % : 0,45–0,85 ; p = 0,003) » signifie qu'après ajustement sur d'autres variables, le groupe traitement présente un risque d'événement inférieur de 38 % par rapport au contrôle.
L'hypothèse de proportionnalité des risques
L'hypothèse clé de la régression de Cox est la proportionnalité des risques : le rapport de risques entre groupes reste constant sur la période de suivi.
Méthodes de vérification :
- Test des résidus de Schoenfeld : un p-value significatif indique une violation de l'hypothèse de proportionnalité ;
- Inspection visuelle des courbes KM : si les courbes se croisent, l'hypothèse est probablement violée.
Si l'hypothèse n'est pas tenue, envisagez une stratification par temps ou un modèle de Cox à covariables dépendantes du temps.
Régression de Cox multivariée
En pratique, la régression de Cox se restitue généralement en deux temps :
- Analyse univariée : tester chaque variable individuellement contre le résultat et sélectionner les variables significatives (typiquement p < 0,1 ou p < 0,2 comme critère d'inclusion).
- Analyse multivariée : entrer simultanément les variables retenues pour obtenir des HR ajustés.
Les résultats de la Cox multivariée se présentent en général sous forme de forest plots, avec le HR en abscisse (échelle logarithmique) et une ligne de référence à HR = 1. C'est l'une des présentations les plus fréquentes dans les articles cliniques.
Pièges fréquents
1. Points de départ incohérents
Certains patients sont mesurés depuis la date de diagnostic, d'autres depuis la chirurgie. Le point de départ doit être clairement défini dans le design d'étude et appliqué de manière strictement homogène dans les données.
2. Censure informative
Si un patient est perdu de vue parce que son état s'est aggravé et qu'il a été transféré dans un autre hôpital, cette censure est liée à l'événement lui-même et viole l'hypothèse fondamentale de l'analyse de survie. L'impact de ce biais doit être discuté dans l'article.
3. Effectif insuffisant
La régression de Cox demande typiquement au moins 10 à 20 événements par variable prédictive. Si vous comptez 30 événements au total, vous pouvez inclure au maximum 2 ou 3 variables. Au-delà, le modèle sur-apprend.
4. Reporter des p-values sans HR
Beaucoup de chercheurs débutants écrivent « la différence est statistiquement significative (p < 0,05) » sans préciser le HR ni l'IC 95 %. Les relecteurs réclameront presque systématiquement ces informations.
Le problème du workflow manuel
Lancer une analyse de survie sous SPSS impose de définir manuellement les variables temps et événement, de construire les modèles par itérations et de mettre en forme les courbes KM à la main. R offre plus de flexibilité mais une courbe d'apprentissage plus raide — maîtriser les paramètres des packages survival et survminer prend du temps.
La présentation des résultats demande aussi de la minutie : courbes KM avec tableaux de risques, forest plots pour la régression de Cox, vérification de la proportionnalité des risques. Chaque détail mobilise du code et de la mise en forme supplémentaires.
Comment Data2Paper s'insère dans ce workflow
Data2Paper inclut un module complet d'analyse de survie. Téléversez un fichier de données cliniques contenant les variables temps et statut, et le système détecte automatiquement la structure, génère les courbes Kaplan-Meier avec leur tableau de risques, exécute le test du Log-rank, construit les modèles de Cox et produit des figures et un texte d'interprétation prêts à publier.
Aucun code, aucun aller-retour entre le logiciel statistique et votre document — téléversez les données, décrivez la question de recherche, et récupérez des résultats complets prêts à intégrer dans votre manuscrit.
Téléversez vos données cliniques et lancez la génération de votre article →
Auteur

Catégories
Voir plus

Du questionnaire à l'article de recherche : un workflow de bout en bout
Comment passer d'exports d'enquête bruts à un article de recherche complet — pipeline complet depuis Google Forms ou Qualtrics jusqu'aux livrables formatés.


Peer review par IA : comment Data2Paper évalue votre article avec cinq relecteurs indépendants
La fonctionnalité Paper Review de Data2Paper simule un comité éditorial complet : cinq relecteurs IA aux expertises distinctes, vérification de l'intégrité des citations, décision éditoriale et feuille de route de révision priorisée.


Revue de littérature par IA : comment Data2Paper produit un rapport de recherche à partir d'un sujet
La fonctionnalité Research Report de Data2Paper transforme un sujet en revue de littérature structurée, avec citations vérifiées, synthèse thématique et exports PDF, Word et LaTeX.

Newsletter
Rejoignez la communauté
Abonnez-vous à notre newsletter pour recevoir les dernières actualités