HT
Projets/Inférence causale — Tabagisme et qualité du sommeil
Terminé2025Analyse causale complète — modélisation, estimation, interprétation

Inférence causale — Tabagisme et qualité du sommeil

Estimation de l'effet causal du tabagisme sur la qualité du sommeil sur 413 768 observations avec Double Machine Learning.

Inférence causale — Tabagisme et qualité du sommeil

Résumé du projet

Estimation rigoureuse de l'effet causal du tabagisme actuel sur la probabilité de mauvais sommeil à partir de données observationnelles. Le projet applique trois méthodes complémentaires (différence brute, OLS, DML) et conclut à un effet causal estimé d'environ 13 %, robuste et convergent.

État actuel

  • Analyse complète réalisée sur 413 768 observations.
  • Trois méthodes appliquées et comparées : naïve, OLS, Double ML.
  • Effet causal estimé à ~13 % — convergent et robuste.
  • Rapport final produit avec interprétation rigoureuse.

Stack technique

PythonScikit-learnStatsmodelsPandasJupyter

Tags & Code

Causal InferenceMachine LearningPythonStatistics

Code privé (projet académique)

Vision

  • Estimer un effet causal réel — pas une simple association — entre tabagisme et sommeil.
  • Appliquer une démarche causale rigoureuse sur des données observationnelles à grande échelle.
  • Démontrer l'intérêt du Double Machine Learning face aux approches classiques.

Architecture

  • Données : 413 768 observations, 16 variables — nettoyage et filtrage (fumeurs actuels vs non-fumeurs).
  • Modélisation causale : DAG, critère backdoor, variables de confusion (âge, consommation d'alcool).
  • Méthode 1 — Différence brute : ATT naïf = 0.099 (biaisé, sans ajustement).
  • Méthode 2 — OLS avec erreurs robustes HC3 : θ = 0.132 (ajustement linéaire).
  • Méthode 3 — Double ML (Random Forest, cross-fitting 5 folds) : θ = 0.134 (robuste, non linéaire).
  • Analyse de sensibilité : retrait d'un confondeur pour valider la robustesse du DAG.

Roadmap

  • Phase 1 : exploration, nettoyage et construction des variables de traitement et de résultat.
  • Phase 2 : modélisation causale avec DAG et identification des chemins de backdoor.
  • Phase 3 : estimation naïve, OLS ajusté et Double Machine Learning.
  • Phase 4 : analyse de sensibilité, comparaison des méthodes et rédaction du rapport.

Décisions techniques

  • Double ML pour lever l'hypothèse de linéarité et obtenir des garanties théoriques solides.
  • Random Forest dans le DML pour modéliser des relations non linéaires entre confondeurs et variables.
  • Cross-fitting en 5 folds pour éviter le biais de surapprentissage dans l'estimation des nuisances.
  • Analyse de sensibilité systématique pour valider la robustesse des conclusions.

Améliorations possibles

  • Tester des méthodes causales supplémentaires (DiD, variables instrumentales).
  • Enrichir l'analyse avec des confondeurs supplémentaires (stress, activité physique).
  • Étudier l'hétérogénéité de l'effet causal par sous-groupes.

Lessons learned

  • La convergence OLS/DML est un signal fort de robustesse des résultats.
  • Un DAG explicite force à formaliser et justifier chaque hypothèse causale.
  • Le Double Machine Learning est méthodologiquement supérieur même quand les relations sont proches de la linéarité.