Terminé2025Analyse causale complète — modélisation, estimation, interprétation
Inférence causale — Tabagisme et qualité du sommeil
Estimation de l'effet causal du tabagisme sur la qualité du sommeil sur 413 768 observations avec Double Machine Learning.

Résumé du projet
Estimation rigoureuse de l'effet causal du tabagisme actuel sur la probabilité de mauvais sommeil à partir de données observationnelles. Le projet applique trois méthodes complémentaires (différence brute, OLS, DML) et conclut à un effet causal estimé d'environ 13 %, robuste et convergent.
État actuel
- Analyse complète réalisée sur 413 768 observations.
- Trois méthodes appliquées et comparées : naïve, OLS, Double ML.
- Effet causal estimé à ~13 % — convergent et robuste.
- Rapport final produit avec interprétation rigoureuse.
Stack technique
PythonScikit-learnStatsmodelsPandasJupyter
Tags & Code
Causal InferenceMachine LearningPythonStatistics
Code privé (projet académique)
Vision
- Estimer un effet causal réel — pas une simple association — entre tabagisme et sommeil.
- Appliquer une démarche causale rigoureuse sur des données observationnelles à grande échelle.
- Démontrer l'intérêt du Double Machine Learning face aux approches classiques.
Architecture
- Données : 413 768 observations, 16 variables — nettoyage et filtrage (fumeurs actuels vs non-fumeurs).
- Modélisation causale : DAG, critère backdoor, variables de confusion (âge, consommation d'alcool).
- Méthode 1 — Différence brute : ATT naïf = 0.099 (biaisé, sans ajustement).
- Méthode 2 — OLS avec erreurs robustes HC3 : θ = 0.132 (ajustement linéaire).
- Méthode 3 — Double ML (Random Forest, cross-fitting 5 folds) : θ = 0.134 (robuste, non linéaire).
- Analyse de sensibilité : retrait d'un confondeur pour valider la robustesse du DAG.
Roadmap
- Phase 1 : exploration, nettoyage et construction des variables de traitement et de résultat.
- Phase 2 : modélisation causale avec DAG et identification des chemins de backdoor.
- Phase 3 : estimation naïve, OLS ajusté et Double Machine Learning.
- Phase 4 : analyse de sensibilité, comparaison des méthodes et rédaction du rapport.
Décisions techniques
- Double ML pour lever l'hypothèse de linéarité et obtenir des garanties théoriques solides.
- Random Forest dans le DML pour modéliser des relations non linéaires entre confondeurs et variables.
- Cross-fitting en 5 folds pour éviter le biais de surapprentissage dans l'estimation des nuisances.
- Analyse de sensibilité systématique pour valider la robustesse des conclusions.
Améliorations possibles
- Tester des méthodes causales supplémentaires (DiD, variables instrumentales).
- Enrichir l'analyse avec des confondeurs supplémentaires (stress, activité physique).
- Étudier l'hétérogénéité de l'effet causal par sous-groupes.
Lessons learned
- La convergence OLS/DML est un signal fort de robustesse des résultats.
- Un DAG explicite force à formaliser et justifier chaque hypothèse causale.
- Le Double Machine Learning est méthodologiquement supérieur même quand les relations sont proches de la linéarité.