Inférence causale — Tabagisme et qualité du sommeil

Estimation de l'effet causal du tabagisme sur la qualité du sommeil sur 413 768 observations avec Double Machine Learning.

Résumé du projet

Estimation rigoureuse de l'effet causal du tabagisme actuel sur la probabilité de mauvais sommeil à partir de données observationnelles. Le projet applique trois méthodes complémentaires (différence brute, OLS, DML) et conclut à un effet causal estimé d'environ 13 %, robuste et convergent.

État actuel

Analyse complète réalisée sur 413 768 observations.
Trois méthodes appliquées et comparées : naïve, OLS, Double ML.
Effet causal estimé à ~13 % — convergent et robuste.
Rapport final produit avec interprétation rigoureuse.

Stack technique

PythonScikit-learnStatsmodelsPandasJupyter

Tags & Code

Causal InferenceMachine LearningPythonStatistics

Code privé (projet académique)

Vision

Estimer un effet causal réel — pas une simple association — entre tabagisme et sommeil.
Appliquer une démarche causale rigoureuse sur des données observationnelles à grande échelle.
Démontrer l'intérêt du Double Machine Learning face aux approches classiques.

Architecture

Données : 413 768 observations, 16 variables — nettoyage et filtrage (fumeurs actuels vs non-fumeurs).
Modélisation causale : DAG, critère backdoor, variables de confusion (âge, consommation d'alcool).
Méthode 1 — Différence brute : ATT naïf = 0.099 (biaisé, sans ajustement).
Méthode 2 — OLS avec erreurs robustes HC3 : θ = 0.132 (ajustement linéaire).
Méthode 3 — Double ML (Random Forest, cross-fitting 5 folds) : θ = 0.134 (robuste, non linéaire).
Analyse de sensibilité : retrait d'un confondeur pour valider la robustesse du DAG.

Roadmap

Phase 1 : exploration, nettoyage et construction des variables de traitement et de résultat.
Phase 2 : modélisation causale avec DAG et identification des chemins de backdoor.
Phase 3 : estimation naïve, OLS ajusté et Double Machine Learning.
Phase 4 : analyse de sensibilité, comparaison des méthodes et rédaction du rapport.

Décisions techniques

Double ML pour lever l'hypothèse de linéarité et obtenir des garanties théoriques solides.
Random Forest dans le DML pour modéliser des relations non linéaires entre confondeurs et variables.
Cross-fitting en 5 folds pour éviter le biais de surapprentissage dans l'estimation des nuisances.
Analyse de sensibilité systématique pour valider la robustesse des conclusions.

Améliorations possibles

Tester des méthodes causales supplémentaires (DiD, variables instrumentales).
Enrichir l'analyse avec des confondeurs supplémentaires (stress, activité physique).
Étudier l'hétérogénéité de l'effet causal par sous-groupes.

Lessons learned

La convergence OLS/DML est un signal fort de robustesse des résultats.
Un DAG explicite force à formaliser et justifier chaque hypothèse causale.
Le Double Machine Learning est méthodologiquement supérieur même quand les relations sont proches de la linéarité.

← Tous les projets Me contacter