Analyse EEG et inférence causale

Prédiction de l'état des yeux et estimation d'effets causaux sur signaux EEG avec deep learning et méthodes causales avancées.

Résumé du projet

Analyse complète d'un enregistrement EEG temporel pour prédire l'état des yeux (ouvert/fermé) et estimer des effets causaux. Le projet combine apprentissage automatique classique, deep learning sur séquences et inférence causale avec arbres causaux et Double Machine Learning.

État actuel

Prétraitement temporel et création des variables dérivées complétés.
Modèles ML classiques et deep learning (LSTM) entraînés et évalués.
Question causale formulée avec DAG et hypothèses d'identification.
Estimation causale par DML et arbres causaux en cours de finalisation.

Stack technique

PythonScikit-learnEconMLPandasJupyter

Tags & Code

Data ScienceCausal InferenceDeep LearningPython

Code privé (projet académique)

Vision

Prédire l'état des yeux à partir de signaux EEG en respectant la structure temporelle des données.
Estimer un effet causal de l'état des yeux sur l'activité EEG postérieure via des méthodes avancées.
Distinguer clairement prédiction et causalité — un modèle précis ne prouve pas un effet causal.

Architecture

Exploration et prétraitement : index temporel, fenêtres glissantes, variables dérivées (mean, std, PCA).
Modèles prédictifs : régression logistique, forêt aléatoire, gradient boosting, LSTM — séparation train/test temporelle.
Question causale : DAG, critère backdoor, variables d'ajustement (âge, alcool).
Estimation causale : score de propension, arbres causaux (EconML), Double Machine Learning (cross-fitting 5 folds).
Analyse de sensibilité : robustesse des résultats aux variations de confondeurs.

Roadmap

Phase 1 : exploration, prétraitement et création des variables dérivées temporelles.
Phase 2 : modèles prédictifs (ML classique + deep learning) avec évaluation rigoureuse.
Phase 3 : formulation causale, DAG et estimation par arbres causaux et DML.
Phase 4 : interprétation, analyse de sensibilité et rapport final.

Décisions techniques

Séparation train/test temporelle stricte pour éviter toute fuite d'information.
Double Machine Learning pour lever l'hypothèse de linéarité de la régression classique.
Cross-fitting en 5 folds pour éviter le surapprentissage dans l'estimation des nuisances.
DAG explicite pour formaliser les hypothèses causales et identifier les confondeurs.

Améliorations possibles

Étendre l'analyse à plusieurs enregistrements EEG pour renforcer la généralisation.
Tester des architectures deep learning plus complexes (GRU, CNN 1D).
Explorer des méthodes causales supplémentaires (DiD, IV).

Lessons learned

La structure temporelle des données impose des contraintes fortes sur la modélisation.
Distinguer prédiction et causalité est fondamental — deux questions très différentes.
Le Double Machine Learning offre des garanties théoriques solides sans imposer de forme fonctionnelle.

← Tous les projets Me contacter