100 Prompts IA pour les Data Scientists — Guide Complet
Les data scientists font face à des défis complexes allant de la collecte de données à la communication des résultats en passant par la construction de modèles. Les prompts IA bien formulés permettent d'accélérer chaque étape du cycle de vie d'un projet data. Ce guide rassemble 100 prompts pratiques pour vous aider à travailler plus efficacement avec vos données.
Exploration et Nettoyage des Données
Prompts pour analyser, comprendre et préparer vos datasets
Analyse exploratoire initiale
DebutantDémarrer une analyse EDA structurée
Je travaille sur un dataset [nom_du_dataset] avec [nombre] lignes et [nombre] colonnes. Les colonnes principales sont [liste_colonnes]. Génère un plan d'analyse exploratoire complet incluant les statistiques descriptives à calculer, les visualisations à créer et les questions clés à répondre.
Détection des valeurs manquantes
DebutantGérer les données manquantes
Mon dataset contient des valeurs manquantes dans les colonnes suivantes : [colonnes_avec_NA]. Propose une stratégie de traitement des valeurs manquantes adaptée à chaque colonne en tenant compte du type de données ([types]) et de l'impact sur l'analyse. Justifie tes choix.
Identification des outliers
DebutantTraitement des valeurs aberrantes
Explique comment détecter et traiter les outliers dans une colonne numérique [nom_colonne] qui représente [contexte_métier]. Propose au moins 3 méthodes de détection (statistiques et visuelles) et indique quand conserver ou supprimer ces valeurs aberrantes.
Encodage des variables catégorielles
IntermediairePréparation des features catégorielles
J'ai des variables catégorielles dans mon dataset : [liste_variables] avec respectivement [cardinalités] modalités. Mon modèle cible est [type_modèle]. Recommande la meilleure stratégie d'encodage pour chaque variable (one-hot, label encoding, target encoding, etc.) et explique ton raisonnement.
Normalisation et standardisation
DebutantMise à l'échelle des données
Mon dataset contient des features avec des échelles très différentes : [exemples_features_et_ranges]. Je vais entraîner un modèle [type_modèle]. Explique quelle technique de normalisation/standardisation appliquer à chaque feature et pourquoi, avec le code Python correspondant.
Analyse de corrélation avancée
IntermediaireComprendre les relations entre variables
Génère un plan d'analyse de corrélation complet pour un dataset contenant des variables numériques, catégorielles et temporelles. La variable cible est [variable_cible]. Inclus les méthodes appropriées pour chaque type de variable, comment interpréter les résultats et comment gérer la multicolinéarité.
Détection de data drift
AvanceSurveillance de la qualité des données en production
Mon modèle de production prédit [variable_cible] et je suspecte un data drift. Les données d'entraînement datent de [période_train] et les données actuelles de [période_actuelle]. Propose une méthodologie pour détecter et quantifier le drift sur les features [liste_features] et sur la distribution des prédictions.
Feature engineering temporel
IntermediaireCréation de features à partir de données temporelles
J'ai une colonne datetime [nom_colonne] dans mon dataset de [contexte]. Génère toutes les features temporelles pertinentes à extraire (heure, jour, mois, saison, jours_fériés, etc.) avec le code pandas/Python correspondant. Explique l'utilité de chaque feature pour prédire [variable_cible].
Rapport de qualité des données
IntermediaireDocumenter la qualité d'un dataset
Crée un template de rapport de qualité des données pour un dataset [domaine] qui couvre : complétude, unicité, validité, cohérence et fraîcheur des données. Pour chaque dimension, définis les métriques à mesurer, les seuils d'acceptabilité et les actions correctives recommandées.
Stratégie de sampling
AvanceGestion des classes déséquilibrées
Mon dataset de [taille] observations présente un déséquilibre de classes : [classe_majoritaire] représente [%] et [classe_minoritaire] représente [%]. Mon objectif est [objectif_business]. Compare les stratégies de resampling (oversampling, undersampling, SMOTE) et recommande la meilleure approche avec ses paramètres.
Pipeline de prétraitement
AvanceAutomatiser le preprocessing
Conçois un pipeline de prétraitement scikit-learn complet pour un dataset avec : [types_features] features, [% missing] de valeurs manquantes, et destiné à un modèle [type_modèle]. Inclus le code Python avec ColumnTransformer, les transformations pour chaque type de feature, et la gestion du train/test split.
Machine Learning et Modélisation
Prompts pour construire, entraîner et optimiser vos modèles
Sélection d'algorithme
DebutantChoisir le bon algorithme ML
Mon problème est une [classification/régression] sur [taille_dataset] observations avec [nombre_features] features. La variable cible est [description]. Les contraintes sont : [contraintes_temps_mémoire]. Compare les algorithmes adaptés (au moins 5) en termes de performance attendue, interprétabilité, temps d'entraînement et recommande le meilleur point de départ.
Stratégie de validation croisée
IntermediaireValider correctement un modèle
Explique quelle stratégie de validation croisée utiliser pour mon problème de [type_problème] avec un dataset de [taille] observations sur une période de [période]. Je dois éviter le data leakage lié à [source_leakage]. Propose le code Python correspondant et les métriques d'évaluation adaptées.
Hyperparameter tuning
IntermediaireOptimiser les performances d'un modèle
Je veux optimiser les hyperparamètres d'un [nom_modèle] pour prédire [variable_cible]. Mon budget de calcul est [budget]. Compare GridSearchCV, RandomizedSearchCV et Optuna pour ce cas. Propose l'espace de recherche des hyperparamètres clés, la métrique d'optimisation et le code Python pour la meilleure approche.
Interprétabilité SHAP
IntermediaireExpliquer les prédictions d'un modèle
J'ai entraîné un modèle [type_modèle] pour prédire [variable_cible] avec [nombre] features. Explique comment utiliser SHAP pour interpréter ce modèle : calcul des SHAP values, visualisations à créer (summary plot, dependence plot, force plot), et comment communiquer ces résultats à des stakeholders non-techniques.
Détection et réduction de l'overfitting
IntermediaireAméliorer la généralisation d'un modèle
Mon modèle [type_modèle] atteint [score_train] sur le train et [score_val] sur la validation, ce qui indique de l'overfitting. Les features utilisées sont [liste_features]. Propose 5 techniques concrètes pour réduire l'overfitting avec pour chacune le code Python, les paramètres à ajuster et l'impact attendu.
Ensemble de modèles
AvanceCombiner plusieurs modèles
J'ai entraîné 4 modèles pour [tâche_ML] avec les scores suivants : [modèle1: score1], [modèle2: score2], [modèle3: score3], [modèle4: score4]. Explique comment construire un ensemble (bagging, boosting, stacking) pour améliorer les performances. Inclus le code Python et la stratégie pour éviter le leakage dans le stacking.
Analyse des erreurs
DebutantComprendre où le modèle échoue
Mon modèle de classification [type_modèle] fait des erreurs sur [% erreur] des cas. Génère un plan d'analyse des erreurs complet : segmentation des erreurs par features, identification des patterns, visualisations à créer, et hypothèses à tester pour améliorer le modèle sur les cas difficiles.
Modèle de séries temporelles
AvancePrévision de séries temporelles
Je veux prédire [variable] sur [horizon_temporel] avec des données historiques de [période]. Les patterns observés sont : [saisonnalité, tendance, etc.]. Compare ARIMA, Prophet et LSTM pour ce cas. Propose le code Python pour chaque approche, les métriques d'évaluation (RMSE, MAPE, etc.) et la stratégie de backtesting.
Feature selection
IntermediaireRéduire la dimensionnalité
Mon dataset contient [nombre] features pour prédire [variable_cible]. Je veux sélectionner les [nombre_cible] features les plus pertinentes. Compare les méthodes filter (corrélation, chi2), wrapper (RFE) et embedded (Lasso, feature_importances). Implémente les 3 approches en Python et propose une stratégie de consensus.
Calibration des probabilités
AvanceAméliorer la fiabilité des probabilités prédites
Mon modèle de classification retourne des probabilités mais elles semblent mal calibrées (reliability diagram déformé). Explique comment calibrer les probabilités avec Platt Scaling et Isotonic Regression, quand utiliser chaque méthode, et comment mesurer l'amélioration de la calibration avec le Brier Score et ECE.
Détection d'anomalies
IntermediaireIdentifier des cas anormaux
Je dois détecter des anomalies dans [contexte] avec un dataset de [taille] observations. Les features disponibles sont [liste_features]. Compare Isolation Forest, One-Class SVM, Autoencoder et LOF pour ce cas. Inclus le code Python, la stratégie de seuillage et comment évaluer les résultats sans labels ground truth.
A/B testing pour ML
AvanceValider un nouveau modèle en production
Je veux déployer un nouveau modèle [modèle_B] en remplacement de [modèle_A] qui est en production. Conçois un plan d'A/B test rigoureux : calcul de la taille d'échantillon nécessaire, durée du test, métriques primaires et guardrail metrics, critères de succès, et plan de rollout progressif.
Visualisation et Communication des Résultats
Prompts pour créer des visualisations impactantes et communiquer avec les stakeholders
Choix de la visualisation adaptée
DebutantChoisir la bonne visualisation
Je veux visualiser [type_de_relation: corrélation/distribution/évolution/comparaison] entre [variables]. Mon audience est [technique/business]. Recommande le type de visualisation le plus adapté parmi [liste_options], explique pourquoi et génère le code Python avec matplotlib/seaborn ou plotly.
Dashboard pour stakeholders
IntermediairePrésenter des résultats ML au management
Je dois créer un dashboard pour présenter les résultats de mon modèle de [contexte] à des dirigeants non-techniques. Propose la structure du dashboard avec : les KPIs à mettre en avant, le type de graphique pour chaque métrique, les alertes à configurer, et comment traduire les métriques ML en impact business.
Storytelling avec les données
DebutantPrésenter une analyse de manière convaincante
J'ai analysé [dataset] et découvert que [insight_principal]. Mon audience est [description_audience] et l'objectif de la présentation est [objectif]. Structure un récit data-driven en 5 slides maximum : accroche, contexte, découverte, implications et recommandations. Suggère les visualisations pour chaque slide.
Visualisation de clustering
IntermediairePrésenter des résultats de segmentation
J'ai effectué un clustering K-Means avec [K] clusters sur un dataset de [taille] observations avec [nombre_features] features. Génère un plan de visualisation complet : réduction dimensionnelle pour visualiser les clusters, profil de chaque cluster avec les features clés, et comment nommer et interpréter chaque segment.
Rapport d'analyse automatisé
DebutantAutomatiser la génération de rapports
Génère le template d'un rapport d'analyse de données automatisé avec Python pour un dataset [domaine]. Le rapport doit inclure : résumé exécutif, statistiques descriptives, distributions des variables clés, corrélations, et insights automatiquement détectés. Utilise pandas-profiling ou ydata-profiling.
Explication visuelle d'un modèle ML
DebutantVulgariser le fonctionnement d'un modèle
Je dois expliquer visuellement comment fonctionne un [type_modèle] à une audience non-technique. Propose 3 analogies visuelles, les schémas à créer avec leurs descriptions, et comment illustrer le processus de décision du modèle pour un exemple concret de [domaine_application].
Heatmap de corrélation annotée
IntermediaireVisualiser les corrélations
Génère le code Python pour créer une heatmap de corrélation professionnelle et lisible pour [nombre] variables. La heatmap doit : masquer le triangle supérieur, annoter uniquement les corrélations significatives (p < 0.05), utiliser une palette divergente adaptée, et mettre en évidence les corrélations fortes avec [variable_cible].
Courbe ROC et métriques comparatives
IntermediaireComparer visuellement des modèles
J'ai comparé [nombre] modèles de classification sur [tâche]. Génère le code Python pour créer une visualisation comparative incluant : courbes ROC avec AUC, courbes précision-rappel, matrice de confusion stylisée, et un tableau récapitulatif des métriques. Adapte selon le contexte [déséquilibre de classes: oui/non].
Visualisation de séries temporelles multivariées
AvanceAnalyser des données temporelles complexes
J'ai [nombre] séries temporelles sur la période [période] avec des fréquences différentes [fréquences]. Je veux visualiser leurs interactions et tendances. Propose une stratégie de visualisation avec Plotly pour : comparaison des tendances normalisées, détection des événements corrélés, et décomposition saisonnière.
Présentation des incertitudes
AvanceCommuniquer l'incertitude des prédictions
Mon modèle prédit [variable] avec des intervalles de confiance. Je dois présenter ces incertitudes à des décideurs. Explique comment visualiser les incertitudes de manière compréhensible (intervalles de confiance, fan charts, violin plots), les pièges à éviter et comment contextualiser l'incertitude pour une prise de décision éclairée.
Infographie de résultats clés
DebutantCréer une infographie impactante
Génère un plan détaillé pour une infographie résumant les résultats de mon étude sur [sujet]. Les 3 insights principaux sont [insight1], [insight2], [insight3]. L'audience cible est [description]. Propose la structure visuelle, les types de graphiques, les couleurs et le texte pour chaque section.
Déploiement et MLOps
Prompts pour déployer et maintenir vos modèles en production
API REST pour modèle ML
IntermediaireExposer un modèle via une API
Je veux déployer mon modèle [type_modèle] de [contexte] comme une API REST avec FastAPI. Le modèle prend en entrée [features_input] et retourne [output]. Génère le code complet de l'API incluant : endpoints, validation des données avec Pydantic, gestion des erreurs, logging, et documentation Swagger.
Containerisation avec Docker
IntermediaireContaineriser un modèle ML
Génère un Dockerfile optimisé pour déployer mon modèle Python [framework: sklearn/torch/tensorflow] avec ses dépendances [fichier requirements.txt]. Inclus les bonnes pratiques : image de base légère, layer caching, utilisateur non-root, variables d'environnement, et un docker-compose.yml pour le développement local.
Monitoring de modèle en production
AvanceSurveiller un modèle en production
Mon modèle de [contexte] est en production depuis [durée]. Conçois un système de monitoring complet couvrant : suivi de la performance (métriques business et ML), détection du data drift sur les features [liste_features], alertes automatiques, et tableau de bord de surveillance. Propose les outils et l'architecture.
Pipeline CI/CD pour ML
AvanceAutomatiser le cycle de vie du modèle
Conçois un pipeline CI/CD pour un projet ML avec GitHub Actions. Le pipeline doit inclure : tests unitaires des transformations de données, tests d'intégration du modèle, validation des performances (le nouveau modèle doit surpasser [baseline]), publication du modèle dans [MLflow/W&B/autre] et déploiement automatique si les seuils sont atteints.
Documentation du modèle
DebutantDocumenter un modèle ML
Génère un template de documentation complète (Model Card) pour mon modèle de [contexte]. La documentation doit couvrir : description du modèle, données d'entraînement, métriques de performance par segment, limitations connues, biais potentiels, cas d'usage recommandés et non-recommandés, et guide d'utilisation.
Stratégie de versioning des données et modèles
AvanceGérer les versions d'un projet ML
Mon projet ML implique des mises à jour régulières des données et des modèles. Propose une stratégie de versioning complète avec DVC ou MLflow : comment versionner les datasets, les features, les modèles entraînés, comment tracer la lignée des données, et comment faire un rollback si un nouveau modèle dégrade les performances.
Optimisation de l'inférence
AvanceRéduire la latence d'inférence
Mon modèle [type_modèle] a une latence d'inférence de [latence_actuelle] ms mais le SLA est de [latence_cible] ms. Les données d'entrée sont [description_features]. Propose des techniques d'optimisation : quantization, pruning, ONNX export, batching, caching, et leur impact estimé sur la latence et la précision.
Feature store design
AvanceCentraliser la gestion des features
Conçois l'architecture d'un feature store pour une équipe data de [taille] gérant [nombre] modèles ML en production. Les features principales sont [exemples_features]. Inclus : structure des tables, stratégie de calcul (batch vs streaming), gestion des features pour le train vs la production, et outils recommandés (Feast, Hopsworks, etc.).
Tests d'un modèle ML
IntermediaireTester un pipeline ML
Je veux écrire une suite de tests pour mon pipeline ML qui prédit [variable_cible]. Génère des tests pytest couvrant : validation du schéma des données d'entrée, invariances du modèle (ex: changement de monnaie ne doit pas changer la prédiction), tests de performance minimale, et tests de non-régression sur des cas critiques.
Gestion des dépendances et reproductibilité
DebutantAssurer la reproductibilité des expériences
Mon projet ML doit être reproductible sur différents environnements. Génère la configuration complète pour assurer la reproductibilité : gestion des seeds aléatoires, fichier requirements.txt avec versions épinglées, configuration des variables d'environnement, et Makefile avec les commandes pour reproduire les expériences.
Stratégie de rollout progressif
AvanceDéploiement progressif d'un nouveau modèle
Je veux déployer progressivement mon nouveau modèle [modèle_B] pour remplacer [modèle_A] en production. Conçois une stratégie de déploiement canary incluant : pourcentage initial de trafic, métriques de surveillance, critères pour augmenter ou réduire le trafic, plan de rollback automatique, et durée estimée du déploiement complet.
Statistiques et Analyse Avancée
Prompts pour les analyses statistiques rigoureuses
Test d'hypothèse adapté
DebutantValider statistiquement une hypothèse
Je veux tester si [hypothèse] dans mon dataset. Les données sont [description: type, distribution, taille]. Recommande le test statistique adapté parmi les tests paramétriques et non-paramétriques, vérifie les conditions d'application, et génère le code Python avec interprétation de la p-value et de la taille d'effet.
Analyse de puissance statistique
IntermediairePlanifier une expérience statistique
Je prépare une expérience pour détecter un effet de [taille_effet] sur [métrique] avec une puissance de [80/90]% et un risque alpha de 5%. Calcule la taille d'échantillon nécessaire pour les différents designs d'expérience possibles. Génère le code Python avec scipy.stats et une visualisation de la courbe puissance-effectif.
Analyse de causalité
AvanceÉtablir des relations causales
Je veux établir une relation causale entre [variable_cause] et [variable_effet] à partir de données observationnelles. Explique les méthodes d'inférence causale applicables (matching, différences-en-différences, variables instrumentales, RDD) et laquelle est la plus appropriée pour mon contexte [description_contexte].
Analyse de survie
AvanceAnalyser des données de durée
Je veux analyser le temps avant [événement] pour [contexte]. Mon dataset contient [nombre] observations avec [% censurées] de données censurées. Explique comment appliquer l'analyse de survie : courbe de Kaplan-Meier, test du log-rank pour comparer les groupes [groupes], et modèle de Cox pour les covariables [covariables].
Régression avec variables confondantes
IntermediaireIsoler l'effet d'une variable
Je veux quantifier l'effet de [variable_X] sur [variable_Y] mais je suspecte des variables confondantes : [liste_confondants]. Mon dataset a [taille] observations. Explique comment contrôler pour les confondants avec la régression multiple, la propensity score matching, et comment interpréter les coefficients ajustés.
Analyse de cohortes
IntermediaireAnalyser le comportement par cohorte
Je veux effectuer une analyse de cohortes pour [contexte_business] sur des données couvrant [période]. Définis comment segmenter les cohortes [par date d'inscription, d'achat, etc.], les métriques à suivre pour chaque cohorte, et génère le code Python pour créer une heatmap de rétention.
Bootstrap et intervalles de confiance
IntermediaireEstimer l'incertitude d'une métrique
Ma métrique principale est [métrique] calculée sur [taille] observations. Je veux estimer ses intervalles de confiance sans faire d'hypothèse distributionnelle. Explique et implémente le bootstrap en Python pour calculer des IC à 95%, compare avec les IC théoriques, et génère la visualisation de la distribution bootstrap.
Analyse factorielle et PCA
DebutantRéduire la dimensionnalité statistiquement
Mon dataset contient [nombre] variables corrélées que je veux réduire. Explique comment appliquer la PCA : choix du nombre de composantes (scree plot, variance expliquée), interprétation des loadings, visualisation dans le plan factoriel, et biplot. Inclus le code Python et comment utiliser les composantes comme features pour [tâche_ML].
Modélisation bayésienne
AvanceAppliquer l'inférence bayésienne
Je veux modéliser [phénomène] avec une approche bayésienne. Les données disponibles sont [description]. Explique comment définir les priors, construire le modèle avec PyMC, interpréter les posteriors et les intervalles de crédibilité, et comparer ce modèle à une approche fréquentiste pour ce problème.
Analyse multi-variée des outliers
AvanceDétecter des outliers multivariés
Je cherche des outliers multivariés dans un dataset de [taille] observations avec [nombre] dimensions. Les méthodes univariées ne suffisent pas car les outliers sont liés à des combinaisons de variables. Explique et implémente la distance de Mahalanobis, Isolation Forest multivariée, et comment visualiser ces anomalies en haute dimension.
Conseils de pro
Toujours commencer par l'EDA
Ne sautez jamais l'analyse exploratoire pour aller directement au modèle. 80% des insights se trouvent dans l'EDA et elle évite les erreurs coûteuses en aval. Demandez à l'IA de vous guider méthodiquement à travers chaque étape.
Précisez le contexte métier
Les meilleurs prompts incluent toujours le contexte business : quel est l'objectif final, qui utilisera les résultats, et quelles sont les contraintes (latence, coût, interprétabilité). L'IA adaptera ses recommandations en conséquence.
Demandez des justifications
Pour chaque recommandation algorithmique, demandez toujours 'pourquoi ce choix plutôt que X ou Y ?' Cela vous permet d'apprendre les trade-offs et d'adapter la solution à votre contexte spécifique.
Itérez sur les résultats
Utilisez l'IA pour analyser les résultats intermédiaires : 'Mon modèle obtient ces métriques [métriques], voici les erreurs les plus fréquentes [erreurs], que suggères-tu pour améliorer ?' Cette approche itérative donne de meilleurs résultats que de demander une solution complète d'emblée.
Générer du code reproductible
Demandez systématiquement du code avec la gestion des seeds aléatoires, la journalisation des expériences et les assertions de validation. Un bon prompt inclut : 'Génère du code production-ready avec logging, gestion des erreurs et tests unitaires.'