100 Prompts IA pour les Data Scientists — Guide Complet

Les data scientists font face à des défis complexes allant de la collecte de données à la communication des résultats en passant par la construction de modèles. Les prompts IA bien formulés permettent d'accélérer chaque étape du cycle de vie d'un projet data. Ce guide rassemble 100 prompts pratiques pour vous aider à travailler plus efficacement avec vos données.

Filtrer par niveau :

55 prompts

Exploration et Nettoyage des Données

Prompts pour analyser, comprendre et préparer vos datasets

Analyse exploratoire initiale

Debutant

Démarrer une analyse EDA structurée

Je travaille sur un dataset [nom_du_dataset] avec [nombre] lignes et [nombre] colonnes. Les colonnes principales sont [liste_colonnes]. Génère un plan d'analyse exploratoire complet incluant les statistiques descriptives à calculer, les visualisations à créer et les questions clés à répondre.

Détection des valeurs manquantes

Debutant

Gérer les données manquantes

Mon dataset contient des valeurs manquantes dans les colonnes suivantes : [colonnes_avec_NA]. Propose une stratégie de traitement des valeurs manquantes adaptée à chaque colonne en tenant compte du type de données ([types]) et de l'impact sur l'analyse. Justifie tes choix.

Identification des outliers

Debutant

Traitement des valeurs aberrantes

Explique comment détecter et traiter les outliers dans une colonne numérique [nom_colonne] qui représente [contexte_métier]. Propose au moins 3 méthodes de détection (statistiques et visuelles) et indique quand conserver ou supprimer ces valeurs aberrantes.

Encodage des variables catégorielles

Intermediaire

Préparation des features catégorielles

J'ai des variables catégorielles dans mon dataset : [liste_variables] avec respectivement [cardinalités] modalités. Mon modèle cible est [type_modèle]. Recommande la meilleure stratégie d'encodage pour chaque variable (one-hot, label encoding, target encoding, etc.) et explique ton raisonnement.

Normalisation et standardisation

Debutant

Mise à l'échelle des données

Mon dataset contient des features avec des échelles très différentes : [exemples_features_et_ranges]. Je vais entraîner un modèle [type_modèle]. Explique quelle technique de normalisation/standardisation appliquer à chaque feature et pourquoi, avec le code Python correspondant.

Analyse de corrélation avancée

Intermediaire

Comprendre les relations entre variables

Génère un plan d'analyse de corrélation complet pour un dataset contenant des variables numériques, catégorielles et temporelles. La variable cible est [variable_cible]. Inclus les méthodes appropriées pour chaque type de variable, comment interpréter les résultats et comment gérer la multicolinéarité.

Détection de data drift

Avance

Surveillance de la qualité des données en production

Mon modèle de production prédit [variable_cible] et je suspecte un data drift. Les données d'entraînement datent de [période_train] et les données actuelles de [période_actuelle]. Propose une méthodologie pour détecter et quantifier le drift sur les features [liste_features] et sur la distribution des prédictions.

Feature engineering temporel

Intermediaire

Création de features à partir de données temporelles

J'ai une colonne datetime [nom_colonne] dans mon dataset de [contexte]. Génère toutes les features temporelles pertinentes à extraire (heure, jour, mois, saison, jours_fériés, etc.) avec le code pandas/Python correspondant. Explique l'utilité de chaque feature pour prédire [variable_cible].

Rapport de qualité des données

Intermediaire

Documenter la qualité d'un dataset

Crée un template de rapport de qualité des données pour un dataset [domaine] qui couvre : complétude, unicité, validité, cohérence et fraîcheur des données. Pour chaque dimension, définis les métriques à mesurer, les seuils d'acceptabilité et les actions correctives recommandées.

Stratégie de sampling

Avance

Gestion des classes déséquilibrées

Mon dataset de [taille] observations présente un déséquilibre de classes : [classe_majoritaire] représente [%] et [classe_minoritaire] représente [%]. Mon objectif est [objectif_business]. Compare les stratégies de resampling (oversampling, undersampling, SMOTE) et recommande la meilleure approche avec ses paramètres.

Pipeline de prétraitement

Avance

Automatiser le preprocessing

Conçois un pipeline de prétraitement scikit-learn complet pour un dataset avec : [types_features] features, [% missing] de valeurs manquantes, et destiné à un modèle [type_modèle]. Inclus le code Python avec ColumnTransformer, les transformations pour chaque type de feature, et la gestion du train/test split.

Machine Learning et Modélisation

Prompts pour construire, entraîner et optimiser vos modèles

Sélection d'algorithme

Debutant

Choisir le bon algorithme ML

Mon problème est une [classification/régression] sur [taille_dataset] observations avec [nombre_features] features. La variable cible est [description]. Les contraintes sont : [contraintes_temps_mémoire]. Compare les algorithmes adaptés (au moins 5) en termes de performance attendue, interprétabilité, temps d'entraînement et recommande le meilleur point de départ.

Stratégie de validation croisée

Intermediaire

Valider correctement un modèle

Explique quelle stratégie de validation croisée utiliser pour mon problème de [type_problème] avec un dataset de [taille] observations sur une période de [période]. Je dois éviter le data leakage lié à [source_leakage]. Propose le code Python correspondant et les métriques d'évaluation adaptées.

Hyperparameter tuning

Intermediaire

Optimiser les performances d'un modèle

Je veux optimiser les hyperparamètres d'un [nom_modèle] pour prédire [variable_cible]. Mon budget de calcul est [budget]. Compare GridSearchCV, RandomizedSearchCV et Optuna pour ce cas. Propose l'espace de recherche des hyperparamètres clés, la métrique d'optimisation et le code Python pour la meilleure approche.

Interprétabilité SHAP

Intermediaire

Expliquer les prédictions d'un modèle

J'ai entraîné un modèle [type_modèle] pour prédire [variable_cible] avec [nombre] features. Explique comment utiliser SHAP pour interpréter ce modèle : calcul des SHAP values, visualisations à créer (summary plot, dependence plot, force plot), et comment communiquer ces résultats à des stakeholders non-techniques.

Détection et réduction de l'overfitting

Intermediaire

Améliorer la généralisation d'un modèle

Mon modèle [type_modèle] atteint [score_train] sur le train et [score_val] sur la validation, ce qui indique de l'overfitting. Les features utilisées sont [liste_features]. Propose 5 techniques concrètes pour réduire l'overfitting avec pour chacune le code Python, les paramètres à ajuster et l'impact attendu.

Ensemble de modèles

Avance

Combiner plusieurs modèles

J'ai entraîné 4 modèles pour [tâche_ML] avec les scores suivants : [modèle1: score1], [modèle2: score2], [modèle3: score3], [modèle4: score4]. Explique comment construire un ensemble (bagging, boosting, stacking) pour améliorer les performances. Inclus le code Python et la stratégie pour éviter le leakage dans le stacking.

Analyse des erreurs

Debutant

Comprendre où le modèle échoue

Mon modèle de classification [type_modèle] fait des erreurs sur [% erreur] des cas. Génère un plan d'analyse des erreurs complet : segmentation des erreurs par features, identification des patterns, visualisations à créer, et hypothèses à tester pour améliorer le modèle sur les cas difficiles.

Modèle de séries temporelles

Avance

Prévision de séries temporelles

Je veux prédire [variable] sur [horizon_temporel] avec des données historiques de [période]. Les patterns observés sont : [saisonnalité, tendance, etc.]. Compare ARIMA, Prophet et LSTM pour ce cas. Propose le code Python pour chaque approche, les métriques d'évaluation (RMSE, MAPE, etc.) et la stratégie de backtesting.

Feature selection

Intermediaire

Réduire la dimensionnalité

Mon dataset contient [nombre] features pour prédire [variable_cible]. Je veux sélectionner les [nombre_cible] features les plus pertinentes. Compare les méthodes filter (corrélation, chi2), wrapper (RFE) et embedded (Lasso, feature_importances). Implémente les 3 approches en Python et propose une stratégie de consensus.

Calibration des probabilités

Avance

Améliorer la fiabilité des probabilités prédites

Mon modèle de classification retourne des probabilités mais elles semblent mal calibrées (reliability diagram déformé). Explique comment calibrer les probabilités avec Platt Scaling et Isotonic Regression, quand utiliser chaque méthode, et comment mesurer l'amélioration de la calibration avec le Brier Score et ECE.

Détection d'anomalies

Intermediaire

Identifier des cas anormaux

Je dois détecter des anomalies dans [contexte] avec un dataset de [taille] observations. Les features disponibles sont [liste_features]. Compare Isolation Forest, One-Class SVM, Autoencoder et LOF pour ce cas. Inclus le code Python, la stratégie de seuillage et comment évaluer les résultats sans labels ground truth.

A/B testing pour ML

Avance

Valider un nouveau modèle en production

Je veux déployer un nouveau modèle [modèle_B] en remplacement de [modèle_A] qui est en production. Conçois un plan d'A/B test rigoureux : calcul de la taille d'échantillon nécessaire, durée du test, métriques primaires et guardrail metrics, critères de succès, et plan de rollout progressif.

Visualisation et Communication des Résultats

Prompts pour créer des visualisations impactantes et communiquer avec les stakeholders

Choix de la visualisation adaptée

Debutant

Choisir la bonne visualisation

Je veux visualiser [type_de_relation: corrélation/distribution/évolution/comparaison] entre [variables]. Mon audience est [technique/business]. Recommande le type de visualisation le plus adapté parmi [liste_options], explique pourquoi et génère le code Python avec matplotlib/seaborn ou plotly.

Dashboard pour stakeholders

Intermediaire

Présenter des résultats ML au management

Je dois créer un dashboard pour présenter les résultats de mon modèle de [contexte] à des dirigeants non-techniques. Propose la structure du dashboard avec : les KPIs à mettre en avant, le type de graphique pour chaque métrique, les alertes à configurer, et comment traduire les métriques ML en impact business.

Storytelling avec les données

Debutant

Présenter une analyse de manière convaincante

J'ai analysé [dataset] et découvert que [insight_principal]. Mon audience est [description_audience] et l'objectif de la présentation est [objectif]. Structure un récit data-driven en 5 slides maximum : accroche, contexte, découverte, implications et recommandations. Suggère les visualisations pour chaque slide.

Visualisation de clustering

Intermediaire

Présenter des résultats de segmentation

J'ai effectué un clustering K-Means avec [K] clusters sur un dataset de [taille] observations avec [nombre_features] features. Génère un plan de visualisation complet : réduction dimensionnelle pour visualiser les clusters, profil de chaque cluster avec les features clés, et comment nommer et interpréter chaque segment.

Rapport d'analyse automatisé

Debutant

Automatiser la génération de rapports

Génère le template d'un rapport d'analyse de données automatisé avec Python pour un dataset [domaine]. Le rapport doit inclure : résumé exécutif, statistiques descriptives, distributions des variables clés, corrélations, et insights automatiquement détectés. Utilise pandas-profiling ou ydata-profiling.

Explication visuelle d'un modèle ML

Debutant

Vulgariser le fonctionnement d'un modèle

Je dois expliquer visuellement comment fonctionne un [type_modèle] à une audience non-technique. Propose 3 analogies visuelles, les schémas à créer avec leurs descriptions, et comment illustrer le processus de décision du modèle pour un exemple concret de [domaine_application].

Heatmap de corrélation annotée

Intermediaire

Visualiser les corrélations

Génère le code Python pour créer une heatmap de corrélation professionnelle et lisible pour [nombre] variables. La heatmap doit : masquer le triangle supérieur, annoter uniquement les corrélations significatives (p < 0.05), utiliser une palette divergente adaptée, et mettre en évidence les corrélations fortes avec [variable_cible].

Courbe ROC et métriques comparatives

Intermediaire

Comparer visuellement des modèles

J'ai comparé [nombre] modèles de classification sur [tâche]. Génère le code Python pour créer une visualisation comparative incluant : courbes ROC avec AUC, courbes précision-rappel, matrice de confusion stylisée, et un tableau récapitulatif des métriques. Adapte selon le contexte [déséquilibre de classes: oui/non].

Visualisation de séries temporelles multivariées

Avance

Analyser des données temporelles complexes

J'ai [nombre] séries temporelles sur la période [période] avec des fréquences différentes [fréquences]. Je veux visualiser leurs interactions et tendances. Propose une stratégie de visualisation avec Plotly pour : comparaison des tendances normalisées, détection des événements corrélés, et décomposition saisonnière.

Présentation des incertitudes

Avance

Communiquer l'incertitude des prédictions

Mon modèle prédit [variable] avec des intervalles de confiance. Je dois présenter ces incertitudes à des décideurs. Explique comment visualiser les incertitudes de manière compréhensible (intervalles de confiance, fan charts, violin plots), les pièges à éviter et comment contextualiser l'incertitude pour une prise de décision éclairée.

Infographie de résultats clés

Debutant

Créer une infographie impactante

Génère un plan détaillé pour une infographie résumant les résultats de mon étude sur [sujet]. Les 3 insights principaux sont [insight1], [insight2], [insight3]. L'audience cible est [description]. Propose la structure visuelle, les types de graphiques, les couleurs et le texte pour chaque section.

Déploiement et MLOps

Prompts pour déployer et maintenir vos modèles en production

API REST pour modèle ML

Intermediaire

Exposer un modèle via une API

Je veux déployer mon modèle [type_modèle] de [contexte] comme une API REST avec FastAPI. Le modèle prend en entrée [features_input] et retourne [output]. Génère le code complet de l'API incluant : endpoints, validation des données avec Pydantic, gestion des erreurs, logging, et documentation Swagger.

Containerisation avec Docker

Intermediaire

Containeriser un modèle ML

Génère un Dockerfile optimisé pour déployer mon modèle Python [framework: sklearn/torch/tensorflow] avec ses dépendances [fichier requirements.txt]. Inclus les bonnes pratiques : image de base légère, layer caching, utilisateur non-root, variables d'environnement, et un docker-compose.yml pour le développement local.

Monitoring de modèle en production

Avance

Surveiller un modèle en production

Mon modèle de [contexte] est en production depuis [durée]. Conçois un système de monitoring complet couvrant : suivi de la performance (métriques business et ML), détection du data drift sur les features [liste_features], alertes automatiques, et tableau de bord de surveillance. Propose les outils et l'architecture.

Pipeline CI/CD pour ML

Avance

Automatiser le cycle de vie du modèle

Conçois un pipeline CI/CD pour un projet ML avec GitHub Actions. Le pipeline doit inclure : tests unitaires des transformations de données, tests d'intégration du modèle, validation des performances (le nouveau modèle doit surpasser [baseline]), publication du modèle dans [MLflow/W&B/autre] et déploiement automatique si les seuils sont atteints.

Documentation du modèle

Debutant

Documenter un modèle ML

Génère un template de documentation complète (Model Card) pour mon modèle de [contexte]. La documentation doit couvrir : description du modèle, données d'entraînement, métriques de performance par segment, limitations connues, biais potentiels, cas d'usage recommandés et non-recommandés, et guide d'utilisation.

Stratégie de versioning des données et modèles

Avance

Gérer les versions d'un projet ML

Mon projet ML implique des mises à jour régulières des données et des modèles. Propose une stratégie de versioning complète avec DVC ou MLflow : comment versionner les datasets, les features, les modèles entraînés, comment tracer la lignée des données, et comment faire un rollback si un nouveau modèle dégrade les performances.

Optimisation de l'inférence

Avance

Réduire la latence d'inférence

Mon modèle [type_modèle] a une latence d'inférence de [latence_actuelle] ms mais le SLA est de [latence_cible] ms. Les données d'entrée sont [description_features]. Propose des techniques d'optimisation : quantization, pruning, ONNX export, batching, caching, et leur impact estimé sur la latence et la précision.

Feature store design

Avance

Centraliser la gestion des features

Conçois l'architecture d'un feature store pour une équipe data de [taille] gérant [nombre] modèles ML en production. Les features principales sont [exemples_features]. Inclus : structure des tables, stratégie de calcul (batch vs streaming), gestion des features pour le train vs la production, et outils recommandés (Feast, Hopsworks, etc.).

Tests d'un modèle ML

Intermediaire

Tester un pipeline ML

Je veux écrire une suite de tests pour mon pipeline ML qui prédit [variable_cible]. Génère des tests pytest couvrant : validation du schéma des données d'entrée, invariances du modèle (ex: changement de monnaie ne doit pas changer la prédiction), tests de performance minimale, et tests de non-régression sur des cas critiques.

Gestion des dépendances et reproductibilité

Debutant

Assurer la reproductibilité des expériences

Mon projet ML doit être reproductible sur différents environnements. Génère la configuration complète pour assurer la reproductibilité : gestion des seeds aléatoires, fichier requirements.txt avec versions épinglées, configuration des variables d'environnement, et Makefile avec les commandes pour reproduire les expériences.

Stratégie de rollout progressif

Avance

Déploiement progressif d'un nouveau modèle

Je veux déployer progressivement mon nouveau modèle [modèle_B] pour remplacer [modèle_A] en production. Conçois une stratégie de déploiement canary incluant : pourcentage initial de trafic, métriques de surveillance, critères pour augmenter ou réduire le trafic, plan de rollback automatique, et durée estimée du déploiement complet.

Statistiques et Analyse Avancée

Prompts pour les analyses statistiques rigoureuses

Test d'hypothèse adapté

Debutant

Valider statistiquement une hypothèse

Je veux tester si [hypothèse] dans mon dataset. Les données sont [description: type, distribution, taille]. Recommande le test statistique adapté parmi les tests paramétriques et non-paramétriques, vérifie les conditions d'application, et génère le code Python avec interprétation de la p-value et de la taille d'effet.

Analyse de puissance statistique

Intermediaire

Planifier une expérience statistique

Je prépare une expérience pour détecter un effet de [taille_effet] sur [métrique] avec une puissance de [80/90]% et un risque alpha de 5%. Calcule la taille d'échantillon nécessaire pour les différents designs d'expérience possibles. Génère le code Python avec scipy.stats et une visualisation de la courbe puissance-effectif.

Analyse de causalité

Avance

Établir des relations causales

Je veux établir une relation causale entre [variable_cause] et [variable_effet] à partir de données observationnelles. Explique les méthodes d'inférence causale applicables (matching, différences-en-différences, variables instrumentales, RDD) et laquelle est la plus appropriée pour mon contexte [description_contexte].

Analyse de survie

Avance

Analyser des données de durée

Je veux analyser le temps avant [événement] pour [contexte]. Mon dataset contient [nombre] observations avec [% censurées] de données censurées. Explique comment appliquer l'analyse de survie : courbe de Kaplan-Meier, test du log-rank pour comparer les groupes [groupes], et modèle de Cox pour les covariables [covariables].

Régression avec variables confondantes

Intermediaire

Isoler l'effet d'une variable

Je veux quantifier l'effet de [variable_X] sur [variable_Y] mais je suspecte des variables confondantes : [liste_confondants]. Mon dataset a [taille] observations. Explique comment contrôler pour les confondants avec la régression multiple, la propensity score matching, et comment interpréter les coefficients ajustés.

Analyse de cohortes

Intermediaire

Analyser le comportement par cohorte

Je veux effectuer une analyse de cohortes pour [contexte_business] sur des données couvrant [période]. Définis comment segmenter les cohortes [par date d'inscription, d'achat, etc.], les métriques à suivre pour chaque cohorte, et génère le code Python pour créer une heatmap de rétention.

Bootstrap et intervalles de confiance

Intermediaire

Estimer l'incertitude d'une métrique

Ma métrique principale est [métrique] calculée sur [taille] observations. Je veux estimer ses intervalles de confiance sans faire d'hypothèse distributionnelle. Explique et implémente le bootstrap en Python pour calculer des IC à 95%, compare avec les IC théoriques, et génère la visualisation de la distribution bootstrap.

Analyse factorielle et PCA

Debutant

Réduire la dimensionnalité statistiquement

Mon dataset contient [nombre] variables corrélées que je veux réduire. Explique comment appliquer la PCA : choix du nombre de composantes (scree plot, variance expliquée), interprétation des loadings, visualisation dans le plan factoriel, et biplot. Inclus le code Python et comment utiliser les composantes comme features pour [tâche_ML].

Modélisation bayésienne

Avance

Appliquer l'inférence bayésienne

Je veux modéliser [phénomène] avec une approche bayésienne. Les données disponibles sont [description]. Explique comment définir les priors, construire le modèle avec PyMC, interpréter les posteriors et les intervalles de crédibilité, et comparer ce modèle à une approche fréquentiste pour ce problème.

Analyse multi-variée des outliers

Avance

Détecter des outliers multivariés

Je cherche des outliers multivariés dans un dataset de [taille] observations avec [nombre] dimensions. Les méthodes univariées ne suffisent pas car les outliers sont liés à des combinaisons de variables. Explique et implémente la distance de Mahalanobis, Isolation Forest multivariée, et comment visualiser ces anomalies en haute dimension.

Conseils de pro

Toujours commencer par l'EDA

Ne sautez jamais l'analyse exploratoire pour aller directement au modèle. 80% des insights se trouvent dans l'EDA et elle évite les erreurs coûteuses en aval. Demandez à l'IA de vous guider méthodiquement à travers chaque étape.

Précisez le contexte métier

Les meilleurs prompts incluent toujours le contexte business : quel est l'objectif final, qui utilisera les résultats, et quelles sont les contraintes (latence, coût, interprétabilité). L'IA adaptera ses recommandations en conséquence.

Demandez des justifications

Pour chaque recommandation algorithmique, demandez toujours 'pourquoi ce choix plutôt que X ou Y ?' Cela vous permet d'apprendre les trade-offs et d'adapter la solution à votre contexte spécifique.

Itérez sur les résultats

Utilisez l'IA pour analyser les résultats intermédiaires : 'Mon modèle obtient ces métriques [métriques], voici les erreurs les plus fréquentes [erreurs], que suggères-tu pour améliorer ?' Cette approche itérative donne de meilleurs résultats que de demander une solution complète d'emblée.

Générer du code reproductible

Demandez systématiquement du code avec la gestion des seeds aléatoires, la journalisation des expériences et les assertions de validation. Un bon prompt inclut : 'Génère du code production-ready avec logging, gestion des erreurs et tests unitaires.'