100 Prompts IA pour les DevOps & SRE — Guide Complet
Les ingénieurs DevOps et SRE gèrent des infrastructures complexes où l'automatisation, la fiabilité et la rapidité sont essentielles. Les prompts IA bien conçus permettent d'accélérer la rédaction de scripts, la résolution d'incidents et la conception d'architectures robustes. Ce guide propose 100 prompts pour optimiser chaque aspect du travail DevOps.
Infrastructure as Code et Automatisation
Prompts pour Terraform, Ansible, et l'automatisation de l'infrastructure
Module Terraform pour service cloud
IntermediaireCréer un module Terraform réutilisable
Génère un module Terraform réutilisable pour déployer [service: EKS/RDS/Lambda/ECS] sur AWS dans un environnement [dev/staging/prod]. Le module doit inclure : variables d'entrée avec validation, outputs, gestion des tags, support multi-région, et un README avec les exemples d'utilisation. Respecte les bonnes pratiques de sécurité (IAM least privilege, chiffrement).
Playbook Ansible de hardening
AvanceSécuriser automatiquement des serveurs
Crée un playbook Ansible pour le hardening sécurité de serveurs [Ubuntu 22.04/RHEL 9] conformément aux benchmarks CIS Level [1/2]. Le playbook doit couvrir : configuration SSH, gestion des utilisateurs, audit auditd, firewall iptables/nftables, désactivation des services inutiles, et mise à jour automatique. Inclus les handlers et les tags.
Script de provisioning d'environnement
DebutantAutomatiser la mise en place d'un environnement
Écris un script bash/Python pour provisionner automatiquement un environnement de développement complet pour une stack [stack_technique: Node.js/Python/Go]. Le script doit installer les outils, configurer les variables d'environnement, créer les dossiers nécessaires, et inclure une vérification post-installation avec des tests de santé.
Architecture multi-environnements Terraform
AvanceGérer plusieurs environnements avec Terraform
Conçois la structure de dossiers et la stratégie de déploiement Terraform pour gérer 3 environnements (dev, staging, prod) sur [AWS/GCP/Azure]. Inclus : workspace vs répertoires séparés (trade-offs), gestion des tfvars, remote state avec locking, modules partagés, et la stratégie de promotion des changements entre environnements.
Rotation automatique des secrets
AvanceAutomatiser la rotation des secrets
Conçois un système de rotation automatique des secrets pour [AWS Secrets Manager/HashiCorp Vault]. Les secrets à gérer sont : [liste_secrets: DB passwords, API keys, certificates]. Génère le code Lambda/script pour la rotation, la configuration des politiques de rotation, et le mécanisme pour notifier les applications des nouveaux secrets.
Script de backup automatisé
IntermediaireAutomatiser les sauvegardes de bases de données
Écris un script de backup automatisé pour [PostgreSQL/MySQL/MongoDB] qui : effectue des backups complets hebdomadaires et incrémentaux journaliers, chiffre les archives avec GPG, les transfère vers [S3/GCS/Azure Blob], vérifie l'intégrité avec checksums, et envoie une alerte [Slack/email] en cas d'échec. Inclus le cron job correspondant.
Policy as Code avec OPA
AvanceImplémenter des politiques d'infrastructure as code
Génère des politiques Rego pour Open Policy Agent afin de valider que les ressources Kubernetes respectent les règles suivantes : [liste_règles: limites de ressources obligatoires, images approuvées, labels requis, pas de privileged containers]. Inclus les tests unitaires des politiques et l'intégration avec conftest.
Inventaire dynamique Ansible
IntermediaireGénérer dynamiquement l'inventaire Ansible
Crée un script d'inventaire dynamique pour Ansible qui interroge [AWS EC2/GCP Compute/Azure VMs] et groupe les hôtes par [tags: environment, role, application]. Le script doit : authentification via IAM/service account, gestion du cache, filtrage par région/tags, et retourner le format JSON attendu par Ansible.
Drift detection d'infrastructure
AvanceDétecter les changements non contrôlés de l'infra
Conçois un système de détection de drift pour comparer l'état réel de l'infrastructure [AWS/GCP] avec l'état décrit dans Terraform. Inclus : script de comparaison automatique, rapport des différences, catégorisation (critique/warning/info), alerte si drift détecté, et procédure de réconciliation.
Gestion des configurations avec GitOps
IntermediaireImplémenter GitOps pour la gestion des configs
Explique comment implémenter GitOps pour gérer les configurations de [nombre] services avec ArgoCD ou Flux. Inclus : structure du repo de configurations, gestion des secrets avec Sealed Secrets ou SOPS, stratégie de branching, procédure de rollback, et comment gérer les configurations sensibles au contexte (dev vs prod).
Terratest pour modules Terraform
AvanceTester les modules Terraform
Génère des tests d'intégration avec Terratest pour valider un module Terraform qui déploie [ressource]. Les tests doivent vérifier : création des ressources, configuration réseau, sécurité (accès public désactivé, chiffrement actif), et nettoyage automatique. Inclus la structure Go du test et la configuration CI.
CI/CD et Pipelines de Déploiement
Prompts pour construire et optimiser vos pipelines CI/CD
Pipeline GitHub Actions complet
IntermediaireCréer un pipeline CI/CD complet
Génère un pipeline GitHub Actions complet pour une application [language: Node.js/Python/Go/Java] avec : lint et tests unitaires, build et push d'image Docker vers [ECR/GCR/DockerHub], scan de sécurité avec Trivy, déploiement sur [EKS/GKE/AKS] avec Helm, et notifications Slack. Inclus les secrets nécessaires et les environnements de protection.
Stratégie de déploiement Blue/Green
AvanceDéploiement zéro downtime
Conçois une stratégie de déploiement Blue/Green pour [application] sur [Kubernetes/ECS/Elastic Beanstalk]. Inclus : configuration du load balancer pour le routage, procédure de basculement instantané, tests de smoke tests automatiques avant basculement, rollback automatique si les health checks échouent, et gestion de la base de données pendant le déploiement.
Optimisation du cache dans les pipelines
DebutantAccélérer les pipelines CI/CD
Mon pipeline CI pour [framework] prend [durée] minutes à s'exécuter. Propose des stratégies d'optimisation via le cache : quelles dépendances cacher, comment structurer les layers Docker pour maximiser le cache, comment paralléliser les étapes indépendantes, et comment mesurer l'amélioration. Génère la configuration pour GitHub Actions ou GitLab CI.
Pipeline de tests multi-niveaux
IntermediaireStructurer les tests dans le pipeline
Conçois un pipeline de tests à plusieurs niveaux pour [application] : tests unitaires (< 5min), tests d'intégration (< 15min), tests E2E (< 30min), et tests de performance. Définit quand déclencher chaque niveau, comment paralléliser, comment gérer les flaky tests, et comment reporter les résultats dans les PRs.
Gestion des feature flags
IntermediaireDéploiements progressifs avec feature flags
Implémenter un système de feature flags pour permettre des déploiements progressifs de [fonctionnalité]. Recommande un outil (LaunchDarkly, Unleash, Flagsmith), génère le code d'intégration pour [langage_backend], explique comment gérer le rollout par [pourcentage/segment/région], et comment nettoyer les flags obsolètes.
Tests de smoke post-déploiement
DebutantValider automatiquement un déploiement
Génère une suite de smoke tests automatiques à exécuter après chaque déploiement de [application]. Les tests doivent vérifier : disponibilité des endpoints critiques, authentification, [fonctionnalité_critique_1], [fonctionnalité_critique_2], et les dépendances externes (DB, cache, APIs tierces). Génère le code et l'intégration dans le pipeline.
GitLab CI pour microservices
AvanceCI/CD pour monorepo de microservices
Conçois un fichier .gitlab-ci.yml avec des templates réutilisables pour gérer le CI/CD de [nombre] microservices dans un monorepo. Inclus : détection des changements par service (only trigger relevant pipelines), templates de job partagés, gestion des environments GitLab, déploiement séquentiel ou parallèle selon les dépendances entre services.
Versionning sémantique automatique
IntermediaireAutomatiser le versioning des releases
Implémente le versioning sémantique automatique dans mon pipeline CI en utilisant conventional commits. Génère : la configuration commitlint pour valider les commits, le script pour calculer automatiquement la prochaine version (patch/minor/major), la génération automatique du CHANGELOG, et le tagging Git avec déclenchement du pipeline de release.
Pipeline multi-cloud
AvanceDéploiement sur plusieurs clouds simultanément
Conçois un pipeline de déploiement pour une application qui doit être déployée simultanément sur AWS et GCP pour de la redondance géographique. Inclus : gestion des configurations spécifiques à chaque cloud, déploiement parallèle ou séquentiel, tests de validation cross-cloud, et procédure de failover automatique.
Politique de rétention des artifacts
DebutantOptimiser les coûts de stockage des artifacts
Définis et implémente une politique de rétention des artifacts CI/CD (images Docker, binaires, rapports de tests) pour réduire les coûts de stockage. Pour chaque type d'artifact, propose : durée de rétention selon l'environnement, règles de lifecycle sur [ECR/S3/Artifactory], script de nettoyage automatique, et estimation des économies.
Canary deployment avec Argo Rollouts
AvanceDéploiement canary progressif
Génère la configuration Argo Rollouts pour un déploiement canary de [application] qui : démarre à 10% du trafic, augmente progressivement à [20%, 50%, 100%] avec des pauses de [durée], utilise les métriques [Prometheus/Datadog] pour valider chaque étape, et effectue un rollback automatique si [métrique] dépasse [seuil].
Monitoring, Alerting et Observabilité
Prompts pour superviser vos systèmes et réagir aux incidents
Configuration Prometheus et alertes
IntermediaireConfigurer le monitoring Prometheus
Génère la configuration Prometheus et les AlertRules pour monitorer un service [type_service: API REST/worker/base de données] avec des alertes sur : disponibilité (< [SLO]%), latence p99 (> [seuil]ms), taux d'erreur (> [seuil]%), saturation CPU/mémoire, et file d'attente. Inclus les labels pour le routage vers Alertmanager et les runbooks.
Dashboard Grafana pour SRE
IntermediaireCréer un dashboard SRE
Génère le JSON d'un dashboard Grafana pour surveiller les SLIs/SLOs de [service]. Le dashboard doit inclure : taux de disponibilité sur 30 jours, budget d'erreur restant, latence p50/p90/p99, débit (req/s), et panneau d'alertes actives. Utilise des annotations pour les déploiements et inclus les variables de template pour filtrer par environnement.
Runbook d'incident
DebutantDocumenter la résolution d'un incident
Génère un runbook détaillé pour l'incident type [type_incident: OOM/haute latence/base de données inaccessible/certificat expiré] sur [service]. Le runbook doit inclure : symptômes et alertes associées, étapes de diagnostic step-by-step, commandes exactes à exécuter, arbre de décision, actions correctives, et procédure d'escalade.
Distributed tracing avec OpenTelemetry
AvanceImplémenter le tracing distribué
Explique comment instrumenter une application [langage] avec OpenTelemetry pour le distributed tracing. Génère le code d'instrumentation pour : traces automatiques des requêtes HTTP, spans personnalisés pour les opérations critiques, propagation du contexte entre services, et export vers [Jaeger/Tempo/Datadog]. Inclus la configuration et les bonnes pratiques de sampling.
Log aggregation et parsing
IntermediaireCentraliser et analyser les logs
Conçois une stratégie de centralisation des logs pour [nombre] services générant [volume]/jour. Inclus : configuration Fluent Bit pour collecter et parser les logs [format: JSON/nginx/custom], règles de parsing pour extraire les champs clés, politique de rétention et indexation dans [Elasticsearch/Loki], et alertes basées sur les patterns de logs.
SLO et error budget
IntermediaireDéfinir et gérer les SLOs
Aide-moi à définir les SLOs pour [service]. Le service traite [description]. Propose : les SLIs adaptés (disponibilité, latence, fraîcheur), les objectifs réalistes basés sur [données_historiques], la fenêtre de mesure (rolling 30j vs calendaire), le calcul du error budget mensuel, et les politiques de gel des déploiements quand le budget est épuisé.
Détection d'anomalies dans les métriques
AvanceAlertes intelligentes sur les métriques
Mon service présente des pics de latence intermittents difficiles à capturer avec des alertes à seuil fixe. Explique comment implémenter la détection d'anomalies basée sur [algorithme: z-score, machine learning, seasonal decomposition] dans [Prometheus/Datadog/Grafana]. Génère la configuration et les alertes adaptatives.
Post-mortem d'incident
DebutantDocumenter et apprendre des incidents
Aide-moi à rédiger un post-mortem pour l'incident suivant : [description_incident]. La durée a été de [durée], l'impact était [description_impact]. Génère la structure complète : timeline des événements, analyse des causes racines (5 pourquoi), facteurs contributifs, ce qui a bien fonctionné, actions correctives avec propriétaires et délais.
Synthetic monitoring
IntermediaireSurveiller proactivement l'expérience utilisateur
Conçois un système de monitoring synthétique pour surveiller proactivement [application] depuis [nombre] régions géographiques. Inclus : scénarios de test utilisateur à automatiser, fréquence des tests, alertes sur dégradation de performance, intégration avec [Datadog Synthetics/Checkly/Playwright], et tableau de bord de disponibilité géographique.
Corrélation d'événements pour RCA
AvanceAnalyse de cause racine d'incidents complexes
Lors d'un incident complexe impliquant [nombre] services, j'ai des logs, métriques et traces corrélés. Propose une méthodologie d'analyse de cause racine : comment corréler les événements par timestamp, comment identifier le service à l'origine du problème, outils de visualisation de la propagation des erreurs, et comment construire la timeline causale.
Budget d'alertes et réduction du bruit
IntermediaireAméliorer la qualité des alertes
Mon équipe reçoit [nombre] alertes par semaine dont seulement [%] sont actionnables. Propose une stratégie pour réduire le bruit des alertes : audit des alertes existantes, critères pour créer/supprimer/modifier une alerte, groupement des alertes liées, fenêtres de maintenance automatiques, et métriques pour mesurer la qualité des alertes (MTTD, faux positifs).
Sécurité et Conformité
Prompts pour sécuriser l'infrastructure et les pipelines
Audit de sécurité Kubernetes
AvanceAuditer la sécurité d'un cluster Kubernetes
Génère un checklist d'audit de sécurité complet pour un cluster Kubernetes [version] en production. Couvre : RBAC (permissions excessives, service accounts), réseau (NetworkPolicies, ingress rules), pods (privileged, host namespaces, capabilities), secrets management, runtime security (Falco), et conformité CIS Benchmark. Inclus les commandes kubectl pour chaque vérification.
Scan de vulnérabilités dans le pipeline
IntermediaireDevSecOps dans le pipeline CI/CD
Intègre le scan de vulnérabilités à chaque étape du pipeline CI/CD : scan du code source avec [Semgrep/SonarQube], dépendances avec [Dependabot/Snyk], images Docker avec [Trivy/Grype], et IaC avec [Checkov/tfsec]. Génère la configuration pour GitHub Actions, les seuils de blocage, et la gestion des faux positifs.
IAM least privilege
IntermediaireAppliquer le principe du moindre privilège
J'ai un service [description_service] qui s'exécute sur [EC2/Lambda/ECS] et accède à [liste_ressources_AWS]. Génère la politique IAM au principe du moindre privilège avec : les permissions minimales nécessaires, les conditions de restriction (IP, tags, MFA), les ressources spécifiques (pas de wildcards), et explique comment auditer et affiner la politique avec AWS Access Analyzer.
Chiffrement at rest et in transit
DebutantSécuriser les données au repos et en transit
Audite et améliore le chiffrement pour mon infrastructure [description]. Pour le chiffrement au repos : [S3, EBS, RDS, etc.], pour le chiffrement en transit : [TLS configuration, certificate management, mTLS entre services]. Génère les configurations Terraform et identifie les gaps de sécurité actuels.
Gestion centralisée des secrets
AvanceCentraliser la gestion des secrets
Conçois l'architecture de gestion des secrets pour [nombre] services avec HashiCorp Vault ou AWS Secrets Manager. Inclus : hiérarchie des secrets, politiques d'accès par service et environnement, injection des secrets dans les pods Kubernetes via [vault-agent/external-secrets], rotation automatique, et audit trail des accès.
Réponse aux incidents de sécurité
AvanceRépondre aux incidents de sécurité
Génère un playbook de réponse aux incidents de sécurité pour [type_incident: intrusion/fuite de données/cryptominer/credential stuffing]. Le playbook doit inclure : indicateurs de compromission à rechercher, commandes de confinement immédiates, préservation des preuves forensiques, procédure d'éradication, et obligations réglementaires de notification.
Conformité PCI-DSS ou SOC2
AvancePréparer une conformité réglementaire
Je dois préparer mon infrastructure cloud pour la conformité [PCI-DSS niveau 1/SOC2 Type II]. Génère un gap analysis template couvrant les contrôles techniques : segmentation réseau, logs d'audit, gestion des accès, chiffrement, gestion des vulnérabilités. Pour chaque contrôle, indique comment l'implémenter sur [AWS/GCP/Azure] et les preuves à collecter.
Zero Trust Network Architecture
AvanceImplémenter Zero Trust dans Kubernetes
Conçois une architecture Zero Trust pour sécuriser les communications entre [nombre] microservices sur Kubernetes. Inclus : mutual TLS avec cert-manager et service mesh (Istio/Linkerd), NetworkPolicies pour le micro-segmentation, authentification service-to-service, et comment migrer progressivement depuis une architecture périmétrique classique.
Audit des accès et SIEM
AvanceDétecter les activités suspectes
Configure un système de centralisation et d'analyse des logs d'audit pour détecter les activités suspectes sur [AWS CloudTrail/GCP Audit Logs]. Génère les règles de détection pour : accès inhabituels (heures, géolocalisation), élévations de privilèges, accès en masse à des données sensibles, et la configuration de l'export vers [SIEM: Splunk/Elastic SIEM].
Secure baseline pour nouvelles instances
IntermediaireSécuriser automatiquement les nouvelles instances
Crée un script cloud-init ou user-data pour appliquer automatiquement une configuration sécurisée de base sur toutes les nouvelles instances [EC2/VM GCP]. Le script doit : configurer SSH (clés uniquement, port custom, fail2ban), installer les agents de monitoring et sécurité, configurer le firewall, et enregistrer l'instance dans [Ansible/Chef/Puppet].
Tests de pénétration automatisés
IntermediaireAutomatiser les tests de sécurité
Génère un plan de tests de sécurité automatisés à intégrer dans le pipeline CI/CD pour [application web]. Inclus : DAST avec OWASP ZAP (configuration pour CI), tests d'API avec des payloads d'injection, vérification des headers de sécurité, test de la politique CORS, et comment générer des rapports de vulnérabilités exploitables par l'équipe.
Kubernetes et Orchestration
Prompts pour gérer et optimiser vos clusters Kubernetes
Configuration de ressources Kubernetes
DebutantOptimiser les ressources Kubernetes
Aide-moi à définir les resource requests et limits pour mon application [type: API/worker/ML] qui en charge nominale consomme [CPU_moyen] CPU et [RAM_moyenne] RAM, avec des pics à [CPU_max] CPU et [RAM_max] RAM. Explique la différence entre requests et limits, comment éviter OOM kills et CPU throttling, et la stratégie QoS adaptée.
Autoscaling horizontal et vertical
IntermediaireConfigurer l'autoscaling Kubernetes
Configure l'autoscaling pour [application] sur Kubernetes. Compare HPA (scaling horizontal) et VPA (scaling vertical) pour mon cas d'usage [description_charge]. Génère la configuration HPA basée sur CPU/mémoire et métriques custom [métrique], la configuration KEDA pour le scaling événementiel [source: SQS/Kafka/RabbitMQ], et les limites min/max à définir.
Stratégie de scheduling avancée
AvanceOptimiser le placement des pods
J'ai des workloads de différentes priorités sur mon cluster Kubernetes : [workload_critique], [workload_best_effort], et [workload_batch]. Configure : PriorityClasses, nodeSelectors et affinity rules pour placer chaque workload sur les nœuds appropriés, Pod Disruption Budgets pour la haute disponibilité, et la politique d'éviction.
Troubleshooting Kubernetes
DebutantDiagnostiquer des problèmes Kubernetes
Mon pod [nom_pod] dans le namespace [namespace] est en état [CrashLoopBackOff/Pending/OOMKilled/Evicted]. Génère la procédure de diagnostic complète : commandes kubectl à exécuter dans l'ordre, comment interpréter les événements et logs, les causes les plus courantes pour cet état, et les actions correctives correspondantes.
Helm chart pour application
IntermediaireCréer un Helm chart
Génère un Helm chart complet pour déployer [application] qui nécessite : Deployment avec [nombre] réplicas, Service (ClusterIP/LoadBalancer), Ingress avec TLS, ConfigMap, Secret, HPA, et PodDisruptionBudget. Inclus les valeurs par défaut sensées, les hooks pre/post-install, et le NOTES.txt d'aide post-installation.
Network policies pour micro-segmentation
IntermediaireIsoler les workloads avec des network policies
Génère les NetworkPolicies Kubernetes pour implémenter la micro-segmentation dans le namespace [namespace] contenant les services : [liste_services]. Chaque service doit seulement communiquer avec : [matrice_communication]. Inclus les règles pour le monitoring (Prometheus scraping) et les health checks, et vérifie la cohérence des politiques.
Gestion des namespaces et quotas
IntermediaireGérer un cluster multi-tenant
Conçois la stratégie de namespaces pour un cluster Kubernetes partagé entre [nombre] équipes avec [contraintes_ressources]. Génère : la structure de namespaces recommandée, les ResourceQuotas par équipe/environnement, les LimitRanges pour les valeurs par défaut, les RBAC roles pour chaque équipe, et la procédure d'onboarding d'une nouvelle équipe.
Stratégie de backup Kubernetes
AvancePlan de reprise d'activité pour Kubernetes
Conçois une stratégie de backup et disaster recovery pour un cluster Kubernetes en production avec [description_workloads]. Inclus : backup de l'etcd, backup des volumes persistants avec Velero, stratégie de restauration testée régulièrement, RTO et RPO cibles, et procédure de reconstruction du cluster depuis zéro.
Service mesh avec Istio
AvanceImplémenter un service mesh
Explique comment migrer progressivement [application] vers Istio service mesh. Plan de migration : activation namespace par namespace, configuration du mTLS progressif (permissive puis strict), mise en place des traffic management rules pour le canary, configuration des politiques d'autorisation, et impact sur les performances (overhead).
Optimisation des coûts cloud Kubernetes
IntermediaireRéduire les coûts Kubernetes
Mon cluster EKS/GKE coûte [coût_mensuel]/mois. Identifie et implémente des optimisations de coûts : rightsizing des nœuds (spot instances, instance types), analyse des ressources non utilisées (Goldilocks), scheduling des workloads batch sur spot, Cluster Autoscaler configuration, et estimation des économies potentielles.
Conseils de pro
Toujours inclure les contraintes de sécurité
Spécifiez systématiquement vos exigences de sécurité dans vos prompts DevOps : 'En respectant le principe du moindre privilège', 'avec chiffrement au repos et en transit', 'conforme CIS Benchmark'. L'IA intégrera ces contraintes dès le début plutôt que comme une correction a posteriori.
Demandez du code idempotent
Pour tous les scripts d'automatisation, précisez 'le script doit être idempotent (peut être exécuté plusieurs fois sans effet de bord)'. Cela force l'IA à générer du code robuste avec des vérifications avant chaque action.
Précisez votre version des outils
Kubernetes 1.28 vs 1.30, Terraform 1.5 vs 1.9, les APIs et syntaxes changent. Toujours préciser les versions de vos outils pour éviter les configurations obsolètes ou incompatibles.
Demandez les runbooks en même temps que le code
Pour chaque composant d'infrastructure, demandez simultanément : le code de déploiement, le runbook d'opération, et le runbook d'incident. Cette approche documentation-as-code garantit que les procédures existent dès le départ.
Utilisez l'IA pour les revues de code IaC
Collez votre code Terraform/Kubernetes YAML et demandez : 'Identifie les problèmes de sécurité, de performance et les anti-patterns dans ce code'. L'IA détecte souvent des issues subtiles comme les permissions trop larges ou les configurations non optimales.