P

100 Prompts IA pour les DevOps & SRE — Guide Complet

Les ingénieurs DevOps et SRE gèrent des infrastructures complexes où l'automatisation, la fiabilité et la rapidité sont essentielles. Les prompts IA bien conçus permettent d'accélérer la rédaction de scripts, la résolution d'incidents et la conception d'architectures robustes. Ce guide propose 100 prompts pour optimiser chaque aspect du travail DevOps.

Filtrer par niveau :
54 prompts

Infrastructure as Code et Automatisation

Prompts pour Terraform, Ansible, et l'automatisation de l'infrastructure

Module Terraform pour service cloud

Intermediaire

Créer un module Terraform réutilisable

Génère un module Terraform réutilisable pour déployer [service: EKS/RDS/Lambda/ECS] sur AWS dans un environnement [dev/staging/prod]. Le module doit inclure : variables d'entrée avec validation, outputs, gestion des tags, support multi-région, et un README avec les exemples d'utilisation. Respecte les bonnes pratiques de sécurité (IAM least privilege, chiffrement).

Playbook Ansible de hardening

Avance

Sécuriser automatiquement des serveurs

Crée un playbook Ansible pour le hardening sécurité de serveurs [Ubuntu 22.04/RHEL 9] conformément aux benchmarks CIS Level [1/2]. Le playbook doit couvrir : configuration SSH, gestion des utilisateurs, audit auditd, firewall iptables/nftables, désactivation des services inutiles, et mise à jour automatique. Inclus les handlers et les tags.

Script de provisioning d'environnement

Debutant

Automatiser la mise en place d'un environnement

Écris un script bash/Python pour provisionner automatiquement un environnement de développement complet pour une stack [stack_technique: Node.js/Python/Go]. Le script doit installer les outils, configurer les variables d'environnement, créer les dossiers nécessaires, et inclure une vérification post-installation avec des tests de santé.

Architecture multi-environnements Terraform

Avance

Gérer plusieurs environnements avec Terraform

Conçois la structure de dossiers et la stratégie de déploiement Terraform pour gérer 3 environnements (dev, staging, prod) sur [AWS/GCP/Azure]. Inclus : workspace vs répertoires séparés (trade-offs), gestion des tfvars, remote state avec locking, modules partagés, et la stratégie de promotion des changements entre environnements.

Rotation automatique des secrets

Avance

Automatiser la rotation des secrets

Conçois un système de rotation automatique des secrets pour [AWS Secrets Manager/HashiCorp Vault]. Les secrets à gérer sont : [liste_secrets: DB passwords, API keys, certificates]. Génère le code Lambda/script pour la rotation, la configuration des politiques de rotation, et le mécanisme pour notifier les applications des nouveaux secrets.

Script de backup automatisé

Intermediaire

Automatiser les sauvegardes de bases de données

Écris un script de backup automatisé pour [PostgreSQL/MySQL/MongoDB] qui : effectue des backups complets hebdomadaires et incrémentaux journaliers, chiffre les archives avec GPG, les transfère vers [S3/GCS/Azure Blob], vérifie l'intégrité avec checksums, et envoie une alerte [Slack/email] en cas d'échec. Inclus le cron job correspondant.

Policy as Code avec OPA

Avance

Implémenter des politiques d'infrastructure as code

Génère des politiques Rego pour Open Policy Agent afin de valider que les ressources Kubernetes respectent les règles suivantes : [liste_règles: limites de ressources obligatoires, images approuvées, labels requis, pas de privileged containers]. Inclus les tests unitaires des politiques et l'intégration avec conftest.

Inventaire dynamique Ansible

Intermediaire

Générer dynamiquement l'inventaire Ansible

Crée un script d'inventaire dynamique pour Ansible qui interroge [AWS EC2/GCP Compute/Azure VMs] et groupe les hôtes par [tags: environment, role, application]. Le script doit : authentification via IAM/service account, gestion du cache, filtrage par région/tags, et retourner le format JSON attendu par Ansible.

Drift detection d'infrastructure

Avance

Détecter les changements non contrôlés de l'infra

Conçois un système de détection de drift pour comparer l'état réel de l'infrastructure [AWS/GCP] avec l'état décrit dans Terraform. Inclus : script de comparaison automatique, rapport des différences, catégorisation (critique/warning/info), alerte si drift détecté, et procédure de réconciliation.

Gestion des configurations avec GitOps

Intermediaire

Implémenter GitOps pour la gestion des configs

Explique comment implémenter GitOps pour gérer les configurations de [nombre] services avec ArgoCD ou Flux. Inclus : structure du repo de configurations, gestion des secrets avec Sealed Secrets ou SOPS, stratégie de branching, procédure de rollback, et comment gérer les configurations sensibles au contexte (dev vs prod).

Terratest pour modules Terraform

Avance

Tester les modules Terraform

Génère des tests d'intégration avec Terratest pour valider un module Terraform qui déploie [ressource]. Les tests doivent vérifier : création des ressources, configuration réseau, sécurité (accès public désactivé, chiffrement actif), et nettoyage automatique. Inclus la structure Go du test et la configuration CI.

CI/CD et Pipelines de Déploiement

Prompts pour construire et optimiser vos pipelines CI/CD

Pipeline GitHub Actions complet

Intermediaire

Créer un pipeline CI/CD complet

Génère un pipeline GitHub Actions complet pour une application [language: Node.js/Python/Go/Java] avec : lint et tests unitaires, build et push d'image Docker vers [ECR/GCR/DockerHub], scan de sécurité avec Trivy, déploiement sur [EKS/GKE/AKS] avec Helm, et notifications Slack. Inclus les secrets nécessaires et les environnements de protection.

Stratégie de déploiement Blue/Green

Avance

Déploiement zéro downtime

Conçois une stratégie de déploiement Blue/Green pour [application] sur [Kubernetes/ECS/Elastic Beanstalk]. Inclus : configuration du load balancer pour le routage, procédure de basculement instantané, tests de smoke tests automatiques avant basculement, rollback automatique si les health checks échouent, et gestion de la base de données pendant le déploiement.

Optimisation du cache dans les pipelines

Debutant

Accélérer les pipelines CI/CD

Mon pipeline CI pour [framework] prend [durée] minutes à s'exécuter. Propose des stratégies d'optimisation via le cache : quelles dépendances cacher, comment structurer les layers Docker pour maximiser le cache, comment paralléliser les étapes indépendantes, et comment mesurer l'amélioration. Génère la configuration pour GitHub Actions ou GitLab CI.

Pipeline de tests multi-niveaux

Intermediaire

Structurer les tests dans le pipeline

Conçois un pipeline de tests à plusieurs niveaux pour [application] : tests unitaires (< 5min), tests d'intégration (< 15min), tests E2E (< 30min), et tests de performance. Définit quand déclencher chaque niveau, comment paralléliser, comment gérer les flaky tests, et comment reporter les résultats dans les PRs.

Gestion des feature flags

Intermediaire

Déploiements progressifs avec feature flags

Implémenter un système de feature flags pour permettre des déploiements progressifs de [fonctionnalité]. Recommande un outil (LaunchDarkly, Unleash, Flagsmith), génère le code d'intégration pour [langage_backend], explique comment gérer le rollout par [pourcentage/segment/région], et comment nettoyer les flags obsolètes.

Tests de smoke post-déploiement

Debutant

Valider automatiquement un déploiement

Génère une suite de smoke tests automatiques à exécuter après chaque déploiement de [application]. Les tests doivent vérifier : disponibilité des endpoints critiques, authentification, [fonctionnalité_critique_1], [fonctionnalité_critique_2], et les dépendances externes (DB, cache, APIs tierces). Génère le code et l'intégration dans le pipeline.

GitLab CI pour microservices

Avance

CI/CD pour monorepo de microservices

Conçois un fichier .gitlab-ci.yml avec des templates réutilisables pour gérer le CI/CD de [nombre] microservices dans un monorepo. Inclus : détection des changements par service (only trigger relevant pipelines), templates de job partagés, gestion des environments GitLab, déploiement séquentiel ou parallèle selon les dépendances entre services.

Versionning sémantique automatique

Intermediaire

Automatiser le versioning des releases

Implémente le versioning sémantique automatique dans mon pipeline CI en utilisant conventional commits. Génère : la configuration commitlint pour valider les commits, le script pour calculer automatiquement la prochaine version (patch/minor/major), la génération automatique du CHANGELOG, et le tagging Git avec déclenchement du pipeline de release.

Pipeline multi-cloud

Avance

Déploiement sur plusieurs clouds simultanément

Conçois un pipeline de déploiement pour une application qui doit être déployée simultanément sur AWS et GCP pour de la redondance géographique. Inclus : gestion des configurations spécifiques à chaque cloud, déploiement parallèle ou séquentiel, tests de validation cross-cloud, et procédure de failover automatique.

Politique de rétention des artifacts

Debutant

Optimiser les coûts de stockage des artifacts

Définis et implémente une politique de rétention des artifacts CI/CD (images Docker, binaires, rapports de tests) pour réduire les coûts de stockage. Pour chaque type d'artifact, propose : durée de rétention selon l'environnement, règles de lifecycle sur [ECR/S3/Artifactory], script de nettoyage automatique, et estimation des économies.

Canary deployment avec Argo Rollouts

Avance

Déploiement canary progressif

Génère la configuration Argo Rollouts pour un déploiement canary de [application] qui : démarre à 10% du trafic, augmente progressivement à [20%, 50%, 100%] avec des pauses de [durée], utilise les métriques [Prometheus/Datadog] pour valider chaque étape, et effectue un rollback automatique si [métrique] dépasse [seuil].

Monitoring, Alerting et Observabilité

Prompts pour superviser vos systèmes et réagir aux incidents

Configuration Prometheus et alertes

Intermediaire

Configurer le monitoring Prometheus

Génère la configuration Prometheus et les AlertRules pour monitorer un service [type_service: API REST/worker/base de données] avec des alertes sur : disponibilité (< [SLO]%), latence p99 (> [seuil]ms), taux d'erreur (> [seuil]%), saturation CPU/mémoire, et file d'attente. Inclus les labels pour le routage vers Alertmanager et les runbooks.

Dashboard Grafana pour SRE

Intermediaire

Créer un dashboard SRE

Génère le JSON d'un dashboard Grafana pour surveiller les SLIs/SLOs de [service]. Le dashboard doit inclure : taux de disponibilité sur 30 jours, budget d'erreur restant, latence p50/p90/p99, débit (req/s), et panneau d'alertes actives. Utilise des annotations pour les déploiements et inclus les variables de template pour filtrer par environnement.

Runbook d'incident

Debutant

Documenter la résolution d'un incident

Génère un runbook détaillé pour l'incident type [type_incident: OOM/haute latence/base de données inaccessible/certificat expiré] sur [service]. Le runbook doit inclure : symptômes et alertes associées, étapes de diagnostic step-by-step, commandes exactes à exécuter, arbre de décision, actions correctives, et procédure d'escalade.

Distributed tracing avec OpenTelemetry

Avance

Implémenter le tracing distribué

Explique comment instrumenter une application [langage] avec OpenTelemetry pour le distributed tracing. Génère le code d'instrumentation pour : traces automatiques des requêtes HTTP, spans personnalisés pour les opérations critiques, propagation du contexte entre services, et export vers [Jaeger/Tempo/Datadog]. Inclus la configuration et les bonnes pratiques de sampling.

Log aggregation et parsing

Intermediaire

Centraliser et analyser les logs

Conçois une stratégie de centralisation des logs pour [nombre] services générant [volume]/jour. Inclus : configuration Fluent Bit pour collecter et parser les logs [format: JSON/nginx/custom], règles de parsing pour extraire les champs clés, politique de rétention et indexation dans [Elasticsearch/Loki], et alertes basées sur les patterns de logs.

SLO et error budget

Intermediaire

Définir et gérer les SLOs

Aide-moi à définir les SLOs pour [service]. Le service traite [description]. Propose : les SLIs adaptés (disponibilité, latence, fraîcheur), les objectifs réalistes basés sur [données_historiques], la fenêtre de mesure (rolling 30j vs calendaire), le calcul du error budget mensuel, et les politiques de gel des déploiements quand le budget est épuisé.

Détection d'anomalies dans les métriques

Avance

Alertes intelligentes sur les métriques

Mon service présente des pics de latence intermittents difficiles à capturer avec des alertes à seuil fixe. Explique comment implémenter la détection d'anomalies basée sur [algorithme: z-score, machine learning, seasonal decomposition] dans [Prometheus/Datadog/Grafana]. Génère la configuration et les alertes adaptatives.

Post-mortem d'incident

Debutant

Documenter et apprendre des incidents

Aide-moi à rédiger un post-mortem pour l'incident suivant : [description_incident]. La durée a été de [durée], l'impact était [description_impact]. Génère la structure complète : timeline des événements, analyse des causes racines (5 pourquoi), facteurs contributifs, ce qui a bien fonctionné, actions correctives avec propriétaires et délais.

Synthetic monitoring

Intermediaire

Surveiller proactivement l'expérience utilisateur

Conçois un système de monitoring synthétique pour surveiller proactivement [application] depuis [nombre] régions géographiques. Inclus : scénarios de test utilisateur à automatiser, fréquence des tests, alertes sur dégradation de performance, intégration avec [Datadog Synthetics/Checkly/Playwright], et tableau de bord de disponibilité géographique.

Corrélation d'événements pour RCA

Avance

Analyse de cause racine d'incidents complexes

Lors d'un incident complexe impliquant [nombre] services, j'ai des logs, métriques et traces corrélés. Propose une méthodologie d'analyse de cause racine : comment corréler les événements par timestamp, comment identifier le service à l'origine du problème, outils de visualisation de la propagation des erreurs, et comment construire la timeline causale.

Budget d'alertes et réduction du bruit

Intermediaire

Améliorer la qualité des alertes

Mon équipe reçoit [nombre] alertes par semaine dont seulement [%] sont actionnables. Propose une stratégie pour réduire le bruit des alertes : audit des alertes existantes, critères pour créer/supprimer/modifier une alerte, groupement des alertes liées, fenêtres de maintenance automatiques, et métriques pour mesurer la qualité des alertes (MTTD, faux positifs).

Sécurité et Conformité

Prompts pour sécuriser l'infrastructure et les pipelines

Audit de sécurité Kubernetes

Avance

Auditer la sécurité d'un cluster Kubernetes

Génère un checklist d'audit de sécurité complet pour un cluster Kubernetes [version] en production. Couvre : RBAC (permissions excessives, service accounts), réseau (NetworkPolicies, ingress rules), pods (privileged, host namespaces, capabilities), secrets management, runtime security (Falco), et conformité CIS Benchmark. Inclus les commandes kubectl pour chaque vérification.

Scan de vulnérabilités dans le pipeline

Intermediaire

DevSecOps dans le pipeline CI/CD

Intègre le scan de vulnérabilités à chaque étape du pipeline CI/CD : scan du code source avec [Semgrep/SonarQube], dépendances avec [Dependabot/Snyk], images Docker avec [Trivy/Grype], et IaC avec [Checkov/tfsec]. Génère la configuration pour GitHub Actions, les seuils de blocage, et la gestion des faux positifs.

IAM least privilege

Intermediaire

Appliquer le principe du moindre privilège

J'ai un service [description_service] qui s'exécute sur [EC2/Lambda/ECS] et accède à [liste_ressources_AWS]. Génère la politique IAM au principe du moindre privilège avec : les permissions minimales nécessaires, les conditions de restriction (IP, tags, MFA), les ressources spécifiques (pas de wildcards), et explique comment auditer et affiner la politique avec AWS Access Analyzer.

Chiffrement at rest et in transit

Debutant

Sécuriser les données au repos et en transit

Audite et améliore le chiffrement pour mon infrastructure [description]. Pour le chiffrement au repos : [S3, EBS, RDS, etc.], pour le chiffrement en transit : [TLS configuration, certificate management, mTLS entre services]. Génère les configurations Terraform et identifie les gaps de sécurité actuels.

Gestion centralisée des secrets

Avance

Centraliser la gestion des secrets

Conçois l'architecture de gestion des secrets pour [nombre] services avec HashiCorp Vault ou AWS Secrets Manager. Inclus : hiérarchie des secrets, politiques d'accès par service et environnement, injection des secrets dans les pods Kubernetes via [vault-agent/external-secrets], rotation automatique, et audit trail des accès.

Réponse aux incidents de sécurité

Avance

Répondre aux incidents de sécurité

Génère un playbook de réponse aux incidents de sécurité pour [type_incident: intrusion/fuite de données/cryptominer/credential stuffing]. Le playbook doit inclure : indicateurs de compromission à rechercher, commandes de confinement immédiates, préservation des preuves forensiques, procédure d'éradication, et obligations réglementaires de notification.

Conformité PCI-DSS ou SOC2

Avance

Préparer une conformité réglementaire

Je dois préparer mon infrastructure cloud pour la conformité [PCI-DSS niveau 1/SOC2 Type II]. Génère un gap analysis template couvrant les contrôles techniques : segmentation réseau, logs d'audit, gestion des accès, chiffrement, gestion des vulnérabilités. Pour chaque contrôle, indique comment l'implémenter sur [AWS/GCP/Azure] et les preuves à collecter.

Zero Trust Network Architecture

Avance

Implémenter Zero Trust dans Kubernetes

Conçois une architecture Zero Trust pour sécuriser les communications entre [nombre] microservices sur Kubernetes. Inclus : mutual TLS avec cert-manager et service mesh (Istio/Linkerd), NetworkPolicies pour le micro-segmentation, authentification service-to-service, et comment migrer progressivement depuis une architecture périmétrique classique.

Audit des accès et SIEM

Avance

Détecter les activités suspectes

Configure un système de centralisation et d'analyse des logs d'audit pour détecter les activités suspectes sur [AWS CloudTrail/GCP Audit Logs]. Génère les règles de détection pour : accès inhabituels (heures, géolocalisation), élévations de privilèges, accès en masse à des données sensibles, et la configuration de l'export vers [SIEM: Splunk/Elastic SIEM].

Secure baseline pour nouvelles instances

Intermediaire

Sécuriser automatiquement les nouvelles instances

Crée un script cloud-init ou user-data pour appliquer automatiquement une configuration sécurisée de base sur toutes les nouvelles instances [EC2/VM GCP]. Le script doit : configurer SSH (clés uniquement, port custom, fail2ban), installer les agents de monitoring et sécurité, configurer le firewall, et enregistrer l'instance dans [Ansible/Chef/Puppet].

Tests de pénétration automatisés

Intermediaire

Automatiser les tests de sécurité

Génère un plan de tests de sécurité automatisés à intégrer dans le pipeline CI/CD pour [application web]. Inclus : DAST avec OWASP ZAP (configuration pour CI), tests d'API avec des payloads d'injection, vérification des headers de sécurité, test de la politique CORS, et comment générer des rapports de vulnérabilités exploitables par l'équipe.

Kubernetes et Orchestration

Prompts pour gérer et optimiser vos clusters Kubernetes

Configuration de ressources Kubernetes

Debutant

Optimiser les ressources Kubernetes

Aide-moi à définir les resource requests et limits pour mon application [type: API/worker/ML] qui en charge nominale consomme [CPU_moyen] CPU et [RAM_moyenne] RAM, avec des pics à [CPU_max] CPU et [RAM_max] RAM. Explique la différence entre requests et limits, comment éviter OOM kills et CPU throttling, et la stratégie QoS adaptée.

Autoscaling horizontal et vertical

Intermediaire

Configurer l'autoscaling Kubernetes

Configure l'autoscaling pour [application] sur Kubernetes. Compare HPA (scaling horizontal) et VPA (scaling vertical) pour mon cas d'usage [description_charge]. Génère la configuration HPA basée sur CPU/mémoire et métriques custom [métrique], la configuration KEDA pour le scaling événementiel [source: SQS/Kafka/RabbitMQ], et les limites min/max à définir.

Stratégie de scheduling avancée

Avance

Optimiser le placement des pods

J'ai des workloads de différentes priorités sur mon cluster Kubernetes : [workload_critique], [workload_best_effort], et [workload_batch]. Configure : PriorityClasses, nodeSelectors et affinity rules pour placer chaque workload sur les nœuds appropriés, Pod Disruption Budgets pour la haute disponibilité, et la politique d'éviction.

Troubleshooting Kubernetes

Debutant

Diagnostiquer des problèmes Kubernetes

Mon pod [nom_pod] dans le namespace [namespace] est en état [CrashLoopBackOff/Pending/OOMKilled/Evicted]. Génère la procédure de diagnostic complète : commandes kubectl à exécuter dans l'ordre, comment interpréter les événements et logs, les causes les plus courantes pour cet état, et les actions correctives correspondantes.

Helm chart pour application

Intermediaire

Créer un Helm chart

Génère un Helm chart complet pour déployer [application] qui nécessite : Deployment avec [nombre] réplicas, Service (ClusterIP/LoadBalancer), Ingress avec TLS, ConfigMap, Secret, HPA, et PodDisruptionBudget. Inclus les valeurs par défaut sensées, les hooks pre/post-install, et le NOTES.txt d'aide post-installation.

Network policies pour micro-segmentation

Intermediaire

Isoler les workloads avec des network policies

Génère les NetworkPolicies Kubernetes pour implémenter la micro-segmentation dans le namespace [namespace] contenant les services : [liste_services]. Chaque service doit seulement communiquer avec : [matrice_communication]. Inclus les règles pour le monitoring (Prometheus scraping) et les health checks, et vérifie la cohérence des politiques.

Gestion des namespaces et quotas

Intermediaire

Gérer un cluster multi-tenant

Conçois la stratégie de namespaces pour un cluster Kubernetes partagé entre [nombre] équipes avec [contraintes_ressources]. Génère : la structure de namespaces recommandée, les ResourceQuotas par équipe/environnement, les LimitRanges pour les valeurs par défaut, les RBAC roles pour chaque équipe, et la procédure d'onboarding d'une nouvelle équipe.

Stratégie de backup Kubernetes

Avance

Plan de reprise d'activité pour Kubernetes

Conçois une stratégie de backup et disaster recovery pour un cluster Kubernetes en production avec [description_workloads]. Inclus : backup de l'etcd, backup des volumes persistants avec Velero, stratégie de restauration testée régulièrement, RTO et RPO cibles, et procédure de reconstruction du cluster depuis zéro.

Service mesh avec Istio

Avance

Implémenter un service mesh

Explique comment migrer progressivement [application] vers Istio service mesh. Plan de migration : activation namespace par namespace, configuration du mTLS progressif (permissive puis strict), mise en place des traffic management rules pour le canary, configuration des politiques d'autorisation, et impact sur les performances (overhead).

Optimisation des coûts cloud Kubernetes

Intermediaire

Réduire les coûts Kubernetes

Mon cluster EKS/GKE coûte [coût_mensuel]/mois. Identifie et implémente des optimisations de coûts : rightsizing des nœuds (spot instances, instance types), analyse des ressources non utilisées (Goldilocks), scheduling des workloads batch sur spot, Cluster Autoscaler configuration, et estimation des économies potentielles.

Conseils de pro

Toujours inclure les contraintes de sécurité

Spécifiez systématiquement vos exigences de sécurité dans vos prompts DevOps : 'En respectant le principe du moindre privilège', 'avec chiffrement au repos et en transit', 'conforme CIS Benchmark'. L'IA intégrera ces contraintes dès le début plutôt que comme une correction a posteriori.

Demandez du code idempotent

Pour tous les scripts d'automatisation, précisez 'le script doit être idempotent (peut être exécuté plusieurs fois sans effet de bord)'. Cela force l'IA à générer du code robuste avec des vérifications avant chaque action.

Précisez votre version des outils

Kubernetes 1.28 vs 1.30, Terraform 1.5 vs 1.9, les APIs et syntaxes changent. Toujours préciser les versions de vos outils pour éviter les configurations obsolètes ou incompatibles.

Demandez les runbooks en même temps que le code

Pour chaque composant d'infrastructure, demandez simultanément : le code de déploiement, le runbook d'opération, et le runbook d'incident. Cette approche documentation-as-code garantit que les procédures existent dès le départ.

Utilisez l'IA pour les revues de code IaC

Collez votre code Terraform/Kubernetes YAML et demandez : 'Identifie les problèmes de sécurité, de performance et les anti-patterns dans ce code'. L'IA détecte souvent des issues subtiles comme les permissions trop larges ou les configurations non optimales.