L’impact de l’AIOps sur la gestion des opérations informatique est indéniable. En effet, l’AIops tire parti du Machine Learning et d’autres technologies d’intelligence artificielle pour automatiser et améliorer la fourniture et la gestion des services informatiques. Les solutions AIOps sont très performantes car elles permettent de superviser en continue la performance de votre infrastructure et les indicateurs tels que le temps de réponse, le débit et l’utilisation des ressources en signalant automatiquement les écarts par rapport au comportement normal.
En utilisant les algorithmes de Machine Learning, les plateformes peuvent également identifier les tendances en matière de performances et mettre en place des recommandations de manière proactive pour améliorer l’efficacité de votre base de données. De plus, les données de performances historiques et les analyses prédictives auxquelles une solution AIOps peut accéder aideront votre entreprise à anticiper et prédire les pannes de votre infrastructure ou la dégradation des performances afin de minimiser les interruptions de service et de garantir un accès ininterrompu aux données critiques.
Être en mesure d’éviter les interruptions de service et de répondre aux alertes vous aidera à réduire le nombre de faux positifs déclenchés par votre système ITSM.
Qu’est-ce qu’un faux positif ? Quelles en sont les causes et les conséquences ? Comment les éviter ? Nous répondons à toutes ces questions dans cet article.
Les causes et les conséquences indésirables des faux positifs
Les faux positifs dans la gestion des services informatiques (ITSM) font référence au déclenchement erroné d’une alerte ou d’une notification pour indiquer un problème au sein de l’infrastructure informatique. Et, une fois l’enquête effectuée par le service desk, il est déterminé qu’aucun problème réel n’existe ou que le problème n’est pas suffisamment important pour mériter une attention particulière. Ces faux positifs peuvent avoir de nombreuses conséquences indésirables pour votre infrastructure informatique :
- Mauvaise configuration des seuils de surveillance : une mauvaise configuration des seuils de surveillance peut déclencher des faux positifs. Par exemple, si les seuils d’un indicateur de performance tel que l’utilisation du processeur sont mal définis (même des variations normales du comportement du système peuvent déclencher des alertes), il peut y avoir des faux positifs.
- Problèmes temporaires : des pics de courte durée dans le trafic réseau ou des fluctuations de performance temporaires du système peuvent déclencher des faux positifs si les systèmes de supervision informatique interprètent les pics comme étant indicateur d’un problème plus important. Parfois, les problèmes temporaires se résolvent d’eux-mêmes, mais ils peuvent nécessiter l’assistance directe des équipes informatiques.
- Limites des outils de supervision : certains outils de surveillance informatique n’ont pas la capacité de faire la distinction entre les fluctuations normales des performances du système et les problèmes réels, ce qui peut entraîner des faux positifs.
- Défaillance des dépendances : des faux positifs peuvent survenir en raison du mauvais fonctionnement des dépendances entre différents composants de l’infrastructure informatique, rendant difficile la cartographie des dépendances ainsi que l’analyse des causes racines. Par exemple, une panne dans un système peut déclencher des alertes pour d’autres systèmes dépendants qui ne rencontrent pas de problèmes.
- Désensibilisation aux alertes de sécurité : lorsque les alertes ne correspondent pas systématiquement à un problème ou ne nécessitent aucune une action, les équipes IT peuvent devenir insensible aux alertes ; ce qui peut entraîner une diminution de la réactivité et de la négligence dans la détection de problèmes informatiques.
- Informations contextuelles inadéquates : sans un contexte suffisant sur l’environnement informatique, l’impact commercial ou les données de performances historiques, les équipes informatiques peuvent avoir du mal à faire la distinction entre les problèmes réels et les anomalies passagères, ce qui conduit à davantage de faux positifs.
- Erreurs manuelles : des faux positifs peuvent résulter d’erreurs manuelles (erreur humaine dans la configuration des outils de surveillance) ou d’une mauvaise interprétation des données de surveillance par le service desk.
8 bonnes pratiques pour réduire les taux de faux positifs
En ce qui concerne la gestion des services IT, les seuils de recommandations sont définis afin de mesurer la performance de votre infrastructure. Ces recommandations peuvent varier en fonction du contexte, des outils utilisés et des exigences organisationnelles. Cependant, voici quelques bonnes pratiques qui, une fois adoptées, peuvent réduire efficacement les alertes liées aux faux positifs au sein de votre plateforme ITSM et améliorer l’efficacité opérationnelle de votre entreprise.
- Définir des règles pour identifier les faux positifs : établissez une base de référence d’un comportement normal du système avant de définir un seuil. Par exemple, si un réseau connaît généralement un trafic plus élevé en semaine entre 9 h 00 et 17 h 00, ce schéma doit être intégré aux règles afin de faciliter la différenciation entre les pics normaux et les problèmes potentiels en dehors de ces heures de pointe. La référence sera spécifique à votre environnement professionnel et devra prendre en compte les modèles d’utilisation typiques, les indicateurs de performance et toutes les fluctuations connues, tout ce qui est considéré comme « normal » et utilisé pour mesurer la performance du produit.
- Ajuster les alertes et les seuils : ajustez les seuils pour les indicateurs de performance (par exemple, les taux d’erreur) en fonction des données historiques et des habitudes d’utilisation observées. Assurez-vous de revoir et d’ajuster régulièrement ces seuils au fil du temps. Pour ce faire, vous pouvez mettre en place des rappels automatiques trimestriels sur votre calendrier ou votre outil de gestion de projet.
- Tirer parti de l’analyse statistique : définissez des seuils d’alertes en fonction des données historiques, à l’aide d’une analyse de l’écart type ou du Z-score. Ces seuils s’ajusteront aux fluctuations des indicateurs de performance, plutôt que de rester inchangés. Ainsi, les faux positifs causés par des pics ou des fluctuations temporaires seront réduits.
- Contextualiser les alertes : intégrez des informations contextuelles en configurant les alertes au sein de votre plateforme ITSM afin de les hiérarchiser en fonction de leur impact sur les services critiques ou les processus métier. Il est important de savoir, par exemple, quel service de l’entreprise sera affecté ou qui aura la charge d’une tâche ?
- Analyse de corrélation et des causes racines : mettez en œuvre une analyse de corrélation et des causes profondes pour identifier les problèmes sous-jacents et réduire les alertes corrélées : cela s’attaque à la cause profonde, et pas seulement aux symptômes du problème.
- Optimiser les alertes grâce aux feedback : encouragez l’équipe IT à fournir des commentaires sur l’exactitude et la pertinence des alertes. Utilisez ensuite leurs retours pour optimiser les règles d’alertes, les seuils et la logique de corrélation au fil du temps.
- Remédiation automatisée : mettez en place des actions de remédiation automatisées pour les problèmes informatiques connus et/ou les tâches de maintenance de routine. Cela réduit le besoin d’intervention manuelle et minimise les faux positifs causés par des problèmes temporaires. La mise en œuvre d’actions correctives automatisées peut être effectuée en définissant des workflows clairs et en les passant régulièrement en revue pour s’assurer qu’elles restent alignées avec les objectifs de votre organisation.
- Collaboration et partage de connaissances : encouragez la collaboration interfonctionnelle entre toutes les équipes de votre organisation afin de favoriser la collaboration et le partage de connaissances au sein du service informatique.
Quelques-unes de ces pratiques font partie intégrante des solutions AIOps. Si vous souhaitez mettre en place ces bonnes pratiques au sein de votre organisation, n’hésitez pas à vous rapprocher d’un expert qui vous accompagnera dans la définition de vos besoins.
Les impacts de l’analyse de l’écart type et du Z-score sur les faux positifs
Pour réduire davantage les faux positifs, l’analyse de l’écart type et du Z-score peut être utilisée afin de fournir un cadre statistique facilitant la compréhension et la détection des anomalies dans les données qui se trouvent au sein de votre plateforme AIOps. Voici comment :
Écart type
L’écart type est une mesure de la variabilité d’un ensemble de données. Un écart type permet de déterminer dans quelle mesure les points de données diffèrent de la moyenne. Dans le cas des plateformes AIOps, il est souvent utilisé pour établir des seuils de comportement normal sur la base des données historiques du système (par exemple, les temps de réponse ou le trafic réseau) et déterminer quelles déviations sont indicatrices d’une anomalie ou d’un problème nécessitant d’être analysé de plus près. Une fois les seuils d’alertes définis, les plateformes AIOps peuvent exploiter ces informations tirées des mesures d’écart type pour déclencher des alertes et lancer des actions correctives automatisées.
Analyse du Z-score
L’analyse du Z-score est une méthode permettant d’évaluer le nombre d’écarts types d’un point de données par rapport à la moyenne des autres valeurs. L’analyse détermine l’écart entre un point de données et la moyenne (en termes d’écarts types).
Une analyse Z-score est utilisée pour améliorer la granularité de la détection des anomalies en fournissant une mesure plus précise de l’importance statistique des écarts pour les solutions AIOps. Un Z-score élevé indique qu’un point de données est loin de la moyenne, ce qui suggère une anomalie importante. En tirant parti d’une analyse Z-score pour votre solution AIOps, vous pouvez hiérarchiser les alertes informatiques et concentrer votre attention sur les anomalies les plus critiques détectées. Ainsi, vous pouvez facilement identifier et faire la différence entre des fluctuations sans grand impact et des problèmes critiques nécessitant d’être traités immédiatement. Le Z-score facilite également une analyse comparative sur différents ensembles de données et différentes périodes afin de permettre à votre système AIOps d’identifier les tendances et les anomalies qui apparaissent.
L’analyse de l’écart type et du Z-score ne sont pas les seules méthodes de détection d’anomalies dans les plateformes AIOps. Ce sont des outils qui améliorent l’efficacité des prédictions AIOps en fournissant des statistiques pour identifier les anomalies dans les données de votre système. En intégrant ces méthodes dans des algorithmes de détection des faux positifs, les plateformes AIOps peuvent améliorer la précision des prédictions ; ce qui permettra à votre équipe IT de gérer de manière proactive votre infrastructure informatique.
Fini les faux positifs !
Maintenant que nous connaissons les causes et les conséquences des faux positifs ainsi que comment les réduire, il est évident qu’il faut mettre en place les bons outils qui faciliteront l’analyse et la détection des positifs. Il est également important de mettre en place des processus et des règles standards pour qu’ils servent de référence lors de déclenchement d’alertes. Vous aurez ainsi un système d’alerte plus clair et plus fiable.
N’oubliez pas que dans l’écosystème numérique, les faux positifs sont bien plus que de simples désagréments ; ce sont des obstacles à l’efficacité et à la précision de vos services. En appliquant les méthodes ci-dessus et en adoptant la solution AIOps efficace, vous pouvez transformer ces obstacles en opportunités afin d’améliorer la précision opérationnelle et standardiser vos processus informatiques.