A AIOps inaugura um futuro brilhante para as operações de gestão de serviços de IT (ITSM). Aproveita técnicas de inteligência artificial (AI) e aprendizagem automática (ML) para automatizar e melhorar vários aspetos da prestação e gestão de serviços de IT. As plataformas AIOps são muito importantes porque monitorizam continuamente as métricas de desempenho da base de dados, como o tempo de resposta, a taxa de transferência e a utilização de recursos, sinalizando automaticamente os desvios do comportamento normal. É perturbador.
Ao utilizar estes algoritmos de ML, as plataformas podem também identificar tendências de desempenho e recomendar proativamente otimizações para aumentar a eficiência da base de dados. Em particular, os dados históricos de desempenho e a análise preditiva que a AIOps pode aceder ajudarão a sua empresa a prever possíveis falhas na base de dados ou a degradação de desempenho para minimizar o tempo de inatividade e garantir acesso ininterrupto a dados críticos.
A capacidade de o fazer, ininterruptamente, e de responder às notificações corretas, significa que, finalmente, reduz a quantidade de falsos positivos que o seu sistema ITSM aciona. Esta publicação do blog abordará o que são os falsos positivos em ITSM, as suas consequências e duas estruturas estatísticas que pode implementar nas suas plataformas para reduzir a probabilidade de ocorrência de falsos positivos.
Consequências e Causas de Falsos Positivos em ITSM
Os falsos positivos na Gestão de Serviços de IT (ITSM) referem-se a casos em que é gerado um alerta ou notificação para indicar um problema na infraestrutura de IT. E, uma vez investigado, determina-se que não existe qualquer problema real ou que o problema não é suficientemente significativo para merecer atenção. Além de serem ruidosos e irritantes, essts falsos positivos têm muitas consequências e causas adversas no ITSM:
- Limites de Monitorização Configurados Incorretamente: Os limites de monitorização configurados incorretamente podem acionar falsos positivos. Por exemplo, se os limites para uma métrica de desempenho, como o uso da CPU, forem definidos de forma muito agressiva (mesmo variações normais no comportamento do sistema podem acionar alertas), poderá haver falsos positivos.
- Problemas Transitórios: Os picos de curta duração no tráfego de rede ou flutuações temporárias no desempenho do sistema podem desencadear falsos positivos se os sistemas de monitorização de IT interpretarem os picos como indicadores de problemas maiores. Por vezes, os problemas transitórios resolvem-se por conta própria, mas outras vezes precisavam da assistência direta das equipas de IT.
- Limitações da Ferramenta de Monitorização: Algumas ferramentas de monitorização de IT não conseguem distinguir entre flutuações normais no desempenho do sistema e problemas genuínos, o que pode resultar em falsos positivos.
- Falhas de Dependência: Podem ocorrer falsos positivos devido a dependências entre diferentes componentes da infraestrutura de IT que não possuem a correlação adequada e a análise de causa raiz. Por exemplo, uma falha num sistema pode desencadear alertas para sistemas a jusante que não estão realmente a ter problemas.
- Fadiga de Alarme: Quando os alertas falham consistentemente em refletir problemas genuínos ou não requerem qualquer ação, a equipa de IT pode ficar insensível aos alertas (também conhecida como fadiga de alarme), o que pode levar à diminuição da capacidade de resposta e à negligência de problemas genuínos de IT.
- Informações Contextuais Inadequadas: Sem contexto suficiente sobre o ambiente de IT mais amplo, o impacto nos negócios ou os dados históricos de desempenho, as equipas de IT podem ter dificuldade para distinguir entre problemas genuínos e anomalias transitórias—levando a mais falsos positivos.
- Erros Manuais: Os falsos positivos podem ocorrer devido a erros manuais (erro humano na configuração das ferramentas de monitorização) ou à interpretação incorreta dos dados de monitorização pela equipa de IT.
8 Melhores Práticas de Recomendação do Limite de Falsos Positivos do ITSM
No contexto de falsos positivos para ITSM, as recomendações de limiares são limites pré-determinados utilizados para medir o desempenho de uma métrica ou valor. Estas recomendações podem variar consoante o contexto específico, das ferramentas utilizadas e dos requisitos organizacionais. No entanto, aqui estão algumas recomendações gerais que, quando adotadas, podem reduzir efetivamente os falsos positivos nas notificações de alerta da sua plataforma ITSM e melhorar a eficiência operacional do seu negócio.
- Linha de Base Do Que É Normal: Estabeleça uma linha de base do comportamento normal do sistema antes de definir um limite (é preciso saber de onde se está a começar). Por exemplo, se uma rede normalmente apresenta volumes de tráfego mais elevados durante a semana, entre as 9h e as 17h, esse padrão deve ser incorporado à linha de base, permitindo uma diferenciação mais precisa entre picos normais e possíveis problemas fora destas horas de pico. A linha de base será específica para o seu ambiente empresarial e deverá considerar padrões de utilização típicos, métricas de desempenho e quaisquer flutuações conhecidas—tudo o que é considerado “normal” e utilizado para medir o desempenho do produto.
- Ajuste de Alertas e Limites: Ajuste os limites para métricas de desempenho (por exemplo, taxas de erro) com base em dados históricos e padrões observados. Certifique-se de rever e ajustar regularmente estes limites ao longo do tempo. DICA: Pode ser útil definir um lembrete no seu calendário ou ferramenta de gestão de projetos para fazer isto trimestralmente.
- Utilize Análise Estatística: Defina os limites dinamicamente com base em dados históricos, utilizando o desvio padrão ou análise de pontuação Z. Estes limites dinâmicos ajustam-se às flutuações da métrica de desempenho, em vez de permanecerem inalterados (ou seja, fixos)—reduzindo os falsos positivos causados por picos ou flutuações temporárias.
- Contextualizar Alertas: Incorpore informações contextuais (por exemplo, para qual parte do negócio isto é relevante ou quem é o responsável pela tarefa) nas regras de alerta de ITSM para priorizar alertas do sistema com base no seu potencial impacto em serviços críticos ou processos empresariais.
- Análise de Correlação e Causa Raiz: Implemente a análise de correlação e causa raiz para identificar problemas subjacentes e reduzir o ruído de alertas correlacionados—isto aborda a causa raiz, não apenas os sintomas do problema.
- Mecanismos de Feedback: Incentive a equipa de IT a fornecer feedback sobre a precisão e a relevância dos alertas. Em seguida, utilize o seu feedback para refinar as regras de alerta, os limites e a lógica de correlação ao longo do tempo.
- Correção Automatizada: Implemente ações de correção automatizadas para problemas de IT conhecidos e/ou tarefas de manutenção de rotina. Isto reduz a necessidade de intervenção manual e minimiza falsos positivos causados por problemas transitórios. A implementação de ações de correção automatizadas pode ser feita através da definição de fluxos de trabalho claros para ações de correção automatizadas e da sua revisão regular para garantir que permaneçam alinhadas com os seus objetivos orgaizacionais.
- Colaboração e Partilha de Conhecimentos: Incentive a colaboração multifuncional entre todas as equipas da sua organização (por exemplo, operações e desenvolvimento) para promover a colaboração e a partilha de conhecimentos entre todo o pessoal de IT.
Várias destas práticas são suportadas diretamente nas plataformas AIOps. Consulte as suas equipas de serviços profissionais ou procure documentação de formação sobre como implementar estes limites e práticas.
Dito isto, queremos aprofundar um pouco mais a análise do desvio padrão e da pontuação Z, então vamos dar uma vista de olhos.
Os Impactos do Desvio Padrão e da Análise de Pontuação Z nos Falsos Positivos de ITSM
Para reduzir ainda mais as hipóteses de notificações falso positivas do ITSM, o desvio padrão e a análise de pontuação Z podem ser utilizados para fornecer uma estrutura estatística para compreender e detetar anomalias nos seus dados dentro da sua plataforma AIOps. Veja como:
Desvio Padrão
O desvio padrão é uma medida da variabilidade de um conjunto de dados. Um desvio padrão ajuda a quantificar o grau em que os pontos de dados individuais se desviam da média. No caso das plataformas AIOps, é frequentemente utilizado para estabelecer limites para o comportamento normal com base em dados históricos do sistema (por exemplo, tempos de resposta ou tráfego de rede) e determinar quais os desvios que estão fora do intervalo esperado que podem indicar uma anomalia ou um potencial problema e requerem atenção. Depois de definidos os limites, as plataformas AIOps podem aproveitar estas informações obtidas nas métricas de desvio padrão para acionar alertas e iniciar ações de correção automatizadas.
Análise de Pontuação Z
A análise de pontuação Z é um método para avaliar quantos desvios padrão um ponto de dados está em relação à média dos outros valores. A análise quantifica a distância entre um ponto de dados individual e a média (em termos de desvios padrão).
Uma análise de pontuação Z é utilizada para aumentar a granularidade da deteção de anomalias, fornecendo uma medida mais precisa da significância estatística dos desvios para as plataformas AIOps. Uma pontuação Z alta indica que um ponto de dados está longe da média— o que sugere uma anomalia significativa. Ao utilizar uma análise de pontuação Z para a sua plataforma AIOps, pode priorizar alertas de IT e concentrar a sua atenção nas anomalias mais críticas apresentadas—permitindo diferenciar melhor entre pequenas flutuações e problemas críticos que exigem suporte imediato. Também facilita uma análise comparativa entre diferentes conjuntos de dados e períodos de tempo—permitindo que o seu sistema AIOps identifique padrões e anomalias que são problemas emergentes.
O desvio padrão e a análise de pontuação Z não são tudo quando se trata de deteção de anomalias para plataformas AIOps. São ferramentas. Aumentam a eficácia das previsões de AIOps, fornecendo medidas estatísticas para quantificar e identificar anomalias nos dados do seu sistema. Dito isto, podem ajudar significativamente. Ao incorporar estas técnicas em algoritmos de deteção de falsos positivos, as plataformas AIOps podem melhorar a precisão das previsões—ajudando a sua equipa de IT a gerir proativamente a sua infraestrutura de IT.
Chega de Falsos Positivos!
À medida que navegamos pelas reviravoltas da redução de falsos positivos no ITSM, fica claro que combinar o rigor estatístico com plataformas AIOps não é apenas inteligente—é essencial. Desde o estabelecimento de uma linha de base sólida de “normal” até ao ajuste fino da nossa abordagem com o desvio padrão e a análise de pontuação Z, definimos um roteiro para sistemas de alerta mais claros e confiáveis.
Lembre-se de que, no ecossistema digital, os falsos positivos são mais do que apenas pequenos incómodos; são obstáculos à eficiência e à clareza. Aplicando estas estruturas e adotando o poder das AIOps, podemos transformar estes obstáculos em oportunidades para maior precisão operacional e harmonia de IT. Portanto, vamos reduzir os falsos alarmes e avançar em direção a um futuro onde cada alerta seja tão significativo quanto acionável—tornando as nossas operações de IT mais do que apenas compatíveis com palavras-chave.