Le AIOps inaugurano un futuro luminoso per le operazioni di gestione dei servizi IT (ITSM). Sfruttano l’intelligenza artificiale (AI) e le tecniche di machine learning (ML) per automatizzare e migliorare vari aspetti della fornitura e della gestione dei servizi IT. Le piattaforme AIOps offrono un grande vantaggio perché monitorano continuamente i parametri delle prestazioni del database come tempo di risposta, velocità effettiva e utilizzo delle risorse, segnalando automaticamente le deviazioni dal comportamento normale. È dirompente.
Utilizzando questi algoritmi ML, le piattaforme possono anche identificare le tendenze delle prestazioni e consigliare in modo proattivo le ottimizzazioni da apportare per migliorare l’efficienza del database. In particolare, i dati storici sulle prestazioni e l’analisi predittiva a cui le AIOps possono accedere aiuteranno la tua azienda a prevedere potenziali malfunzionamenti del database o degrado delle prestazioni, per ridurre al minimo i tempi di inattività e garantire un accesso ininterrotto ai dati critici.
La capacità di farlo, ininterrottamente, e di rispondere alle notifiche corrette, significa che puoi ridurre la quantità di falsi positivi attivati dal tuo sistema ITSM. Questo post del blog tratterà quali sono i falsi positivi nell’ITSM, le loro conseguenze e due framework statistici che puoi implementare nelle tue piattaforme per ridurre la probabilità che si verifichino falsi positivi.
Conseguenze e Cause dei Falsi Positivi nell’ITSM
Per falsi positivi nell’IT Service Management (ITSM) si intendono quei casi in cui viene generato un avviso o una notifica per indicare un problema all’interno dell’infrastruttura IT. Una volta indagato, si stabilisce che non esiste alcun problema concreto o che il problema non è abbastanza significativo da meritare attenzione. Oltre a creare disturbo e fastidio, questi falsi positivi comportano molte conseguenze e cause avverse nell’ITSM:
- Soglie di Monitoraggio Configurate in Modo Errato: le soglie di monitoraggio configurate in modo errato possono far scattare falsi positivi. Ad esempio, se le soglie per una determinata metrica delle prestazioni, come l’utilizzo della CPU, sono impostate in modo troppo aggressivo (anche le normali variazioni nel comportamento del sistema possono attivare avvisi), possono verificarsi falsi positivi.
- Problemi Temporanei: picchi di breve durata nel traffico di rete o fluttuazioni temporanee nelle prestazioni del sistema possono innescare falsi positivi se i sistemi di monitoraggio IT interpretano questi apici come indicatori di problemi più grandi. A volte i problemi temporanei si risolvono da soli, mentre altre necessitano dell’assistenza diretta dei team IT.
- Limitazioni degli Strumenti di Monitoraggio: alcuni strumenti di monitoraggio IT non hanno la capacità di distinguere tra normali fluttuazioni delle prestazioni del sistema e problemi reali, che possono scatenare falsi positivi.
- Errori di Dipendenza: possono verificarsi falsi positivi a causa di dipendenze tra diversi componenti dell’infrastruttura IT che non dispongono della corretta correlazione e analisi delle cause principali. Ad esempio, un guasto in un sistema può attivare avvisi per i sistemi a valle che, in realtà, non presentano problemi.
- Affaticamento da Allarme: quando gli avvisi non riescono costantemente a riflettere problemi reali o a richiedere un intervento, il personale IT può desensibilizzarsi nei confronti agli avvisi (fenomeno noto anche con il nome “alarm fatigue”), il che può portare a una diminuzione della reattività e a trascurare i problemi IT autentici.
- Informazioni Contestuali Inadeguate: senza un contesto sufficiente sull’ambiente IT più ampio, sull’impatto aziendale o sui dati storici sulle prestazioni, i team IT potrebbero avere difficoltà a distinguere tra problemi reali e anomalie temporanee, generando maggiori falsi positivi.
- Errori Manuali: i falsi positivi possono verificarsi a causa di errori manuali (errore umano nella configurazione degli strumenti di monitoraggio) o di un’errata interpretazione dei dati di monitoraggio da parte del personale IT.
8 Migliori Pratiche per la Raccomandazione della Soglia dei Falsi Positivi nell’ITSM
Nel contesto dei falsi positivi dell’ITSM, le soglie consigliate sono limiti predeterminati utilizzati per misurare le prestazioni di una metrica o di un valore. Queste raccomandazioni possono variare a seconda del contesto specifico, degli strumenti utilizzati e dei requisiti organizzativi. Tuttavia, ecco alcune raccomandazioni generali che, una volta adottate, possono ridurre efficacemente i falsi positivi nelle notifiche di avviso della piattaforma ITSM e migliorare l’efficienza operativa della tua azienda.
- Linea di Base su Cosa è Normale: stabilisci una linea di base del comportamento ordinario del sistema prima di impostare una soglia (devi sapere da dove cominciare). Ad esempio, se una rete solitamente registra volumi di traffico più elevati nei giorni feriali tra le 9:00 e le 17:00, questo modello dovrebbe essere incorporato nella linea di base, consentendo di distinguere in modo più accurato i picchi normali e i potenziali problemi al di fuori di queste ore di punta. La linea di base sarà specifica per il tuo ambiente aziendale e deve tenere in considerazione modelli di utilizzo tipici, parametri di prestazione ed eventuali fluttuazioni note, tutto ciò che è considerato “normale” e utilizzato per misurare le prestazioni del prodotto.
- Ottimizza Avvisi e Soglie: regola le soglie per i parametri prestazionali (ad esempio, tassi di errore) in base a dati storici e modelli osservati. Assicurati di rivedere e modificare regolarmente queste soglie nel tempo. SUGGERIMENTO: a tale scopo, può essere utile impostare ogni trimestre un promemoria sul calendario o sullo strumento di gestione dei progetti.
- Utilizza l’Analisi Statistica: imposta le soglie in modo dinamico in base ai dati storici, utilizzando la deviazione standard o l’analisi dello z-score. Queste soglie dinamiche si adatteranno alle fluttuazioni delle metriche di prestazione, anziché rimanere immobili (ossia fisse), riducendo i falsi positivi causati da picchi o fluttuazioni temporanee.
- Contestualizza gli Avvisi: incorporare informazioni contestuali (ad esempio, per quale parte dell’azienda è rilevante o chi ne è il proprietario) nelle regole di avviso ITSM per dare priorità agli avvisi di sistema in base al loro potenziale impatto su servizi critici o processi aziendali.
- Correlazione e Analisi delle Cause Principali: implementa la correlazione e l’analisi delle cause principali per identificare i problemi sottostanti e ridurre il rumore derivante dagli avvisi correlati: in questo modo si affronta la causa principale, non solo i sintomi del problema.
- Meccanismi di Feedback: invita il personale IT a fornire feedback sull’accuratezza e la pertinenza degli avvisi. Quindi utilizza il loro riscontro per perfezionare le regole di avviso, le soglie e la logica di correlazione nel tempo.
- Riparazioni Automatizzate: implementare azioni di riparazione automatizzate per problemi IT noti e/o attività di manutenzione ordinaria. Ciò riduce la necessità di interventi manuali e minimizza i falsi positivi causati da problemi temporanei. L’implementazione di azioni di riparazione automatizzate può essere eseguita definendo flussi di lavoro chiari per le azioni di riparazione automatizzate e rivedendoli regolarmente per garantire che rimangano allineati con gli obiettivi dell’organizzazione.
- Collaborazione e Condivisione delle Conoscenze: incoraggia la collaborazione interfunzionale tra tutti i team all’interno dell’organizzazione (ad esempio, operazioni e sviluppo) per favorire la collaborazione e la condivisione delle conoscenze tra tutto il personale IT.
Alcune di queste pratiche sono direttamente supportate all’interno delle piattaforme AIOps. Consulta i team dei servizi professionali o la documentazione di formazione su come implementare queste soglie e pratiche.
Detto questo, scaviamo un po’ più a fondo sulla deviazione standard e sull’analisi dello z-score.
Come la Deviazione Standard e l’Analisi dello Z-Score Influenzano i Falsi Positivi nell’ITSM
Per ridurre ulteriormente le possibilità di notifiche di falsi positivi nell’ISTM, puoi utilizzare la deviazione standard e l’analisi dello z-score per fornire un quadro statistico per comprendere e rilevare anomalie nei dati all’interno della piattaforma AIOps. Ecco come:
Deviazione Standard
La deviazione standard è una misura della variabilità di un determinato set di dati. Una deviazione standard aiuta a quantificare la misura in cui i singoli punti dati si discostano dalla media. Nel caso delle piattaforme AIOps, viene spesso utilizzata per stabilire soglie per il comportamento ordinario in base ai dati storici nel sistema (ad esempio, tempi di risposta o traffico di rete) e determinare quali deviazioni che non rientrano nell’intervallo previsto potrebbero indicare un’anomalia o un potenziale problema e richiedono attenzione. Una volta impostate le soglie, le piattaforme AIOps possono sfruttare queste informazioni raccolte dalle metriche di deviazione standard per attivare avvisi e avviare azioni correttive automatizzate.
Analisi dello Z-Score
L’analisi dello z-score è un metodo per valutare quante deviazioni standard di un punto dati rispetto alla media degli altri valori. L’analisi quantifica la distanza tra un singolo punto dati e la media (in termini di deviazioni standard).
L’analisi dello z-score viene utilizzata per migliorare la granularità del rilevamento delle anomalie fornendo una misura più precisa della significatività statistica delle deviazioni per le piattaforme AIOps. Uno z-score elevato indica che un punto dati è lontano dalla media, suggerendo un’anomalia significativa. Sfruttando l’analisi dello z-score per la tua piattaforma AIOps, puoi dare priorità agli avvisi IT e concentrare la tua attenzione sulle anomalie più critiche presentate, consentendoti di distinguere meglio le fluttuazioni minori e i problemi critici che richiedono supporto immediato. Essa facilita inoltre un’analisi comparativa tra diversi set di dati e periodi di tempo, consentendo al sistema AIOps di identificare modelli e valori anomali che rappresentano problemi emergenti.
La deviazione standard e l’analisi dello z-score non sono tutto quando si tratta di rilevare le anomalie nelle piattaforme AIOps. Sono solo strumenti che migliorano l’efficacia delle previsioni AIOps, fornendo misure statistiche per quantificare e identificare anomalie nei dati all’interno del sistema. Detto questo, possono fornire un valido aiuto. Incorporando queste tecniche negli algoritmi di rilevamento dei falsi positivi, le piattaforme AIOps possono migliorare l’accuratezza delle previsioni, aiutando il tuo team IT a gestire in modo proattivo la tua infrastruttura IT.
Mai Più Falsi Positivi!
Adesso che abbiamo attraversato i meandri della riduzione dei falsi positivi all’interno dell’ITSM, è chiaro che sposare il rigore statistico con le piattaforme AIOps non è solo intelligente: è essenziale. Dalla definizione di una solida base di riferimento “normale” alla messa a punto del nostro approccio con la deviazione standard e l’analisi dello z-score, abbiamo tracciato una tabella di marcia verso sistemi di allarme più chiari e affidabili.
Ricorda che, nell’ecosistema digitale, i falsi positivi sono più che semplici fastidi minori; sono ostacoli all’efficienza e alla chiarezza. Applicando questi framework e abbracciando la potenza di AIOps, possiamo trasformare questi ostacoli in opportunità per una maggiore precisione operativa e armonia IT. Riduciamo quindi i falsi allarmi e guidiamo verso un futuro in cui ogni avviso è tanto significativo quanto utilizzabile, rendendo le nostre operazioni IT non solo conformi ai termini di moda.