Nella gestione dei servizi IT (ITSM), i tempi di inattività possono tradursi in perdite significative per l’azienda; risolvere rapidamente la causa principale degli incidenti è fondamentale per garantire il successo della tua azienda. L’ITIL (Information Technology Infrastructure Library) Root Cause Analysis (RCA) è un approccio sistematico progettato per scoprire le problematiche sottostanti alle interruzioni dei servizi IT. Le strutture, le metodologie, i principi e le tecniche si basano sulla premessa che è più efficace risolvere e prevenire sistematicamente i problemi (ad esempio, impedire che si ripetano), piuttosto che limitarsi a spegnere ogni incendio.
Questo post del blog approfondisce le complessità dell’ITIL RCA, le sue metodologie e la sua rilevanza nel mantenere solide le infrastrutture IT.
Comprendere l’Analisi delle Cause Principali dell’ITIL
Fondamentalmente, l’ITIL RCA è un metodo strutturato utilizzato per determinare le ragioni fondamentali che stanno alla base degli incidenti e dei problemi che si verificano all’interno di un ambiente IT. A differenza delle soluzioni superficiali che si limitano a risolvere i sintomi, la RCA mira a prevenire il ripetersi degli incidenti, migliorando l’affidabilità complessiva del sistema.
Il fulcro della RCA verte su:
- Risolvere la causa principale di un problema IT, anziché limitarsi a risolvere i sintomi per fornire un sollievo a breve termine;
- Comprendere come prevenire il problema in futuro;
- Concentrarsi sul come e sul perché, non sul chi, per il problema;
- Trovare prove concrete a sostegno di qualsiasi affermazione sulla causa principale;
- Fornire informazioni per indicare quale sia la migliore linea d’azione per risolvere il problema.
3 Vantaggi della RCA nella gestione dei servizi IT
- Manutenzione Preventiva: identificando le cause profonde, le organizzazioni possono implementare misure preventive per mitigare gli incidenti futuri. Questo approccio proattivo riduce al minimo i tempi di inattività e aumenta l’efficienza operativa.
- Miglioramento Continuo: la RCA promuove una cultura di miglioramento continuo all’interno delle operazioni IT. Analizzando gli incidenti passati, i team possono implementare azioni correttive e perfezionare i processi, migliorando l’erogazione del servizio e la soddisfazione del cliente.
- Riduzione dei Costi: la risoluzione degli incidenti ricorrenti tramite RCA riduce la necessità di supporto reattivo e soluzioni di emergenza, riducendo così i costi operativi e ottimizzando l’utilizzo delle risorse.
3 Metodologie dell’ITIL RCA
Esistono molteplici metodologie ben note utilizzate per condurre la RCA. Di seguito sono riportati 3 dei metodi e dei framework più popolari, utilizzati in vari settori. Provali tutti e verifica quale è maggiormente in linea con le tue esigenze e preferenze.
Fault Tree Analysis (FTA)
La Fault Tree Analysis (FTA) è un approccio top-down che rappresenta visivamente le potenziali cause di un incidente specifico ed esamina lo stato indesiderato di un sistema. Il sistema è stato originariamente sviluppato da H. Watson e A. Mearns nei laboratori Bell per l’Air Force nel 1962. Successivamente è stato adottato da Boeing ed è ora utilizzato da aziende del settore aerospaziale, chimico e del software per eventi di affidabilità. Suddividendo sistematicamente gli eventi in fattori contribuenti, la FTA aiuta ad individuare la causa principale (il risultato indesiderato viene preso come radice dell’albero logico) e le sue dipendenze. L’albero dei guasti viene generalmente scritto utilizzando i simboli delle “logic gate”. I simboli di base utilizzati nell’FTA sono eventi, gate e simboli di trasferimento.
Simboli degli Eventi della FTA
- Evento di base: guasto o errore in un componente o elemento del sistema;
- Evento esterno: previsto che si verifichi;
- Evento non sviluppato: un evento per il quale non sono disponibili informazioni sufficienti;
- Evento condizionante: condizioni che limitano o influenzano le porte logiche.
Simboli dei Gate FTA
- Gate OR: l’output si verifica se si verifica un qualsiasi input;
- Gate AND: gli input sono indipendenti dalla sorgente (l’output avviene a prescindere);
- Gate OR esclusivo: l’output si verifica se si verifica esattamente un input;
- Gate AND prioritaria: l’output prodotto si verifica solo se gli input si verificano in una sequenza precisa, specificata da un evento condizionante;
- Gate di inibizione: l’output previsto si verifica se avviene l’input, sebbene solo in una condizione di abilitazione specificata da un evento condizionante;
Simboli di Trasferimento FTA
I simboli di trasferimento “Trasferimento in ingresso” e “Trasferimento in uscita” vengono utilizzati per collegare gli ingressi e le uscite degli alberi dei guasti.
Tecnica dei 5 Perché
Il metodo dei 5 Perché della Root Cause Analysis si basa sull’idea di chiedersi più volte il “perché” per risalire alle origini dei problemi. La tecnica invita i team IT ad andare oltre le spiegazioni superficiali e a scoprire problemi sottostanti più profondi. Ti aiuta anche a evitare supposizioni e concentrarti su ciò che è accaduto.
Come usarla:
1 – Fai una domanda sul “perché succede qualcosa nel tuo software” o “perché il tuo prodotto fa x invece di y?”;
2 – Per ogni risposta alla tua domanda PERCHÉ, chiedine un’altra, più profonda, “Ok, ma PERCHÉ?”.
CONSIGLIO: un buon modo di considerare questo aspetto è immaginare che stai parlando con un bambino curioso, che è leggermente fastidioso e continua a chiederti: “Perché?” dopo avergli spiegato qualcosa. Se sei infastidito dalla quantità di perché che chiedi, sei sulla strada giusta. Più “perché” ti chiedi e scopri tutte le parti complesse della tua infrastruttura IT, più riuscirai a individuare i problemi e risolverli per migliorare la tua sicurezza/prodotto.
Esempio
Domanda |
Risposta |
Perché l’applicazione funziona lentamente per gli utenti? |
Il server che ospita l’applicazione ha un utilizzo elevato della CPU. |
Ok. Perché l’utilizzo della CPU è così elevato? |
Si è verificato un improvviso aumento degli accessi simultanei di utenti. |
E perché c’è un aumento degli accessi degli utenti? |
Una nuova campagna di marketing lanciata senza il contributo dell’IT. |
Perché l’IT non era a conoscenza della campagna? |
C’è una mancanza di comunicazione tra le squadre. |
Ok, e perché manca la comunicazione? |
Non esiste un processo formale per l’analisi dell’impatto del progetto. |
Come puoi vedere, questo è un metodo utile ed informale per spingere i team a scavare un po’ più a fondo dei sintomi iniziali per capire cosa sta succedendo. All’inizio, avrà senso che i tecnici provino a gestire un utilizzo elevato della CPU, ma senza capire innanzitutto il motivo per cui ciò accade non arriveremo mai alla conclusione di risolvere il problema reale, che in questo caso è la mancanza di una notifica processo di analisi dell’impatto dei progetti.
Diagramma di Ishikawa (Lisca di Pesce).
Il diagramma di Ishikawa, noto anche come diagramma causa-effetto, classifica le potenziali cause di un problema in gruppi principali, come persone, processi, tecnologia e ambiente. Questo strumento visivo facilita l’analisi collaborativa e la risoluzione olistica dei problemi.
Come usarlo:
1 – Inizia con il problema al centro del diagramma (la spina dorsale dello scheletro del pesce);
2 – Fai brainstorming su diverse categorie delle cause (posizionate nei rami esterni della linea principale, le costole del pesce);
3 – Raggruppa le categorie e suddividile in parti più piccole (ad esempio, “Persone” potrebbe essere una potenziale causa principale della “formazione”);
4 – Scava più a fondo nelle potenziali cause e sotto-cause: interroga ogni ramo per avvicinarti alla radice del problema in questione;
5 – Elimina le categorie non correlate e identifica i fattori correlati (ad esempio, le cause profonde).
Categorie Comuni da Includere:
- Macchina (attrezzature, tecnologia);
- Fattore uomo/mente (lavoro fisico o di conoscenza);
- Missione (scopo, aspettativa);
- Management/potere monetario (leadership);
- Prodotto (o servizio);
- Prezzo;
- Processo (sistemi);
- Persone.
Come Implementare Pratiche RCA Efficaci
Con efficaci pratiche RCA in atto per la gestione dei servizi IT, sarai in grado di diagnosticare e affrontare qualsiasi problema relativo all’IT in modo proattivo, facendo potenzialmente risparmiare alla tua organizzazione centinaia di migliaia o addirittura milioni di dollari. I tre passaggi seguenti delineano una panoramica delle migliori pratiche consigliate per implementare con successo la RCA nella tua organizzazione.
- Stabilisci Procedure Chiare: definisci procedure standardizzate a livello aziendale per condurre l’analisi delle cause profonde dell’IT. Assicurati di delineare ruoli e responsabilità all’interno del team RCA e di stabilire criteri chiari per dare priorità agli incidenti in base al loro impatto e alla loro frequenza.
- Promuovi la Collaborazione: promuovi una comunicazione aperta e la condivisione delle conoscenze tra i team RCA per ottenere prospettive e informazioni diverse.
- Documenta i Risultati: documenta i risultati dell’analisi delle cause principali in una knowledge base centralizzata, comprese le cause principali identificate e le azioni consigliate. Questo repository fungerà da preziosa risorsa per riferimenti futuri e faciliterà l’apprendimento organizzativo.
L’ITIL Root Cause Analysis è una colonna portante per un’efficace gestione dei servizi IT, consentendo alle organizzazioni di diagnosticare e affrontare i problemi sottostanti in modo proattivo. Adottando metodologie RCA strutturate e promuovendo una cultura di miglioramento continuo, le aziende possono migliorare la resilienza operativa, ridurre i costi e fornire servizi superiori ai propri clienti. Abbracciare la RCA non significa semplicemente risolvere gli incidenti; si tratta di coltivare una mentalità orientata alla risoluzione dei problemi e all’innovazione che guida il successo a lungo termine nel panorama in continua evoluzione delle operazioni IT.
La release 2024.1 del nostro prodotto comprende analisi delle cause principali, accessibilità digitale, rilevamento automatizzato delle risorse IT e aggiornamenti migliorati delle funzionalità IA. La roadmap Discovery & Dependency Mapping (DDM) di EV Discovery aiuta i clienti a ottenere una visione a 360 gradi del loro panorama IT, automatizzare la gestione delle risorse e della configurazione, tenere traccia delle modifiche e mantenere le tracce di controllo; si integra perfettamente con i prodotti ITSM di EasyVista: si prevede che ulteriori funzionalità di mappatura delle dipendenze verranno implementate più avanti nel 2024.