CloudIQ, monitoraggio proattivo e analisi predittiva con il Machine Learning (it)

Este post también está disponible en Español

Non è una novità che, quando si prende in considerazione la gestione di un sistema di storage, uno dei fattori più importanti da esaminare sia, dopo la semplicità di utilizzo, la qualità e le sue capacità del monitoraggio.

La quantità di metriche generate internamente da un’array è enorme. Molte volte tutte queste variabili comportamentali e gli indicatori di prestazione non sono facili da relazionare tra loro per ottenere una visione immediata dello stato reale del sistema.

Il motivo principale di questa difficoltà è che si basa sulla conoscenza della persona responsabile dello storage e sulla durata di tale analisi in modo che le conclusioni siano le più accurate possibili.

La chiave per ottenere valore da queste informazioni è attraverso l’analisi intelligente. Il sistema deve essere in grado di analizzare autonomamente i dati e generare, in modalità preventiva, indicatori in grado di anticipare i futuri requisiti di capacità o prestazioni e, allo stesso tempo, anticipare possibili anomalie.

In un post precedente avevo discusso l’uso del Machine Learning “all’interno” di un sistema di storage (PowerMax, la definizione di un array di Tier 0 con l’uso di ML).

In questo post esamineremo invece un software “esterno” all’array. Vedremo come questo software, CloudIQ, grazie all’uso di ML ci consenta di passare da un monitoraggio reattivo ad un approccio predittivo.

CloudIQ 101

CloudIQ è un’applicazione cloud nativa gratuita, SaaS, che utilizza il ML per monitorare e determinare lo stato dei sistemi di storage Dell EMC (PowerMax, Unity, XtremIO, SC Compellent) attraverso analisi complete e predittive. L’applicazione viene eseguita in un cloud sicuro Dell EMC, altamente scalabile basato su Dell EMC Cloud Foundry.

CloudIQ consente agli amministratori dello storage di monitorare da remoto i sistemi da qualsiasi luogo con l’uso di un browser web.

cloudIQ-machine learning-101
cloudIQ-machine learning-101

CloudIQ può essere visto come un’estensione dell’IT. Poiché l’applicazione viene eseguita su un cloud sicuro Dell EMC, altamente disponibile, è molto facile accedervi e utilizzarla. La connessione tra il sistema di storage e CloudIQ avviene tramite un “gateway” sicuro (ESRS, Secure Remote Services). Questa è una connessione remota bidirezionale che consente lo scambio di dati tra CloudIQ e il sistema di storage e fornisce un portale separato (multi-tenant) per ogni ambiente collegato alla applicazione in cloud.

A livello locale non c’è nulla da installare, non è necessario alcun provisioning e non c’è nessuna manutenzione da fare.

Utilizzando una metodologia di sviluppo di tipo “agile”, il software incorpora continuamente nel cloud nuove funzionalità che si rendono automaticamente disponibili al sistema locale. L’analisi predittiva sfrutta l’apprendimento automatico, si adatta all’ambiente e migliora l’analisi mano a mano che viene utilizzata, ottimizzando il valore operativo degli asset e riducendo il TCO. Il motore di analisi mette in correlazione i dati del sistema locale con un grande database cloud di Dell EMC per creare valori sullo stato di salute del sistema di storage.

CloudIQ Machine Learning

Riconoscere i modelli (“pattern”) temporanei sul comportamento dei componenti del sistema di storage è un passo fondamentale nella definizione di una conoscenze di base. A tale proposito, l’analisi delle serie temporali (storiche) è di grande aiuto in quanto serve a fornire una descrizione dei dati osservati nel tempo.

CloudIQ applica il ML per stabilire una conoscenze di base e imparare dall’esperienza analizzando la storia, i modelli di apprendimento e fornendo previsioni per il futuro. Uno dei metodi di analisi predittiva utilizzati dal software è la decomposizione stagionale delle serie temporali utilizzando algoritmi di Loess (STL).

L’ML in CloudIQ esegue anche indagini sulle cause principali (Root Cause Investigation) utilizzando algoritmi di “clustering” di serie temporali di tipo gerarchico, parziale e “fuzzy” per dedurre potenziali vulnerabilità nel sistema. CloudIQ è in grado, inoltre, di riconoscere problemi già identificati in altri sistemi connessi nel cloud e fornire una notifica immediata per la loro correzione.

cloudIQ-machine learning-ML
cloudIQ-machine learning-ML

La base installata dei sistemi Dell EMC collegati a CloudIQ è in continua crescita. Il numero di dati raccolti è importante perché aumenta la precisione delle previsioni. L’applicazione memorizza 2 miliardi di byte al giorno, elabora 5 miliardi di dataset ed esegue 5 trilioni di controlli. Su questi dati, il sistema applica metodi di classificazione “non supervisionati” di raggruppamento (clustering) per le serie temporali. Il clustering è una soluzione per organizzare dati complessi quando non esiste una conoscenza “a priori” su di essi. Questo tipo di approccio cerca di scoprire schemi (pattern) nei dati e generare nuove informazioni utili per l’analisi. Nel caso di grandi quantità di dati è quasi impossibile utilizzare algoritmi di ML di tipo supervisionato, mentre gli algoritmi di clustering di tipo non supervisionato aiutano a risolvere questo problema.

È importante notare che, a differenza di altri sistemi di “cloud monitoring” che eseguono solo l’analisi storica delle tendenze utilizzando una semplice regressione, CloudIQ utilizza algoritmi di ML evoluti che indirizzano monitoraggio e analisi verso un livello completamente nuovo.

Ora che abbiamo una panoramica di CloudIQ e del suo funzionamento, esploriamo alcune delle caratteristiche che lo rendono unico.

Punteggi sull’integrità proattivi (Proactive Healthscore)

CloudIQ esegue un monitoraggio continuo del sistema di storage per identificare potenziali problemi indicando con un punteggio che va da 0 a 100 lo “stato di salute”. Questo punteggio si ottiene elaborando informazioni da 5 diversi sottoinsiemi o categorie di dati che sono: componenti, configurazione, prestazioni, capacità e protezione (replica locale e remota dei dati).

cloudIQ-machine learning-proactive health scores
cloudIQ-machine learning-proactive health scores

CloudIQ fornisce un’utile pagina di riepilogo che mostra gli aspetti chiave dell’ambiente storage. Da questa “dashboard” è possibile navigare (“drill-down”) facilmente verso le aree di interesse o che richiedono attenzione.

cloudIQ-machine learning-overview dashboard
cloudIQ-machine learning-overview dashboard

Essendo un’applicazione di tipo “cloud-native” basata su Cloud Foundry, in CloudIQ ci sono una serie di micro-servizi specifici per elaborare ciascuno dei sottoinsiemi di dati. In questo modo, quando l’applicazione riceve da un sistema di storage dati che riguardano, ad esempio, la sua configurazione, ciò provoca l’esecuzione del micro-servizio opportuno. L’applicazione mantiene una cronologia dei punteggi assegnati in precedenza, metrica che è di grande valore per capire se un particolare problema si verifica per la prima volta o, al contrario, si tratta di una situazione ricorrente.

Analisi predittiva (Predictive Analytics)

Evitare problemi dovuti alla carenza di spazio è probabilmente una delle aree di maggiore attenzione da parte dell’amministratore del sistema di storage.

cloudIQ-machine learning-predictive analytics
cloudIQ-machine learning-predictive analytics

In termini di metriche relative allo spazio, CloudIQ utilizza algoritmi di ML che imparano dalle serie storiche passate e proiettano in modo intelligente i risultati in base a tale conoscenza. In questo modo è possibile determinare con precisione quando sarà necessario eseguire un’espansione o spostare i dati ad un “pool” o ad una LUN differente.

cloudIQ-machine learning-out of space
cloudIQ-machine learning-out of space

Nel caso dell’analisi sulla capacità, l’algoritmo utilizza una profondità di 3 mesi di dati ed effettua proiezioni che indicano il tempo previsto in cui una risorsa di storage (pool di archiviazione) si ritroverà a un livello critico di spazio.

Rilevazioni di anomalie (Anomaly Detection)

Grazie al ML, CloudIQ può identificare in modo rapido e accurato i parametri di prestazioni che si trovano al di fuori dei normali intervalli o schemi di comportamento e fornire un aiuto specifico per ricondurre il sistema nei binari della normalità.

cloudIQ-machine learning-anomaly detection
cloudIQ-machine learning-anomaly detection

La seguente figura mostra un grafico che indica quando i parametri storici delle prestazioni sono stati superati.

cloudIQ-machine learning-anomaly high
cloudIQ-machine learning-anomaly high

Nel caso dell’analisi sulle prestazioni, l’algoritmo utilizza 3 settimane di dati ed è in grado di prevedere anomalie a livello di sistema, gruppi e oggetti. Il software analizza i dati per distinguere tendenze, stagionalità o valori anomali. Questa capacità di determinare anomalie basate sull’analisi dei dati storici consente a CloudIQ di distinguere i problemi di prestazioni reali rispetto a picchi di I/O sporadici.

Per concludere

Dell EMC CloudIQ è un’applicazione “Software-as-a-Service”, “cloud-native” e senza costi aggiuntivi per il monitoraggio dei sistemi di storage Dell EMC.

Grazie all’uso del ML, CloudIQ esegue un monitoraggio intelligente, proattivo e predittivo, notificando eventuali problemi prima che questi possano influire sull’ambiente storage.

cloudIQ-machine learning-business values
cloudIQ-machine learning-business values

Essendo un’applicazione “Web based” è facilmente accessibile da qualsiasi luogo, anche da dispositivi iOS e Android.

Le nuove funzionalità sono sviluppate sul cloud e sono immediatamente disponibili per CloudIQ senza la necessità di aggiornamenti locali del software e senza alcuna interruzione del servizio.

CloudIQ rappresenta un nuovo paradigma nel monitoraggio dei sistemi di storage.

cloudIQ-machine learning-big picture
cloudIQ-machine learning-big picture

Per maggiori informazioni:

CloudIQ White Paper
Dell EMC CloudIQ

Este post también está disponible en: Español (Spagnolo)