CloudIQ, monitoreo proactivo y analítica predictiva con el Machine Learning (es)

Questo post è anche disponibile in italiano

No es ninguna novedad que en lo que se refiere a la gestión de un sistema de storage, uno de los factores más importantes de tener en consideración es, después de la simplicidad de uso, la cualidad y capacidades del monitoring.

La cantidad de métricas generada internamente a un sistema de almacenamiento es enorme. Muchas veces todas estas variables de comportamiento e indicadores de performance no son fáciles de relacionar entre si para obtener una visión inmediata sobre el real estado del sistema. El motivo principal de esta dificultad está en que se basa en los conocimientos del responsable del sistema de storage y en el tiempo en que este análisis puede ser llevado adelante a fin que las conclusiones sean lo más precisas posibles.

La clave para obtener valor de esta información es a través de un análisis inteligente. El sistema debe ser capaz de analizar en modo autónomo los datos y generar, en modo preventivo, indicadores en grado de anticipar futuros requisitos de capacidad o rendimiento mientras, al mismo tiempo, anticipar posibles anomalías.

En un post precedente había tratado el uso del Machine Learning “al interno” de un sistema de storage (PowerMax, la definición de un array Tier 0 con uso de ML). En este post examinaremos en vez un software “externo”  al sistema de sistema de almacenamiento. Veremos como este software, CloudIQ, gracias al uso del ML nos permite pasar de un monitoring reactivo a un enfoque predictivo.

CloudIQ 101

CloudIQ es una aplicación gratuita de nube nativa, SaaS, que utiliza el ML para monitorear y determinar el estado de los sistemas de almacenamiento de Dell EMC (PowerMax, Unity, XtremIO, SC Compellent) a través de una analítica integral y predictiva. La aplicación se ejecuta en un cloud seguro de Dell EMC, altamente escalable basado en Dell EMC Cloud Foundry.

CloudIQ permite a los administradores de storage de monitorear remotamente los sistemas desde cualquier lugar con el uso de un web browser.

cloudIQ-machine learning-101
cloudIQ-machine learning-101

CloudIQ es puede ser visto como una extensión de la TI. Debido a que la aplicación se ejecuta en una nube segura y de alta disponibilidad de Dell EMC es muy fácil de acceder y usar. La conexión entre el sistema de almacenamiento y CloudIQ se realiza a través de un “gateway” seguro (ESRS, Secure Remote Services). Esta es una conexión remota bidireccional que permite el intercambio de datos entre CloudIQ y el sistema de storage y proporciona un portal independiente (multi-tenant) para cada ambiente conectado a la aplicación en la nube.

A nivel local no hay nada que instalar, no es necesario ningún provisioning y no hay ninguna manutención que realizar.

Utilizando una metodología de desarrollo de tipo “agile” el software incorpora de continuo nel cloud nuevas funcionalidades y capacidades que son disponibles automáticamente al sistema local. El análisis predictivo aprovecha el aprendizaje automático, se ajusta al entorno y mejora el análisis a medida que viene utilizado optimizando el valor operativo de los assest reduciendo el TCO. El motor de análisis correlaciona los datos del sistema local con una gran base de datos de la nube de Dell EMC para crear una puntuación de riesgo y del estado del sistema de almacenamiento.

CloudIQ Machine Learning

Reconocer modelos (“pattern”) temporales de comportamiento de los componentes del sistema de storage es un paso fundamental para definir un conocimiento de base. A este propósito, el análisis de las series temporales es de gran ayuda ya que sirve a proporcionar una descripción de los datos observados en el tiempo.

CloudIQ aplica el ML para establecer un conocimiento básico y aprender de la experiencia analizando la historia, aprendiendo patrones y proporcionando predicciones para el futuro. Uno de los métodos de análisis predictivo utilizados del software es la descomposición estacional de series de tiempo mediante algoritmos de Loess (STL).

El ML en CloudIQ realiza también la investigación de causa principal (Root Cause Investigation) mediante el uso algoritmos de agrupamiento (clustering) de series de tiempo de tipo jerárquico, parcial y difuso para inferir potenciales vulnerabilidades en el sistema. CloudIQ es en grado de reconocer problemas ya identificados en otros sistemas conectados en la nube y proporcionar una notificación inmediata para la corrección del mismo.

cloudIQ-machine learning-ML
cloudIQ-machine learning-ML

La base instalada de sistemas Dell EMC conectados a CloudIQ es en continuo crecimiento. El número de datos recopilados es importante porque aumenta la precisión de las predicciones. La aplicación memoriza 2 billones de bytes por día, procesa 5 mil millones de dataset y realiza 5 billones de controles. Sobre estos datos, el sistema aplica métodos de clasificación (clustering) no supervisados para series temporales. La agrupación en clústeres es una solución para organizar datos complejos cuando no hay ningún conocimiento “a priori” sobre los mismos. Este tipo de aproximación mira a descubrir patrones en los datos y generar nueva información útil al análisis. En el caso de grandes cantidades de datos es casi imposible usar algoritmos de ML de tipo supervisados, mientras que los algoritmos de clustering de tipo no supervisados ayudan a resolver este problema.

Es importante notar que a diferencia de otros sistemas de “cloud monitoring” que efectúan solo el análisis de la tendencia histórica aplicando una regresión simple, CloudIQ usa algoritmos evolucionados de ML que llevan el soporte y la analítica de almacenamiento a un nivel completamente nuevo.

Ahora que tenemos una visión general de CloudIQ y de su funcionamiento, exploremos a grandes líneas algunas de las características que lo hacen único.

Puntajes de estado de salud proactivos (Proactive Healthscore)

CloudIQ efectúa un monitoreo continuo del sistema de storage para identificar potenciales problemas indicando con un puntaje que va de 0 – 100 el “estado de salud”. Este puntaje es obtenido elaborando información proveniente de 5 diferentes subconjuntos de datos o categorías que son: componentes, configuración, rendimiento, capacidad y protección (replicación local y remota de los datos).

cloudIQ-machine learning-proactive health scores
cloudIQ-machine learning-proactive health scores

CloudIQ proporciona una útil página de resumen que muestra los aspectos clave del entorno de almacenamiento. Desde este “dashboard” es posible navegar (“drill-down”) fácilmente a las áreas de interés o que requieren atención.

cloudIQ-machine learning-overview dashboard
cloudIQ-machine learning-overview dashboard

Siendo una aplicación de tipo “cloud-native” basata en Cloud Foundry, en CloudIQ existen una serie de micros-servicios específicos para procesar cada uno de los subconjuntos de datos. De este modo cuando la aplicación recibe de un sistema de storage datos que se refieren por ejemplo a su configuración, esto causa la ejecución del oportuno micro-servicio. La aplicación mantiene una historia de los puntajes asignados en precedencia, métrica que resulta de gran valor para entender si un particular problema se verifica por primera vez o, por el contrario, es una situación recurrente.

Análisis predictivo (Predictive Analytics)

Evitar problemas debidos a la falta de capacidad es probablemente una de las áreas objeto de permanente atención por parte del administrador del sistema de storage.

cloudIQ-machine learning-predictive analytics
cloudIQ-machine learning-predictive analytics

En lo que se refiere a métricas de capacidad, CloudIQ usa algoritmos de ML que aprenden de pasadas series temporales y proyecta los resultados de manera inteligente basándose en ese conocimiento. De este modo es posible determinar en manera precisa cuando será necesario realizar una expansión o mover datos a un pool o LUN diferente.

cloudIQ-machine learning-out of space
cloudIQ-machine learning-out of space

En el caso del análisis sobre la capacidad, el algoritmo usa 3 meses de datos y efectúa proyecciones indicando el tiempo previsto en el que un recurso storage (storage pool) se encontrará en un nivel crítico de espacio.

Detección de anomalías (Anomaly Detection)

Gracias al ML, CloudIQ puede identificar rápidamente y con precisión parámetros de performance que se encuentran fuera de los rangos o patrones normales de comportamiento y proporcionar ayudas puntuales para su resolución.

cloudIQ-machine learning-anomaly detection
cloudIQ-machine learning-anomaly detection

La siguiente figura muestra un gráfico que indica cuando los parámetros históricos de rendimiento fueron superarados

cloudIQ-machine learning-anomaly high
cloudIQ-machine learning-anomaly high

En el caso del análisis sobre el rendimiento el algoritmo usa 3 semanas de datos y es en grado de predecir anomalías a nivel de sistema, grupos y objetos. El software analiza los datos para distinguir tendencias, estacionalidad o valores atípicos. Esta capacidad de determinar anomalías en base al análisis de datos históricos permite a CloudIQ de distinguir problemas reales de rendimiento de picos esporádicos de I/O.

Para concluir

Dell EMC CloudIQ es una aplicación “cloud-based”, Software-as-a-Service y sin costo para monitorear los sistemas de almacenamiento Dell EMC.

Gracias al uso del ML, CloudIQ realiza un monitoreo inteligente, proactivo y predictivo notificando eventuales problemas antes de que éstos afecten el entorno.

cloudIQ-machine learning-business values
cloudIQ-machine learning-business values

Siendo una aplicación “Web based” es fácilmente accesible desde cualquier lugar, incluso desde dispositivos iOS y Android.

Las nuevas funcionalidades y capacidades se desarrollan en la nube y son inmediatamente disponibles a CloudIQ sin necesidad de realizar actualizaciones locales al software y sin ninguna interrupción del servicio.

CloudIQ representa un nuevo paradigma en el monitoring de los sistemas de almacenamiento.

cloudIQ-machine learning-big picture
cloudIQ-machine learning-big picture

Para mayor información:

CloudIQ White Paper
Dell EMC CloudIQ

#IWork4Dell


Este post también está disponible en: Italiano