Please Go to Settings and Configure Slideshow

11 Agosto 2015

Articulo

 

Mejorando la disponibilidad: protección de datos y rendimiento del sistema

 

 

Peter Laz

Consultor jefe de la división de gestión de riesgos de TI de Forsythe

Peter Laz, MBCP, MBCI, es consultor jefe de la división de gestión de riesgos de TI de Forsythe y miembro del Consejo Ejecutivo DRJ. Cuenta con más de 25 años de experiencia profesional en el diseño, implementación y gestión de iniciativas de riesgo y resiliencia en toda la empresa.


 

Dylon Mills

Especialista Senior de producto de Veritas

Dylon Mills es un especialista senior de producto de Veritas y es responsable de la gestión de productos de la disponibilidad y la herramienta de identificación de riesgos. Mills trabaja con algunas empresas de la lista Fortune 600 que promueven la capacidad de recuperación de TI para mejorar la continuidad del negocio.


Aprenda las seis mejores prácticas que pueden ayudar a que su organización garantice una mayor disponibilidad del servicio, proteja mejor los datos y mejore el rendimiento del sistema.

El tiempo de inactividad de los servicios críticos del negocio, la pérdida de datos asociados y la necesidad de mantener niveles de desempeño requeridos son las principales preocupaciones de los equipos de tecnología de información (TI). Como resultado, las empresas están cambiando hacia un modelo de flexibilidad operativa para maximizar el rendimiento y lograr una disponibilidad 24/7 de las operaciones del negocio y entornos de TI.

Los costos y riesgos asociados a la inactividad y pérdida de datos son suficientes para que las empresas justifiquen las importantes inversiones que realizan en la alta disponibilidad y la nueva recuperación de desastres que ayude a asegurar que las aplicaciones críticas del negocio permanecerán disponibles.

A pesar de la abundancia de altas tecnologías de recuperación ante desastres y disponibilidad que pueden encontrarse en el centro de datos típico de la empresa - conglomerados, balanceo de carga, replicación; así como también, nuevas tecnologías como la computación grid, grupos paralelos, y virtualización basada en alta disponibilidad - tiempo de inactividad, pérdida de datos y degradación de rendimiento son todavía bastante comunes.

 

Tres principales desafíos que afectan la disponibilidad de servicio, la integridad de los datos y el rendimiento del sistema:

 

1. Alteraciones de la configuración.

2. La necesidad de colaboración de dominios cruzados y la integración entre proveedores.

3. La proliferación de herramientas de gestión.

 

Alteraciones de la configuración

 

Los cambios en un entorno TI se producen con frecuencia como parte de las operaciones normales. Estos cambios incluyen:

• Sistemas operativos, parches e instalación o actualización de software.

• Asignaciones de almacenamiento de cambios.

• Núcleo, sistemas y ajustes de parámetros de redes.

• Configuraciones de actualización de hardware (servidor, red, red de área de almacenamiento).

• Mucho más.

Los cambios pueden introducir discrepancias que son extremadamente difíciles de notar, sobre todo cuando hay varios equipos; tanto como el almacenaje, servidor y administrador de base de datos (DBA) deben participar.

Considere, por ejemplo, una red de área de almacenamiento (SAN por sus siglas en inglés) de un grupo en espera faltante, rutas de acceso a un volumen de almacenamiento compartido o la falta de un parámetro de inicio correcto. Esto no puede ser detectado a menos que el proceso de conmutación por error se pruebe de forma activa. Sin embargo, las pruebas de conmutación por error no suceden muy a menudo, lo que significa que la vulnerabilidad puede permanecer oculta por semanas o meses. Estos riesgos ocultos detectados pueden conducir a fallos de resiliencia o de recuperación.

 

La necesidad de colaboración de dominios cruzados y la integración entre proveedores

 

Un entorno de alta disponibilidad normalmente abarca una amplia gama de componentes, tales como redes, servidores y almacenamiento; y la responsabilidad de configurar y administrar estos componentes. Estos artículos también suelen corresponder a separar los equipos de la organización.

A menudo se requiere más de un experto en la materia para configurar correctamente las capas correspondientes. Los problemas de comunicación pueden resultar en discrepancias ocultas. Otro aspecto importante en adición a la complejidad es la necesidad de utilizar hardware y software de múltiples proveedores, tales como almacenamiento, servidores, sistema operativo, software grupal, y múltiples rutas. Los proveedores suelen publicar directrices específicas y las mejores prácticas que describan la configuración de componentes y los ajustes mínimos requeridos. En general, es una buena idea seguir estas mejores prácticas de los proveedores especificados para el despliegue de sus productos. El no hacerlo puede resultar en configuraciones sub-óptimas y en un aumento en el riesgo para la continuidad, los datos y el rendimiento.

 

La proliferación de herramientas de gestión

 

Dada la diversidad de proveedores, no hay un kit de herramientas estándar para gestionar las configuraciones de alta disponibilidad de una manera consistente para ayudar a evitar la alteración de la configuración. En lugar de ello, los administradores de TI deben utilizar varias herramientas de soluciones como herramientas de recursos de almacenamiento de gestión, consolas de administración de grupos, herramientas de gestión de red, herramientas de aprovisionamiento de servidores y otras consolas de nueva virtualización para gestionar sus entornos.

 

Seis pasos hacia una mejor disponibilidad, protección y rendimiento

 

Adoptar las seis mejores prácticas que abarcan el monitoreo y la colaboración puede ayudar a encaminar a las empresas hacia una mayor disponibilidad de los servicios, una mejor protección de datos y mejorar el rendimiento del sistema. El uso de una herramienta automatizada para monitorear el entorno es un factor clave de estas mejores prácticas. Se puede ayudar a hacer la diferencia entre un ambiente que no puede resistir fallas y desastres naturales, y uno que es bien administrado y dispuesto a apoyar la resiliencia operativa, recuperación y rendimiento optimizado.

Las siguientes seis mejores prácticas trabajan juntas para ayudarte a lograr una mayor disponibilidad de servicios, proteger los datos, y ofrecer un alto rendimiento.

Paso 1: Detectar

El primer paso en el logro de una mayor disponibilidad es detectar los riesgos que pueden tener efectos adversos. Mientras que la prueba de recuperación de desastres es un componente de dicha detección, estas no son frecuentes, el esfuerzo intensivo, y su limitada capacidad para llevar los riesgos a la luz. Más allá de las soluciones puntuales basadas en el seguimiento de determinadas capas de la infraestructura, las organizaciones deben utilizar una herramienta automatizada, no intrusiva que proporcione visibilidad entre dominios de los riesgos en toda la infraestructura.

Paso 2: Anticipar

Cuando diversos riesgos suceden la respuesta a las fallas es necesaria pero no óptima. El equipo debe actuar con urgencia para hacer frente a la situación, pero la disponibilidad, los datos, el rendimiento, e incluso la reputación comercial puede haber ya sido dañada. La comprensión de cómo los diferentes riesgos pueden causar daño, y la importancia relativa de los daños causados pueden orientar a los equipos a tomar un enfoque más proactivo, identificando los riesgos antes que el daño esté hecho. Regular el escaneo automatizado de la infraestructura de TI que se basa en esta comprensión puede ayudar a identificar y priorizar los riesgos antes de que se manifieste el daño real.

Paso 3: Alertar

Los equipos de TI deben adoptar herramientas que monitoreen e identifiquen los riesgos en la infraestructura y prioricen en base a probabilidades de impacto. Las herramientas deben alertar a las partes interesadas para que puedan tomar acciones preventivas para mitigar los riesgos. Este sistema de alerta puede proporcionar desgloses en síntomas, explicando las causas fundamentales, la previsión de los posibles impactos de negocio, y proponiendo soluciones. Tal capacidad de alerta debe estar integrada con el sistema de administración de tickets de incidentes de TI existente en la organización para facilitar la gestión de flujo de trabajo continuo y estandarizado.

Paso 4: Colaborar

Dado el alto grado de interconexión e interdependencia en el entorno de TI de hoy en día, es imprescindible que los equipos de TI adopten mecanismos de fuerte apoyo entre dominios y trabajo en equipo. El principal de ellos es el establecimiento de un equipo multi-grupo para supervisar los riesgos de TI. El equipo debe ser apoyado por una herramienta que tenga una perspectiva holística amplia de su infraestructura en la identificación y evaluación de riesgos.

Paso 5: Validar

Dado que las consecuencias de algunos riesgos de TI pueden tener un impacto negativo grave en el negocio, es importante que, además de ser identificados, priorizados, y comunicados, los riesgos estén siendo actualmente abordados. Esto requiere de un sistema de circuito cerrado para que la responsabilidad de resolución y cierre puedan ser rastreados y gestionados.

Paso 6: Medir

La identificación y medición de indicadores clave de rendimiento (KPI) en relación con la gestión de riesgos de TI permite que el equipo se concentre en áreas, proveedores y sistemas que requieren más atención. También pueden mostrar qué sistemas son más frecuentemente amenazados para que los recursos apropiados puedan ser dedicados a abordarlos. Del mismo modo, el seguimiento de indicadores clave de rendimiento puede ayudar a identificar cuales mejores prácticas están siendo menos cumplidas y proporcionan orientación para el entrenamiento de recuperación.

 

Un cambio hacia la resiliencia operativa para garantizar la permanencia de aplicaciones críticas para el negocio

 

La práctica de continuidad de negocio y recuperación de desastres está experimentando un cambio de paradigma. Se está moviendo a centrarse más en la resiliencia operativa, con las empresas que buscan lograr niveles óptimos de rendimiento y arquitectura de disponibilidad continua de las operaciones del negocio y los entornos de TI. Las empresas interesadas en la continuidad del negocio hacen importantes inversiones en alta disponibilidad y recuperación ante desastres para asegurarse que las aplicaciones críticas de negocio permanezcan disponibles. Las organizaciones deben tener en cuenta las herramientas automatizadas, no intrusivas, como parte de su arsenal para la mejora de la disponibilidad, protección de datos y rendimiento del sistema.