Please Go to Settings and Configure Slideshow

04 Abr 2017

Artículo

 

¿Cuál es la mejor Estrategia: Disaster Recovery o Disaster Avoidance?

 

 

GERMAN VARGAS

CORS, CBCP, BCMM ASSESOR, CCRE, AL ISO 9000, AI ISO 22301, ISO 20000, ISO 27001, ITIL

Compliance/DRP en 
Claro - Colombia

 

Con los avances vertiginosos de la tecnología, (computación en la nube, virtualización, comunicaciones, nuevas tecnologías de replicación y mirroring para alta disponibilidad geográfica, etc.) surgen nuevas alternativas para mantener la resiliencia en las organizaciones y nuevos paradigmas deben ser contemplados en el caso de asegurar el “uptime” o disponibilidad de los servicios tecnológicos, especialmente aquellos clasificados como críticos por su alto impacto para la supervivencia de las organizaciones.

La Recuperación de Desastres (Disaster Recovery: DR) para atender eventos disruptivos no programados, entendida según el Glosario Internacional de Resiliencia del DRII, como la “Capacidad de una organización para recuperar y restablecer el componente TI después de una interrupción; es el aspecto tecnológico de la continuidad del negocio”, implica planear, diseñar, implementar y probar acciones que se activan ante un evento de interrupción/desastre no programado y para ello se debe disponer de un sitio alterno con los recursos necesarios, en el cual se recuperen los servicios tecnológicos de manera temporal, mientras se realizan acciones para restablecer la capacidad del sitio principal y así poder mantener, de retorno, la continuidad de las operaciones. Es decir, que bajo este modelo se requiere de fases típicas conocidas como Failover/Switchover y Fail back para los sistemas de información con sus plataformas, infraestructura básica, comunicaciones, bases de datos, almacenamiento, seguridad y demás componentes necesarios de las 7 capas del modelo OSI de la ISO.

Por otra parte, con las nuevas tecnologías, cada vez cobra más fuerza la denominada Disaster Avoidance (DA), que es una alternativa para mantener y asegurar la continuidad de los servicios de negocio de misión crítica, más centrada en la “resiliencia”, que en la recuperación y restauración de los servicios propios del DR.

En el caso de la DA, los servicios se mantienen de manera automática en dos o más centros activos (desaparece el concepto de centro de datos principal y secundario) manteniendo una replicación sincrónica prácticamente en tiempo real, y en la eventualidad de una interrupción programada o no programada, los servicios y funciones son asumidos en su totalidad por el (los) sitio(s) que no ha(n) sido afectado(s) por el desastre, mientras la operación se mantiene en estado normal de funcionamiento en los centros de datos que trabajan de manera cooperativa. Esta estrategia asegura que los datos están disponibles permanentemente y actualizados, es decir con un RPO aproximado a cero. En conclusión, bajo esta alternativa no existe pérdida de datos.

El DA significa una alternativa que puede generar más confianza a las organizaciones, en particular a aquellas que tienen servicios cuya disponibilidad es altamente crítica, casi inmediata, como aquellas que ofrecen las denominadas “infraestructuras críticas” para los países, servicios críticos financieros, servicios médicos de alto impacto por el riesgo de pérdidas humanas, la mayoría de los nuevos servicios relacionados con IoT (internet de las cosas), etc. cuyos tiempos objetivos de recuperación (RTO) y puntos objetivos de recuperación (RPO) deben ser muy cortos.

Como nada es totalmente perfecto. La estrategia DA requiere de una mayor inversión y costos de funcionamiento, ya que normalmente requieren múltiples, o por lo menos un centro de datos adicional, operando de manera continua, simultánea y cooperativamente entre sí. Esto también implica diferencias en el diseño, implementación, operación y desde luego en los costos en cuanto a infraestructura, personal, comunicaciones, bases de datos, almacenamiento, licenciamiento, monitoreo, etc. Adicionalmente, los equipos e infraestructura instalados deben ser similares en cuanto a capacidades, disponibilidad y tecnologías instaladas.

 

Ventajas y Desventajas: DR vs DA

 

  • Inversión y costos en los centros de datos y la tecnología de TI instalada según la estrategia

    En Disaster recovery DR las alternativas para los centros de datos alternos clasificadas típicamente como Cold, Warm o Hot toman posición pasiva si no se presenta alguna situación de desastre y estos valiosos recursos permanecen normalmente ociosos.

    Para las soluciones DA se exige que los múltiples centros de datos sean tipo Hot y coexistan permanentemente de manera activa para garantizar que los servicios tecnológicos críticos estén disponibles desde cualquier ubicación, independientemente de la situación e imprevistos. En el caso del DA las cargas de trabajo están balanceadas entre los centros de datos, si se trata de 2 sitios, estos deben tener capacidades similares y su carga debe estar a lo más cercana al 50%, lo que significa que también tienen recursos ociosos; por supuesto, están activos y en disponibilidad, pero en espera para cuando deban asumir la carga total de manera inmediata por la interrupción de su sitio replicado o espejo. Estas situaciones hacen de la alternativa DA mucho más costosa.

    En el caso de la estrategia DR según los requerimientos de disponibilidad, se determina el tipo de centro de datos requerido, lo recomendable en la mayoría de los casos, según mi experiencia, es que el centro de datos principal tenga un nivel o Tier 3 (lo que significa una disponibilidad de 99,99) y lo ideal es que se cuente con un Tier 4 (disponibilidad 99,995). Para el centro de datos alterno lo apropiado normalmente debería ser un nivel 3.

    En el caso de la alternativa DA se puede ser más flexible en el nivel de los centros de datos en la medida en que se gana en disponibilidad con la redundancia conseguida de los centros de datos operando mancomunadamente. Vistos los centros de manera individual, significa aparentemente una ventaja económica, por requerir una menor inversión en la construcción de cada uno de los centros propios con componentes internamente menos redundantes, o un menor valor en el caso de la contratación de estos servicios. Pero por el número de centros y la tecnología de TI instalada en cada uno de ellos y las comunicaciones para soportarlos, en suma, resulta mucho más costosa esta estrategia.

    La distancia entre los centros de datos en soluciones DA, para un mejor desempeño de la replicación o mirroring y evitar posibles latencias, debe ser relativamente corta. La desventaja o condición especial está en que, para este tipo de soluciones, por buenas prácticas, los sitios no deben estar expuestos a los mismos tipos de riesgos, de ser así podría presentarse una situación de “outages” o caída simultánea de los centros de datos y no obrarían las ventajas que da la redundancia geográfica.

 

  • Atención de eventos de Desastre

    Cuando ocurre una interrupción imprevista en soluciones DA, la afectación es muy parcial en la medida en que los servicios están distribuidos entre los centros de datos y los que permanecen activos asumen los servicios afectados del sitio impactado. Es decir, el riesgo está distribuido en el popular sentido que: “no todos los huevos están puestos en la misma canasta” y adicionalmente con la ventaja significativa que no implica una suspensión real de los servicios (el RTO es cercano a cero).

    En el caso de DR, existe un período de tiempo de inactividad, hay procesos de valoración de daños de los equipos de respuesta, toma de decisiones para la activación del DR y las acciones necesarias para activar el sitio alterno y disponer efectivamente de la data, con viabilidad de pérdida de datos, (según sea la estrategia implementada para el RPO aprobado) y acciones para finalmente contar con el sitio alterno en operación.

    En DA las acciones, procedimientos e intervención humana se ven reducidos y prácticamente los pasos de recuperación operan de manera automática y por definición: controlada.

    En el caso de DR en interrupciones mayores con características de desastre existe un conjunto comúnmente complejo de acciones documentadas en planes, que deben ser realizadas de manera sincronizada con personal con las competencias y las capacidades necesarias, con prioridades establecidas y con la secuencia y responsabilidades debidas. Aun cuando un buen número de estas acciones son susceptibles de ser automatizadas, existe una mayor participación humana y mayor toma de decisiones, lo que demanda mayor capacitación y entrenamiento e incluso requiere una adecuada preparación para el personal que interviene en los momentos de emergencia, situaciones de crisis y atención del desastre.

 

  • Pruebas y Ejercicios

    Las pruebas en DA, son relativamente más sencillas de efectuar, en teoría en cualquier momento se puede dar traslado de los servicios a un sitio y operar desde este, lo mismo que su retorno a las condiciones iniciales, o sea con las cargas distribuidas como se diseñó inicialmente. En DR se debe trabajar con todos los expertos en las tecnologías involucradas con actividades en el antes, durante y después para asegurar se efectúe de manera exitosa el traslado de la operación, el trabajo en continuidad y luego el retorno al sitio principal.

 

  • Mantenimientos

    Para el caso de interrupciones programadas en soluciones DA para efectuar mantenimientos de infraestructura básica del centro de datos y/o de plataformas y equipos de TI se mantiene la prestación de los servicios, sin interrupción alguna, debido a que mientras se efectúan las actividades programadas dentro de la “ventana” de mantenimiento, las cargas de trabajo son asumidas y soportadas por los sitios cooperados sobrevivientes.

 

  • Gestión de servicios

    Con DA debido a la carga compartida, se tiene una mejor utilización de los recursos, DA tiene una gestión relativamente más fácil, pero significa la gestión permanente de dos o más centros de datos activos simultáneamente. El proceso de diseño e implementación puede ser más complejo, pero la operación se simplifica y en eventos de desastre la gestión de la continuidad tecnológica es mucho más automatizada, lo que genera menor margen de error.

 

Conclusiones:

La determinación de la estrategia más apropiada depende de las necesidades específicas de cada empresa, de su apetito al riesgo y de la disponibilidad de recursos para determinar la estrategia y la inversión más apropiada.

En continuidad de negocio tecnológica, desde luego, siguen aplicando las mejores prácticas relacionadas con el ciclo del planear, hacer, verificar y actuar; es en la definición de estrategias y en la toma de decisiones sobre las soluciones pertinentes, a partir de los resultados del BIA y el Análisis de Riesgos, donde se establecen determinaciones acerca de lo más apropiado a implementar: DA o DR o, porque no, también es viable, un conjunto de soluciones mixtas.

Es posible implementar soluciones mixtas para abarcar un mayor abanico de servicios, teniendo soluciones DA para el top de aquellos clasificados como servicios de misión crítica de negocios y sus servicios conexos, involucrando siempre los aplicativos y sistemas de información interdependientes y DR para servicios críticos que no tienen RTOs tan extremadamente exigentes.

También es importante el fortalecimiento adicional de soluciones de alta disponibilidad locales y acciones preventivas, que prevengan y minimicen “in situ” la posibilidad de ocurrencia de desastres para todos los centros de datos involucrados, cualquiera sea la alternativa seleccionada.

El DA es una solución más resiliente y genera más confianza para los servicios tecnológicos críticos en la medida en que centros de datos redundantes y fácilmente accesibles desde cualquier sitio a través de medios y accesos redundantes, mantienen la continuidad de las operaciones, pero el costo de su inversión podría ser significativamente más alto.

Para una decisión apropiada, cobra vital importancia el conocimiento de la naturaleza del negocio y según la misma, se debe colocar en una balanza los tiempos y costos involucrados en el manejo del desastre y sus impactos versus los tiempos y costos de implementación, operación y mantenimiento de la solución. Un buen análisis permitirá determinar la estrategia más pertinente para la organización.