Blog del grupo de investigación GRITS. Redes de próxima generación para el Internet del futuro, Fog Computing e Internet de las cosas para implementar nuestros diseños personalizados en nubes híbridas ciberseguras, en sistemas de almacenamiento a gran escala y comunicaciones de larga distancia.

17 Mayo 2013 | Publicado por Editorial Team GRITS

Redundancia y alta disponibilidad (I)

El concepto de redundancia, junto con el de alta disponibilidad, comprenden la capacidad de un sistema de comunicaciones para detectar un fallo en la red de la manera más rápida posible y que, a la vez, sea capaz de recuperarse del problema de forma eficiente y efectiva, afectando lo menos posible al servicio. La redundancia hace referencia a nodos completos que están replicados o componentes de éstos, así como caminos u otros elementos de la red que están repetidos y que una de sus funciones principales es ser utilizados en caso de que haya una caída del sistema. Ligado a esto, la alta disponibilidad consiste en la capacidad del sistema para ofrecer un servicio activo durante un tanto por ciento de un tiempo determinado o a la capacidad de recuperación del mismo en caso de producirse un fallo en la red. Cuando se habla de “caída del sistema” puede hacer referencia tanto a un equipo que ha dejado de funcionar, como un cable que ha sido cortado o desconectado; u otras situaciones que impliquen que la red deje de funcionar. En casos como estos, hace falta que el sistema detecte el fallo del mismo y que, además, reaccione de manera rápida y eficiente en la búsqueda de una solución a la caída. Es importante tener en cuenta unas serie de factores en el diseño de una red. Redundancy   En el ámbito empresarial, según el tipo de tráfico con el que trabaja la empresa y la distancia geográfica entre los diferentes nodos marcan los requerimientos que tendrá la propia red a la hora de fijar un tiempo de recuperación mínimo. Concretamente, se hace una diferenciación por categorías según las aplicaciones. La primera categoría incluye las redes y tráficos los cuales no requieren un gran rendimiento o unas métricas críticas. Las redes que se contemplan son redes LAN de hogares y PYMES. Los tipos de tráfico que se incluyen son los siguientes: Web,  intercambio de archivos, emails, vídeo no-interactivo y streaming de audio. El hecho de que se incluya streaming sin interacción ayuda a tener unos parámetros de funcionamiento más holgados en caso de que ocurra algún problema en los nodos intermedios, sin producir al usuario una mala quality of experiencie (QoE), es decir, sin que se vea afectado en el uso de estas aplicaciones de streaming no interactivo. Los tiempos de recuperación críticos son del orden de segundos. Las redes o tráficos que se incluyen en la segunda categoría son streaming interactivo y el core de una red metropolitana (MAN). La diferencia principal entre el streaming interactivo y de la categoría anterior es la necesidad de un tráfico bidireccional que implica la interactividad, requiere una demanda de tiempo de respuesta más rápida en ambas direcciones. Mientras que en las redes core MEN, el tiempo de recuperación deben ser menores de 50 ms debido al uso de la fibra óptica. Los tiempos críticos de recuperación son del orden de centenares de milisegundos. La tercera categoría es la que tiene unos requerimientos más críticos de las redes Ethernet. Estas aplicaciones son utilizadas en el control de precisión de la maquinaria industrial y fábricas de automoción, siendo crítico debido a que debe ofrecer un entorno de trabajo seguro; además, se incluirían ámbitos concretos en redes eléctricas, como por ejemplo el tráfico de control de subestaciones en SmartGrids. Según la aplicación, hay nodos en producción que están sincronizados del orden de microsegundos a milisegundos. Esto se traduce en unas limitaciones en el tiempo de detección de un fallo en la red y el tiempo de recuperación. En base a estas necesidades, se han desarrollado diferentes protocolos para aportar redundancia al sistema y así mejorar, además, la capacidad de recuperación para poder cumplir con los requerimientos. Por ejemplo, la propuesta de TRILL como substituto de Spanning Tree en la realización del proyecto INTEGRIS o los diferentes estándares de la 62439 que ha especificado la International Electrotechnical Comission (IEC), como por ejemplo el Parallel Redundancy Protocol (PRP) o High-availability Seamsless Redundancy (HSR) que son protocolos que tienen un tiempo de recuperación de 0 ms aunque utilicen de manera ineficiente los recursos de la red. En próximas entregas se analizarán en profundidad estos protocolos de manera extensa.

Share