Blog del grupo de investigación GRITS. Redes de próxima generación para el Internet del futuro, Fog Computing e Internet de las cosas para implementar nuestros diseños personalizados en nubes híbridas ciberseguras, en sistemas de almacenamiento a gran escala y comunicaciones de larga distancia.

17 Mayo 2013 | Publicado por Editorial Team GRITS

Redundancia y alta disponibilidad (I)

El concepto de redundancia, junto con el de alta disponibilidad, comprenden la capacidad de un sistema de comunicaciones para detectar un fallo en la red de la manera más rápida posible y que, a la vez, sea capaz de recuperarse del problema de forma eficiente y efectiva, afectando lo menos posible al servicio. La redundancia hace referencia a nodos completos que están replicados o componentes de éstos, así como caminos u otros elementos de la red que están repetidos y que una de sus funciones principales es ser utilizados en caso de que haya una caída del sistema. Ligado a esto, la alta disponibilidad consiste en la capacidad del sistema para ofrecer un servicio activo durante un tanto por ciento de un tiempo determinado o a la capacidad de recuperación del mismo en caso de producirse un fallo en la red. Cuando se habla de “caída del sistema” puede hacer referencia tanto a un equipo que ha dejado de funcionar, como un cable que ha sido cortado o desconectado; u otras situaciones que impliquen que la red deje de funcionar. En casos como estos, hace falta que el sistema detecte el fallo del mismo y que, además, reaccione de manera rápida y eficiente en la búsqueda de una solución a la caída. Es importante tener en cuenta unas serie de factores en el diseño de una red. Redundancy   En el ámbito empresarial, según el tipo de tráfico con el que trabaja la empresa y la distancia geográfica entre los diferentes nodos marcan los requerimientos que tendrá la propia red a la hora de fijar un tiempo de recuperación mínimo. Concretamente, se hace una diferenciación por categorías según las aplicaciones. La primera categoría incluye las redes y tráficos los cuales no requieren un gran rendimiento o unas métricas críticas. Las redes que se contemplan son redes LAN de hogares y PYMES. Los tipos de tráfico que se incluyen son los siguientes: Web,  intercambio de archivos, emails, vídeo no-interactivo y streaming de audio. El hecho de que se incluya streaming sin interacción ayuda a tener unos parámetros de funcionamiento más holgados en caso de que ocurra algún problema en los nodos intermedios, sin producir al usuario una mala quality of experiencie (QoE), es decir, sin que se vea afectado en el uso de estas aplicaciones de streaming no interactivo. Los tiempos de recuperación críticos son del orden de segundos. Las redes o tráficos que se incluyen en la segunda categoría son streaming interactivo y el core de una red metropolitana (MAN). La diferencia principal entre el streaming interactivo y de la categoría anterior es la necesidad de un tráfico bidireccional que implica la interactividad, requiere una demanda de tiempo de respuesta más rápida en ambas direcciones. Mientras que en las redes core MEN, el tiempo de recuperación deben ser menores de 50 ms debido al uso de la fibra óptica. Los tiempos críticos de recuperación son del orden de centenares de milisegundos. La tercera categoría es la que tiene unos requerimientos más críticos de las redes Ethernet. Estas aplicaciones son utilizadas en el control de precisión de la maquinaria industrial y fábricas de automoción, siendo crítico debido a que debe ofrecer un entorno de trabajo seguro; además, se incluirían ámbitos concretos en redes eléctricas, como por ejemplo el tráfico de control de subestaciones en SmartGrids. Según la aplicación, hay nodos en producción que están sincronizados del orden de microsegundos a milisegundos. Esto se traduce en unas limitaciones en el tiempo de detección de un fallo en la red y el tiempo de recuperación. En base a estas necesidades, se han desarrollado diferentes protocolos para aportar redundancia al sistema y así mejorar, además, la capacidad de recuperación para poder cumplir con los requerimientos. Por ejemplo, la propuesta de TRILL como substituto de Spanning Tree en la realización del proyecto INTEGRIS o los diferentes estándares de la 62439 que ha especificado la International Electrotechnical Comission (IEC), como por ejemplo el Parallel Redundancy Protocol (PRP) o High-availability Seamsless Redundancy (HSR) que son protocolos que tienen un tiempo de recuperación de 0 ms aunque utilicen de manera ineficiente los recursos de la red. En próximas entregas se analizarán en profundidad estos protocolos de manera extensa.

Share

Comentarios

Wow, a mí también me ha llamado la atención lo de la recuperación de los 0 ms. Es ese dato real en la práctica? Como puede recuperarse de forma tan rápida? Quizás es mi ignorancia del tema, pero, aunque tengamos redundancia con un camino paralelo, necesitaremos un tiempo mínimo para que la red converja, no? Tendemos a una sociedad en la que es cada vez más importante estar conectados SIEMPRE (más allá de los 5 9s), y con unos requerimientos de conexión mínima. No querría avanzar temas respecto a la siguiente entrada de reundancia y alta disponibilidad pero... ¿estos sistemas miran sólo cuando se produce la caída en el enlace, o también pueden mirar la degradación del enlace/conexión? ¿Como detectan la caída del enlace? El tiempo de detección de la caída ya es tiempo de recuperación, ¿no?

Correcto Z, el objetivo de ofrecer estos servicios de redundancia y alta disponibilidad es que no se supere nunca el tiempo de gracia, o grace time. Es decir, si tu planta industrial tiene un tiempo máximo de recuperación de 100 ms, todo servicio que aporte una recuperación menor a ese tiempo será válido, ya que no "afecta" al cliente.

En el caso de los 0 ms, sería para tráficos extremadamente críticos. Para lograr esto se utilizan protocolos como PRP o HSR en los que el tiempo de recuperación son 0 ms debido a que envían el mismo tráfico por dos caminos separados y disjuntos (no comparten ningún tramo de la red), siendo el router receptor el encargado de descartar el paquete duplicado. También cabe destacar que eso aporta una ineficiencia a la red ya que duplicas recursos y utilizas el doble del ancho de banda. Esto se tratará en el siguiente post de Redundancia y Alta disponibilidad.

Respecto a lo que comenta Ramón, existen protocolos o mecanismos que controlan la degradación del enlace o la conexión, es decir, que monitorizan la red. En mi opinión, no formarían parte del servicio de redundancia y alta disponibilidad sino que sería un servicio que complementaría a este y a otros, como ahora el servicio de control de congestión, desde el punto de vista de las SDNs y la composición de servicios. Según el protocolo, tienen diferentes técnicas para la detección de una caída. Y sí, formaría parte del tiempo total que sería el tiempo que tardas en detectar la caída + el tiempo que tardas en restablecer el tráfico por otro camino.

En cuanto a lo que comenta Miguel, en varios proyectos en los que se ha trabajado en el departamento de la Salle R&D, como por ejemplo el proyecto Smart City Málaga, se realizan tanto conexiones mediante PLC como por 3G o fibra óptica, teniendo en cuenta el factor problemático que comentabas.

Veo el problema de que por mucho que tengas dos cables/caminos, cuanto más cerca del destino se produzca el fallo, es más probable que se "pierdan" los dos caminos.

Sería interesante tener redes heterogéneas para evitarlo (P.ej. FO+LTE), pero no sé si los protocolos de redundancia que comentas están planteados para redes de este tipo.

Tiempos de recuperaión de 0 ms? Eso significa que realmente no llega a producirse la incidencia desde el punto de vista del servicio?

En qué entornos se utilizan a día de hoy estas técnicas de alta disponibilidad? A niver comercial, me refiero?

Me parece muy interesante el tema de redundancia de una red. También me ha impresionado el tema de los 0 ms. Creo que como mínimo, se debería tener en cuenta la posible diferencia de latencia entre los dos caminos, ya que esto puede afectar a protocolos de capas superiores.

Parece que a todos sorprende el tema de los 0ms. La verdad es que cuando lo he leído también me ha dejado perpleja. Si se realiza como comentas Alan, enviando la misma información por dos caminos diferentes, me surgen algunas dudas sobre la eficiencia a nivel de receptor. En caso que no existan problemas en la red, ¿si se envía por dos caminos implica que el receptor procesará dos veces la misma información? No se si este aspecto puede llegar a crear algún problema de eficiencia a nivel de procesado de datos en receptor.

Solo se procesa el extremo activo, el otro extremos deshecha la información.

Añadir nuevo comentario

CAPTCHA
Esta pregunta es para comprobar si usted es un visitante humano y prevenir envíos de spam automatizado.
8 + 0 =
Resuelva este simple problema matemático y escriba la solución; por ejemplo: Para 1+3, escriba 4.