Internet empezó la semana como muchos de nosotros queremos: negándonos a ir a trabajar. Una interrupción en Amazon Web Services dejó grandes porciones de Internet no disponibles el lunes. Sitios y servicios como Snapchat, Fortnite, Venmo, PlayStation Network y, como era de esperar, Amazon, no estuvieron disponibles de forma intermitente durante el comienzo del día.
La interrupción comenzó poco después de la medianoche, hora del Pacífico, y Amazon tardó alrededor de tres horas y media en resolverse por completo. Las redes sociales y los servicios de streaming se encontraban entre las más de 2.000 empresas afectadas, y también se cerraron servicios críticos como la banca en línea.
A las 12:15 p.m. PT, Amazon dijo que seguía viendo una recuperación en todos los servicios de AWS. La compañía dijo que los clientes que usan AWS Lambdaun servicio informático que ejecuta código sin la necesidad de administrar servidores, «puede enfrentar errores de función intermitentes para funciones que realizan solicitudes de red a otros servicios o sistemas mientras trabajamos para abordar problemas residuales de conectividad de red».
La compañía dijo que publicaría otra actualización a la 1 p.m. PT.
Calendario de cortes
Los problemas parecían haberse resuelto en gran medida cuando la costa este de EE. UU. se estaba conectando, pero volvieron a aumentar dramáticamente después de las 8 am PT cuando comenzaron los trabajos en la costa oeste. Es posible que esto haya sucedido porque los habitantes de la Costa Oeste simplemente estaban aumentando los informes, o que a medida que más personas intentaban acceder a los sistemas, estos se degradaban aún más.
AWS, un proveedor de servicios en la nube propiedad de Amazon, sostiene grandes porciones de Internet. Entonces, cuando dejó de funcionar, se llevó muchos de los servicios que conocemos y amamos. Al igual que con el rápidamente y Multitud Tras las interrupciones en los últimos años, la interrupción de AWS muestra cuánto de Internet depende de la misma infraestructura y qué tan rápido nuestro acceso a los sitios y servicios en los que dependemos puede ser revocado cuando algo sale mal.
Depender de un pequeño número de grandes empresas para sustentar la red es como poner todos nuestros huevos en un pequeño puñado de cestas. Cuando funciona, es fantástico, pero sólo es necesario que un pequeño problema salga mal para que Internet caiga de rodillas en cuestión de minutos.
¿Qué tan extendida fue la interrupción de AWS?
Justo después de la medianoche (hora del Pacífico) del 20 de octubre, AWS registró por primera vez un problema en su página de estado del serviciodiciendo que estaba «investigando mayores tasas de error y latencias para múltiples servicios de AWS en la región US-East-1». Alrededor de las 2 am PT, dijo que había identificado una posible causa raíz del problema. En media hora, había comenzado a aplicar mitigaciones que estaban dando como resultado importantes signos de recuperación.
«El problema subyacente del DNS se ha mitigado por completo y la mayoría de las operaciones del servicio AWS están teniendo éxito con normalidad ahora», dijo AWS a las 3:35 am PT.
Amazon no respondió a una solicitud de más comentarios más allá de indicarnos el panel de estado de AWS.
Pero a las 8:43 am PT, muchos servicios todavía estaban afectados y la página de estado de AWS mostraba la gravedad como «degradada». En una publicación de ese momento, AWS señaló: «Estamos limitando las solicitudes de lanzamientos de nuevas instancias EC2 para ayudar en la recuperación y trabajando activamente en las mitigaciones».
La interrupción de AWS alcanzó su punto máximo antes del amanecer del lunes en EE. UU., luego disminuyó y volvió a aumentar alrededor del mediodía.
Alrededor del momento en que AWS dice que comenzó a notar tasas de error, el sitio de seguimiento de interrupciones Downdetector vio que los informes comenzaron a aumentar en muchos servicios en línea, incluidos bancos, aerolíneas y compañías telefónicas. Cuando AWS resolvió el problema, algunos de estos informes disminuyeron, mientras que otros aún no han vuelto a la normalidad. (Downdetector es propiedad de la misma empresa matriz que CNET, Ziff Davis).
Alrededor de las 4 am PT, Reddit todavía estaba inactivo, mientras que servicios como Ring, Verizon y YouTube seguían experimentando una cantidad significativa de problemas reportados. Reddit finalmente volvió a estar en línea alrededor de las 4:30 am PT, según su página de estado, que luego fue verificada por CNET.
En total, Downdetector recibió más de 9,8 millones de informes, de los cuales 2,7 millones procedían de EE. UU., más de 1,1 millones del Reino Unido y el resto se repartieron principalmente en Australia, Japón, Países Bajos, Alemania y Francia. Más de 2.000 empresas en total se han visto afectadas, añadió Downdetector, sin que unas 280 sigan experimentando problemas alrededor de las 10 a.m., hora del Pacífico.
«Este tipo de interrupción, en la que un servicio de Internet fundamental interrumpe una gran cantidad de servicios en línea, solo ocurre unas pocas veces al año», dijo a CNET Daniel Ramírez, director de producto de Downdetector by Ookla. «Probablemente se estén volviendo un poco más frecuentes a medida que se anima a las empresas a confiar completamente en los servicios de nube y sus arquitecturas de datos están diseñadas para aprovechar al máximo una plataforma de nube particular».
¿Qué causó la interrupción de AWS?
AWS no compartió de inmediato todos los detalles sobre lo que causó que Internet se cayera por un precipicio esta mañana. Luego, a las 8:43 am PT, ofreció esta breve descripción: «La causa raíz es un subsistema interno subyacente responsable de monitorear el estado de nuestros balanceadores de carga de red».
Más temprano ese mismo día había atribuido la interrupción a un «problema de DNS». DNS significa sistema de nombres de dominio y se refiere al servicio que traduce direcciones de Internet legibles por humanos (por ejemplo, CNET.com) en direcciones IP legibles por máquinas que conectan navegadores con sitios web.
Internet cayó de rodillas y muchos sitios informaron cortes el lunes por la mañana, según Downdetector.
Cuando se produce un error de DNS, el proceso de traducción no puede realizarse, interrumpiéndose la conexión. Los errores de DNS son obstáculos comunes en Internet, pero generalmente ocurren a pequeña escala y afectan sitios o servicios individuales. Debido a que el uso de AWS está tan extendido, un error de DNS puede tener resultados igualmente generalizados.
Según Amazon, el problema tiene sus raíces geográficas en su región US-East-1, que se refiere a un área del norte de Virginia donde muchos de sus centros de datos se basan. Es una ubicación importante para Amazon, así como para muchas otras empresas de Internet, y apuntala servicios que abarcan Estados Unidos y Europa.
«La lección aquí es la resiliencia», afirmó Luke Kehoe, analista industrial de Ookla. «Muchas organizaciones todavía concentran cargas de trabajo críticas en una sola región de la nube. La distribución de aplicaciones y datos críticos en múltiples regiones y zonas de disponibilidad puede reducir materialmente el radio de explosión de futuros incidentes».
¿La interrupción de AWS fue causada por un ciberataque?
Los problemas de DNS pueden ser causados por actores maliciosos, pero no hay evidencia en este momento que diga que este sea el caso de la interrupción de AWS.
Sin embargo, las fallas técnicas pueden allanar el camino para que los piratas informáticos busquen y exploten vulnerabilidades cuando las empresas están de espaldas y las defensas están bajas, según Marijus Briedis, CTO de NordVPN.
«Este es un problema de ciberseguridad tanto como técnico», dijo en un comunicado. «La verdadera seguridad en línea no se trata sólo de mantener alejados a los piratas informáticos, sino también de garantizar que usted pueda permanecer conectado y protegido cuando los sistemas fallan».
En las próximas horas, la gente debería estar atenta a los estafadores que esperan aprovecharse del conocimiento de la interrupción, añadió Briedis. Debe tener mucho cuidado con los ataques de phishing y los correos electrónicos que le solicitan que cambie su contraseña para proteger su cuenta.
