A a mejor cocinera se le va el tomate entero… Por que se cayó Amazon S3 ?

Hace poco mencionábamos que iCloud tenia problemas y que el origen de estos problemas no era otro mas que Amazon S3 que estaba caído. Pues Amazon Web Services explicó el por que de la caída de su sistema: Un error humano.

Uno de los trabajadores de Amazon ejecutó un comando con el propósito de depurar un problema que provocaba un funcionamiento lento del sistema de facturación de Amazon S3, el problema fue que el comando tenia un error en la escritura, un “typo error” que terminó con la eliminación de un numero mayor de servidores, entre ellos algunos que sustentan el funcionamiento de S3.

El subsistema indice fue uno de los que cayeron, su función es gestionar los metadatos y ubicar las dependencias hacia S3. Problema doble, el otro subsiste afectado era el de colocación, el cual requiere que el primero funcione para poder funcionar correctamente.

Esto resultó en la eliminación de la capacidad de funcionamiento de S3, fue necesario reiniciar, un proceso que tomó varias horas en completarse.

No es la primera vez que por un error humano una gran cantidad de datos se van al caño, recordemos el problema de Gitlab hace unas semanas, al menos Amazon tuvo con que reparar el daño lo suficientemente rápido.

Todo se debió a un error humano, lo cual estaba previsto, pero fue inoportuno.

Source: Amazon explica el por qué de su caída el martes – FayerWayer

Loading