{"id":23438,"date":"2021-10-05T15:39:24","date_gmt":"2021-10-05T20:39:24","guid":{"rendered":"https:\/\/about.fb.com\/ltam\/?p=23438"},"modified":"2021-10-05T15:39:24","modified_gmt":"2021-10-05T20:39:24","slug":"mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre","status":"publish","type":"post","link":"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/","title":{"rendered":"M\u00e1s detalles sobre la interrupci\u00f3n de servicios del 4 de octubre"},"content":{"rendered":"<p><span style=\"font-weight: 400\">Ahora que nuestras plataformas est\u00e1n funcionando con normalidad tras la interrupci\u00f3n de ayer, queremos compartir m\u00e1s detalles sobre lo ocurrido, sus causas y, fundamentalmente, lo que estamos aprendiendo del caso.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">El episodio de ayer fue generado por un sistema que administra nuestra red troncal global. Esta red troncal fue construida por Facebook para conectar entre s\u00ed a todas las instalaciones de computaci\u00f3n, las cuales consisten en decenas de miles de cables de fibra \u00f3ptica que cruzan el mundo y conectan a nuestros centros de datos.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Los centros de datos son diferentes entre s\u00ed. Algunos son edificios muy grandes que albergan miles de m\u00e1quinas que guardan datos y procesan pesadas cargas computacionales que, a su vez, mantienen a nuestras plataformas en funcionamiento. Otros centros de datos son espacios m\u00e1s peque\u00f1os que conectan nuestra red troncal con Internet y las personas que usan nuestros servicios.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Cuando abres una de nuestras apps y cargas tu Secci\u00f3n de Noticias o mensajes, el pedido de datos de la app viaja de tu dispositivo al centro de datos m\u00e1s cercano, que luego se comunica a trav\u00e9s de nuestra red troncal con un centro de datos m\u00e1s grande. All\u00ed es en donde se recolecta y procesa la informaci\u00f3n que necesita tu app, y que luego es enviada a tu dispositivo a trav\u00e9s de la red.<\/span><\/p>\n<p><span style=\"font-weight: 400\">El tr\u00e1fico de datos entre todas estas instalaciones de computaci\u00f3n es administrado por <\/span><i><span style=\"font-weight: 400\">routers<\/span><\/i><span style=\"font-weight: 400\">, que identifican a d\u00f3nde enviar los datos entrantes y salientes. Y durante el exhaustivo trabajo diario de mantenimiento de esta infraestructura, nuestro equipo de ingenier\u00eda a menudo necesita desconectar una parte de la red troncal para su mantenimiento \u2013 quiz\u00e1 para reparar una fibra, agregar m\u00e1s capacidad, o actualizar el software en el propio<\/span><i><span style=\"font-weight: 400\"> router<\/span><\/i><span style=\"font-weight: 400\">.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Este fue el origen de la interrupci\u00f3n de ayer. Durante una de las rutinas de mantenimiento, se ejecut\u00f3 un comando para evaluar la disponibilidad en la capacidad en la red troncal global. Esto, involuntariamente, cort\u00f3 todas las conexiones en nuestra red troncal, desconectando asimismo a los centros de datos de Facebook a nivel global. Nuestros sistemas est\u00e1n dise\u00f1ados para auditar comandos como este y prevenir estos errores, pero un error<\/span> <span style=\"font-weight: 400\">en esa herramienta de auditor\u00eda impidi\u00f3 que el comando fuera interrumpido.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Ese error deriv\u00f3 en una desconexi\u00f3n total de nuestras conexiones de servidor entre nuestros centros de datos<\/span> <span style=\"font-weight: 400\">e Internet. Y esa p\u00e9rdida total de conexi\u00f3n caus\u00f3 un segundo problema que agrav\u00f3 la situaci\u00f3n.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Uno de los trabajos ejecutados por nuestras instalaciones m\u00e1s peque\u00f1as es responder a los comandos de DNS (Domain Name System). El DNS es el directorio de Internet que traduce los nombres simples que escribimos en nuestros navegadores, a direcciones de servidor IP espec\u00edficas. Estas consultas de traducci\u00f3n son respondidas por nuestros servidores de nombres autorizados que ocupan direcciones IP conocidas, que a su vez se anuncian al resto de Internet a trav\u00e9s de otro protocolo llamado Border Gateway Protocol (BGP).<\/span><\/p>\n<p><span style=\"font-weight: 400\">Para asegurar una operaci\u00f3n estable, nuestros servidores DNS desactivan esos anuncios BGP si estos no se pueden comunicar con nuestros centros de datos, ya que es un indicador de una conexi\u00f3n de red inestable. En la interrupci\u00f3n de ayer, toda la red troncal fue removida de la operaci\u00f3n, haciendo que esas direcciones se declararan inestables y retiraron los anuncios BGP. El resultado fue que nuestros servidores DNS se volvieron inalcanzables a\u00fan estando operativos. Esto, a su vez, hizo imposible que el resto de Internet pudiera encontrar nuestros servidores.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Todo esto ocurri\u00f3 muy r\u00e1pido. Y mientras nuestro equipo de ingenier\u00eda trabajaba para entender lo que estaba ocurriendo y porqu\u00e9, se encontraron con dos grandes obst\u00e1culos: primero, la imposibilidad de acceder a nuestros <\/span><i><span style=\"font-weight: 400\">data centers <\/span><\/i><span style=\"font-weight: 400\">a trav\u00e9s de nuestros canales habituales porque sus redes estaban desconectadas; segundo, la p\u00e9rdida total de DNS inhabilit\u00f3 muchas de las herramientas internas que usamos normalmente para investigar y resolver interrupciones de servicio como el de ayer.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Nuestro acceso principal a la red y nuestro acceso fuera de banda estaban deshabilitados, y por eso enviamos a nuestros ingenieros a los centros de datos para depurar y reiniciar los sistemas. Pero esto llev\u00f3 tiempo, porque estas instalaciones est\u00e1n dise\u00f1adas con altos niveles de seguridad f\u00edsica y de sistema. Son dif\u00edciles de acceder y, una vez que est\u00e1s adentro, el hardware y los routers est\u00e1n dise\u00f1ados para que sean dif\u00edciles de modificar a\u00fan cuando tienes acceso f\u00edsico a ellos. Por ello, tom\u00f3 un tiempo extra desactivar los protocolos de seguridad necesarios para acceder a las instalaciones y trabajar sobre los servidores. Solo entonces pudimos confirmar el problema y restablecer nuestra red troncal.\u00a0\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Una vez que nuestra red troncal fue restaurada en todos los centros de datos<\/span><i><span style=\"font-weight: 400\">, <\/span><\/i><span style=\"font-weight: 400\">todos los sistemas volvieron a funcionar. Pero el problema no termin\u00f3 all\u00ed, porque sab\u00edamos que volver a activar nuestros servicios al mismo tiempo ten\u00eda el potencial de causar nuevas interrupciones por el pico de tr\u00e1fico. Centros de datos<\/span> <span style=\"font-weight: 400\">individuales estaban reportando bajas de uso de corriente en rangos de decenas de megavatios, y revertir esa baja repentinamente pod\u00eda poner en riesgo desde nuestros sistemas el\u00e9ctricos hasta los cach\u00e9s.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Afortunadamente, estamos preparados para este tipo de eventos gracias a los simulacros que llevamos a cabo desde hace tiempo. Durante estos ejercicios simulamos una falla grave de sistema al desconectar un servicio, centro de datos,<\/span> <span style=\"font-weight: 400\">o una regi\u00f3n entera, y as\u00ed probamos toda la infraestructura y el software comprometidos. La experiencia con estos ejercicios nos ha dado la confianza y la ductilidad para restablecer nuestros servicios y administrar cuidadosamente las crecientes cargas. Al final, nuestros servicios se restablecieron relativamente r\u00e1pido sin reportar fallas sist\u00e9micas a nivel global. Y si bien hemos hecho un simulacro de desconexi\u00f3n de nuestra red troncal, definitivamente analizaremos nuevas formas de simular episodios como el de ayer.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Cada falla es una oportunidad para aprender y mejorar, y hay mucho que aprender de esta interrupci\u00f3n. Despu\u00e9s de cada situaci\u00f3n, grande o peque\u00f1a, hacemos un proceso de revisi\u00f3n exhaustivo para comprender c\u00f3mo podemos mejorar la resiliencia de nuestros sistemas. Este proceso ya est\u00e1 activo.\u00a0\u00a0\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Hemos hecho un trabajo extensivo para endurecer nuestros sistemas y dificultar el acceso no autorizado, y fue interesante ver c\u00f3mo ese trabajo dificult\u00f3 la recuperaci\u00f3n de nuestros sistemas tras un episodio que no fue causado por una actividad maliciosa, sino por un error propio. Creo que este intercambio<\/span> <span style=\"font-weight: 400\">vale la pena: m\u00e1s seguridad en el d\u00eda a d\u00eda vs. una recuperaci\u00f3n lenta de lo que, esperamos, fue un evento poco com\u00fan. De ahora en adelante, nuestro trabajo ser\u00e1 fortalecer nuestras pruebas y simulacros, y construir resiliencia para que eventos como el de ayer ocurran lo menos posible.\u00a0<\/span><\/p>\n","protected":false},"excerpt":{"rendered":"Ahora que nuestras plataformas est\u00e1n funcionando con normalidad tras la interrupci\u00f3n de ayer, queremos compartir m\u00e1s detalles sobre lo ocurrido, sus causas y, fundamentalmente, lo que estamos aprendiendo del caso.\u00a0 El episodio de ayer fue generado por un sistema que administra nuestra red troncal global. Esta red troncal fue construida por Facebook para conectar entre s\u00ed a todas las instalaciones de computaci\u00f3n, las cuales consisten en decenas de miles de cables de fibra \u00f3ptica que cruzan el mundo y conectan a nuestros centros de datos. Los centros de datos son diferentes entre s\u00ed. Algunos son edificios muy grandes que albergan miles de m\u00e1quinas que guardan datos y procesan pesadas cargas computacionales que, a su vez, mantienen a nuestras plataformas en funcionamiento. Otros centros de datos son espacios m\u00e1s peque\u00f1os que conectan nuestra red troncal con Internet y las personas que usan nuestros servicios.\u00a0 Cuando abres una de nuestras apps y cargas tu Secci\u00f3n de Noticias o mensajes, el pedido de datos de la app viaja de tu dispositivo al centro de datos m\u00e1s cercano, que luego se comunica a trav\u00e9s de nuestra red troncal con un centro de datos m\u00e1s grande. All\u00ed es en donde se recolecta y procesa la informaci\u00f3n que necesita tu app, y que luego es enviada a tu dispositivo a trav\u00e9s de la red. El tr\u00e1fico de datos entre todas estas instalaciones de computaci\u00f3n es administrado por routers, que identifican a d\u00f3nde enviar los datos entrantes y salientes. Y durante el exhaustivo trabajo diario de mantenimiento de esta infraestructura, nuestro equipo de ingenier\u00eda a menudo necesita desconectar una parte de la red troncal para su mantenimiento \u2013 quiz\u00e1 para reparar una fibra, agregar m\u00e1s capacidad, o actualizar el software en el propio router.\u00a0 Este fue el origen de la interrupci\u00f3n de ayer. Durante una de las rutinas de mantenimiento, se ejecut\u00f3 un comando para evaluar la disponibilidad en la capacidad en la red troncal global. Esto, involuntariamente, cort\u00f3 todas las conexiones en nuestra red troncal, desconectando asimismo a los centros de datos de Facebook a nivel global. Nuestros sistemas est\u00e1n dise\u00f1ados para auditar comandos como este y prevenir estos errores, pero un error en esa herramienta de auditor\u00eda impidi\u00f3 que el comando fuera interrumpido.\u00a0 Ese error deriv\u00f3 en una desconexi\u00f3n total de nuestras conexiones de servidor entre nuestros centros de datos e Internet. Y esa p\u00e9rdida total de conexi\u00f3n caus\u00f3 un segundo problema que agrav\u00f3 la situaci\u00f3n.\u00a0 Uno de los trabajos ejecutados por nuestras instalaciones m\u00e1s peque\u00f1as es responder a los comandos de DNS (Domain Name System). El DNS es el directorio de Internet que traduce los nombres simples que escribimos en nuestros navegadores, a direcciones de servidor IP espec\u00edficas. Estas consultas de traducci\u00f3n son respondidas por nuestros servidores de nombres autorizados que ocupan direcciones IP conocidas, que a su vez se anuncian al resto de Internet a trav\u00e9s de otro protocolo llamado Border Gateway Protocol (BGP). Para asegurar una operaci\u00f3n estable, nuestros servidores DNS desactivan esos anuncios BGP si estos no se pueden comunicar con nuestros centros de datos, ya que es un indicador de una conexi\u00f3n de red inestable. En la interrupci\u00f3n de ayer, toda la red troncal fue removida de la operaci\u00f3n, haciendo que esas direcciones se declararan inestables y retiraron los anuncios BGP. El resultado fue que nuestros servidores DNS se volvieron inalcanzables a\u00fan estando operativos. Esto, a su vez, hizo imposible que el resto de Internet pudiera encontrar nuestros servidores.\u00a0 Todo esto ocurri\u00f3 muy r\u00e1pido. Y mientras nuestro equipo de ingenier\u00eda trabajaba para entender lo que estaba ocurriendo y porqu\u00e9, se encontraron con dos grandes obst\u00e1culos: primero, la imposibilidad de acceder a nuestros data centers a trav\u00e9s de nuestros canales habituales porque sus redes estaban desconectadas; segundo, la p\u00e9rdida total de DNS inhabilit\u00f3 muchas de las herramientas internas que usamos normalmente para investigar y resolver interrupciones de servicio como el de ayer.\u00a0 Nuestro acceso principal a la red y nuestro acceso fuera de banda estaban deshabilitados, y por eso enviamos a nuestros ingenieros a los centros de datos para depurar y reiniciar los sistemas. Pero esto llev\u00f3 tiempo, porque estas instalaciones est\u00e1n dise\u00f1adas con altos niveles de seguridad f\u00edsica y de sistema. Son dif\u00edciles de acceder y, una vez que est\u00e1s adentro, el hardware y los routers est\u00e1n dise\u00f1ados para que sean dif\u00edciles de modificar a\u00fan cuando tienes acceso f\u00edsico a ellos. Por ello, tom\u00f3 un tiempo extra desactivar los protocolos de seguridad necesarios para acceder a las instalaciones y trabajar sobre los servidores. Solo entonces pudimos confirmar el problema y restablecer nuestra red troncal.\u00a0\u00a0 Una vez que nuestra red troncal fue restaurada en todos los centros de datos, todos los sistemas volvieron a funcionar. Pero el problema no termin\u00f3 all\u00ed, porque sab\u00edamos que volver a activar nuestros servicios al mismo tiempo ten\u00eda el potencial de causar nuevas interrupciones por el pico de tr\u00e1fico. Centros de datos individuales estaban reportando bajas de uso de corriente en rangos de decenas de megavatios, y revertir esa baja repentinamente pod\u00eda poner en riesgo desde nuestros sistemas el\u00e9ctricos hasta los cach\u00e9s.\u00a0 Afortunadamente, estamos preparados para este tipo de eventos gracias a los simulacros que llevamos a cabo desde hace tiempo. Durante estos ejercicios simulamos una falla grave de sistema al desconectar un servicio, centro de datos, o una regi\u00f3n entera, y as\u00ed probamos toda la infraestructura y el software comprometidos. La experiencia con estos ejercicios nos ha dado la confianza y la ductilidad para restablecer nuestros servicios y administrar cuidadosamente las crecientes cargas. Al final, nuestros servicios se restablecieron relativamente r\u00e1pido sin reportar fallas sist\u00e9micas a nivel global. Y si bien hemos hecho un simulacro de desconexi\u00f3n de nuestra red troncal, definitivamente analizaremos nuevas formas de simular episodios como el de ayer.\u00a0 Cada falla es una oportunidad para aprender y mejorar, y hay mucho que aprender de esta interrupci\u00f3n. Despu\u00e9s de cada situaci\u00f3n, grande o peque\u00f1a, hacemos un proceso de revisi\u00f3n exhaustivo para comprender c\u00f3mo podemos mejorar la resiliencia de nuestros sistemas. Este proceso ya est\u00e1 activo.\u00a0\u00a0\u00a0 Hemos hecho un trabajo extensivo para endurecer nuestros sistemas y dificultar el acceso no autorizado, y fue interesante ver c\u00f3mo ese trabajo dificult\u00f3 la recuperaci\u00f3n de nuestros sistemas tras un episodio que no fue causado por una actividad maliciosa, sino por un error propio. Creo que este intercambio vale la pena: m\u00e1s seguridad en el d\u00eda a d\u00eda vs. una recuperaci\u00f3n lenta de lo que, esperamos, fue un evento poco com\u00fan. De ahora en adelante, nuestro trabajo ser\u00e1 fortalecer nuestras pruebas y simulacros, y construir resiliencia para que eventos como el de ayer ocurran lo menos posible.\u00a0","protected":false},"author":155592861,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[30660046,243948035],"tags":[],"class_list":["post-23438","post","type-post","status-publish","format-standard","hentry","category-noticias-de-la-empresa","category-technologies"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.2 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>M\u00e1s detalles sobre la interrupci\u00f3n de servicios del 4 de octubre | Acerca de Meta<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"M\u00e1s detalles sobre la interrupci\u00f3n de servicios del 4 de octubre | Acerca de Meta\" \/>\n<meta property=\"og:description\" content=\"Ahora que nuestras plataformas est\u00e1n funcionando con normalidad tras la interrupci\u00f3n de ayer, queremos compartir m\u00e1s detalles sobre lo ocurrido, sus causas y, fundamentalmente, lo que estamos aprendiendo del caso.\u00a0 El episodio de ayer fue generado por un sistema que administra nuestra red troncal global. Esta red troncal fue construida por Facebook para conectar entre s\u00ed a todas las instalaciones de computaci\u00f3n, las cuales consisten en decenas de miles de cables de fibra \u00f3ptica que cruzan el mundo y conectan a nuestros centros de datos. Los centros de datos son diferentes entre s\u00ed. Algunos son edificios muy grandes que albergan miles de m\u00e1quinas que guardan datos y procesan pesadas cargas computacionales que, a su vez, mantienen a nuestras plataformas en funcionamiento. Otros centros de datos son espacios m\u00e1s peque\u00f1os que conectan nuestra red troncal con Internet y las personas que usan nuestros servicios.\u00a0 Cuando abres una de nuestras apps y cargas tu Secci\u00f3n de Noticias o mensajes, el pedido de datos de la app viaja de tu dispositivo al centro de datos m\u00e1s cercano, que luego se comunica a trav\u00e9s de nuestra red troncal con un centro de datos m\u00e1s grande. All\u00ed es en donde se recolecta y procesa la informaci\u00f3n que necesita tu app, y que luego es enviada a tu dispositivo a trav\u00e9s de la red. El tr\u00e1fico de datos entre todas estas instalaciones de computaci\u00f3n es administrado por routers, que identifican a d\u00f3nde enviar los datos entrantes y salientes. Y durante el exhaustivo trabajo diario de mantenimiento de esta infraestructura, nuestro equipo de ingenier\u00eda a menudo necesita desconectar una parte de la red troncal para su mantenimiento \u2013 quiz\u00e1 para reparar una fibra, agregar m\u00e1s capacidad, o actualizar el software en el propio router.\u00a0 Este fue el origen de la interrupci\u00f3n de ayer. Durante una de las rutinas de mantenimiento, se ejecut\u00f3 un comando para evaluar la disponibilidad en la capacidad en la red troncal global. Esto, involuntariamente, cort\u00f3 todas las conexiones en nuestra red troncal, desconectando asimismo a los centros de datos de Facebook a nivel global. Nuestros sistemas est\u00e1n dise\u00f1ados para auditar comandos como este y prevenir estos errores, pero un error en esa herramienta de auditor\u00eda impidi\u00f3 que el comando fuera interrumpido.\u00a0 Ese error deriv\u00f3 en una desconexi\u00f3n total de nuestras conexiones de servidor entre nuestros centros de datos e Internet. Y esa p\u00e9rdida total de conexi\u00f3n caus\u00f3 un segundo problema que agrav\u00f3 la situaci\u00f3n.\u00a0 Uno de los trabajos ejecutados por nuestras instalaciones m\u00e1s peque\u00f1as es responder a los comandos de DNS (Domain Name System). El DNS es el directorio de Internet que traduce los nombres simples que escribimos en nuestros navegadores, a direcciones de servidor IP espec\u00edficas. Estas consultas de traducci\u00f3n son respondidas por nuestros servidores de nombres autorizados que ocupan direcciones IP conocidas, que a su vez se anuncian al resto de Internet a trav\u00e9s de otro protocolo llamado Border Gateway Protocol (BGP). Para asegurar una operaci\u00f3n estable, nuestros servidores DNS desactivan esos anuncios BGP si estos no se pueden comunicar con nuestros centros de datos, ya que es un indicador de una conexi\u00f3n de red inestable. En la interrupci\u00f3n de ayer, toda la red troncal fue removida de la operaci\u00f3n, haciendo que esas direcciones se declararan inestables y retiraron los anuncios BGP. El resultado fue que nuestros servidores DNS se volvieron inalcanzables a\u00fan estando operativos. Esto, a su vez, hizo imposible que el resto de Internet pudiera encontrar nuestros servidores.\u00a0 Todo esto ocurri\u00f3 muy r\u00e1pido. Y mientras nuestro equipo de ingenier\u00eda trabajaba para entender lo que estaba ocurriendo y porqu\u00e9, se encontraron con dos grandes obst\u00e1culos: primero, la imposibilidad de acceder a nuestros data centers a trav\u00e9s de nuestros canales habituales porque sus redes estaban desconectadas; segundo, la p\u00e9rdida total de DNS inhabilit\u00f3 muchas de las herramientas internas que usamos normalmente para investigar y resolver interrupciones de servicio como el de ayer.\u00a0 Nuestro acceso principal a la red y nuestro acceso fuera de banda estaban deshabilitados, y por eso enviamos a nuestros ingenieros a los centros de datos para depurar y reiniciar los sistemas. Pero esto llev\u00f3 tiempo, porque estas instalaciones est\u00e1n dise\u00f1adas con altos niveles de seguridad f\u00edsica y de sistema. Son dif\u00edciles de acceder y, una vez que est\u00e1s adentro, el hardware y los routers est\u00e1n dise\u00f1ados para que sean dif\u00edciles de modificar a\u00fan cuando tienes acceso f\u00edsico a ellos. Por ello, tom\u00f3 un tiempo extra desactivar los protocolos de seguridad necesarios para acceder a las instalaciones y trabajar sobre los servidores. Solo entonces pudimos confirmar el problema y restablecer nuestra red troncal.\u00a0\u00a0 Una vez que nuestra red troncal fue restaurada en todos los centros de datos, todos los sistemas volvieron a funcionar. Pero el problema no termin\u00f3 all\u00ed, porque sab\u00edamos que volver a activar nuestros servicios al mismo tiempo ten\u00eda el potencial de causar nuevas interrupciones por el pico de tr\u00e1fico. Centros de datos individuales estaban reportando bajas de uso de corriente en rangos de decenas de megavatios, y revertir esa baja repentinamente pod\u00eda poner en riesgo desde nuestros sistemas el\u00e9ctricos hasta los cach\u00e9s.\u00a0 Afortunadamente, estamos preparados para este tipo de eventos gracias a los simulacros que llevamos a cabo desde hace tiempo. Durante estos ejercicios simulamos una falla grave de sistema al desconectar un servicio, centro de datos, o una regi\u00f3n entera, y as\u00ed probamos toda la infraestructura y el software comprometidos. La experiencia con estos ejercicios nos ha dado la confianza y la ductilidad para restablecer nuestros servicios y administrar cuidadosamente las crecientes cargas. Al final, nuestros servicios se restablecieron relativamente r\u00e1pido sin reportar fallas sist\u00e9micas a nivel global. Y si bien hemos hecho un simulacro de desconexi\u00f3n de nuestra red troncal, definitivamente analizaremos nuevas formas de simular episodios como el de ayer.\u00a0 Cada falla es una oportunidad para aprender y mejorar, y hay mucho que aprender de esta interrupci\u00f3n. Despu\u00e9s de cada situaci\u00f3n, grande o peque\u00f1a, hacemos un proceso de revisi\u00f3n exhaustivo para comprender c\u00f3mo podemos mejorar la resiliencia de nuestros sistemas. Este proceso ya est\u00e1 activo.\u00a0\u00a0\u00a0 Hemos hecho un trabajo extensivo para endurecer nuestros sistemas y dificultar el acceso no autorizado, y fue interesante ver c\u00f3mo ese trabajo dificult\u00f3 la recuperaci\u00f3n de nuestros sistemas tras un episodio que no fue causado por una actividad maliciosa, sino por un error propio. Creo que este intercambio vale la pena: m\u00e1s seguridad en el d\u00eda a d\u00eda vs. una recuperaci\u00f3n lenta de lo que, esperamos, fue un evento poco com\u00fan. De ahora en adelante, nuestro trabajo ser\u00e1 fortalecer nuestras pruebas y simulacros, y construir resiliencia para que eventos como el de ayer ocurran lo menos posible.\u00a0\" \/>\n<meta property=\"og:url\" content=\"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/\" \/>\n<meta property=\"og:site_name\" content=\"Acerca de Meta\" \/>\n<meta property=\"article:published_time\" content=\"2021-10-05T20:39:24+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2021\/10\/meta-social-16x9-1.jpg?resize=1024,576\" \/>\n\t<meta property=\"og:image:width\" content=\"1024\" \/>\n\t<meta property=\"og:image:height\" content=\"576\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"ceciliacartoceti\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data1\" content=\"Meta\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data2\" content=\"5 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/\"},\"author\":\"Facebook company\",\"headline\":\"M\u00e1s detalles sobre la interrupci\u00f3n de servicios del 4 de octubre\",\"datePublished\":\"2021-10-05T20:39:24+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/\"},\"wordCount\":1174,\"publisher\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/#organization\"},\"articleSection\":[\"Noticias de la Empresa\",\"Technologies\"],\"inLanguage\":\"es\"},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/\",\"url\":\"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/\",\"name\":\"M\u00e1s detalles sobre la interrupci\u00f3n de servicios del 4 de octubre | Acerca de Meta\",\"isPartOf\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/#website\"},\"datePublished\":\"2021-10-05T20:39:24+00:00\",\"breadcrumb\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/\"]}],\"author\":\"Acerca de Meta\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/about.fb.com\/ltam\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"M\u00e1s detalles sobre la interrupci\u00f3n de servicios del 4 de octubre\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/about.fb.com\/ltam\/#website\",\"url\":\"https:\/\/about.fb.com\/news\/\",\"name\":\"Acerca de Meta\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/about.fb.com\/ltam\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"es\",\"alternateName\":[\"Meta Newsroom\",\"Meta\"]},{\"@type\":\"Organization\",\"@id\":\"https:\/\/about.fb.com\/ltam\/#organization\",\"name\":\"Meta\",\"url\":\"https:\/\/about.fb.com\/ltam\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/about.fb.com\/ltam\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500\",\"contentUrl\":\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500\",\"width\":8000,\"height\":4500,\"caption\":\"Meta\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/#\/schema\/logo\/image\/\"}}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"M\u00e1s detalles sobre la interrupci\u00f3n de servicios del 4 de octubre | Acerca de Meta","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/","og_locale":"es_ES","og_type":"article","og_title":"M\u00e1s detalles sobre la interrupci\u00f3n de servicios del 4 de octubre | Acerca de Meta","og_description":"Ahora que nuestras plataformas est\u00e1n funcionando con normalidad tras la interrupci\u00f3n de ayer, queremos compartir m\u00e1s detalles sobre lo ocurrido, sus causas y, fundamentalmente, lo que estamos aprendiendo del caso.\u00a0 El episodio de ayer fue generado por un sistema que administra nuestra red troncal global. Esta red troncal fue construida por Facebook para conectar entre s\u00ed a todas las instalaciones de computaci\u00f3n, las cuales consisten en decenas de miles de cables de fibra \u00f3ptica que cruzan el mundo y conectan a nuestros centros de datos. Los centros de datos son diferentes entre s\u00ed. Algunos son edificios muy grandes que albergan miles de m\u00e1quinas que guardan datos y procesan pesadas cargas computacionales que, a su vez, mantienen a nuestras plataformas en funcionamiento. Otros centros de datos son espacios m\u00e1s peque\u00f1os que conectan nuestra red troncal con Internet y las personas que usan nuestros servicios.\u00a0 Cuando abres una de nuestras apps y cargas tu Secci\u00f3n de Noticias o mensajes, el pedido de datos de la app viaja de tu dispositivo al centro de datos m\u00e1s cercano, que luego se comunica a trav\u00e9s de nuestra red troncal con un centro de datos m\u00e1s grande. All\u00ed es en donde se recolecta y procesa la informaci\u00f3n que necesita tu app, y que luego es enviada a tu dispositivo a trav\u00e9s de la red. El tr\u00e1fico de datos entre todas estas instalaciones de computaci\u00f3n es administrado por routers, que identifican a d\u00f3nde enviar los datos entrantes y salientes. Y durante el exhaustivo trabajo diario de mantenimiento de esta infraestructura, nuestro equipo de ingenier\u00eda a menudo necesita desconectar una parte de la red troncal para su mantenimiento \u2013 quiz\u00e1 para reparar una fibra, agregar m\u00e1s capacidad, o actualizar el software en el propio router.\u00a0 Este fue el origen de la interrupci\u00f3n de ayer. Durante una de las rutinas de mantenimiento, se ejecut\u00f3 un comando para evaluar la disponibilidad en la capacidad en la red troncal global. Esto, involuntariamente, cort\u00f3 todas las conexiones en nuestra red troncal, desconectando asimismo a los centros de datos de Facebook a nivel global. Nuestros sistemas est\u00e1n dise\u00f1ados para auditar comandos como este y prevenir estos errores, pero un error en esa herramienta de auditor\u00eda impidi\u00f3 que el comando fuera interrumpido.\u00a0 Ese error deriv\u00f3 en una desconexi\u00f3n total de nuestras conexiones de servidor entre nuestros centros de datos e Internet. Y esa p\u00e9rdida total de conexi\u00f3n caus\u00f3 un segundo problema que agrav\u00f3 la situaci\u00f3n.\u00a0 Uno de los trabajos ejecutados por nuestras instalaciones m\u00e1s peque\u00f1as es responder a los comandos de DNS (Domain Name System). El DNS es el directorio de Internet que traduce los nombres simples que escribimos en nuestros navegadores, a direcciones de servidor IP espec\u00edficas. Estas consultas de traducci\u00f3n son respondidas por nuestros servidores de nombres autorizados que ocupan direcciones IP conocidas, que a su vez se anuncian al resto de Internet a trav\u00e9s de otro protocolo llamado Border Gateway Protocol (BGP). Para asegurar una operaci\u00f3n estable, nuestros servidores DNS desactivan esos anuncios BGP si estos no se pueden comunicar con nuestros centros de datos, ya que es un indicador de una conexi\u00f3n de red inestable. En la interrupci\u00f3n de ayer, toda la red troncal fue removida de la operaci\u00f3n, haciendo que esas direcciones se declararan inestables y retiraron los anuncios BGP. El resultado fue que nuestros servidores DNS se volvieron inalcanzables a\u00fan estando operativos. Esto, a su vez, hizo imposible que el resto de Internet pudiera encontrar nuestros servidores.\u00a0 Todo esto ocurri\u00f3 muy r\u00e1pido. Y mientras nuestro equipo de ingenier\u00eda trabajaba para entender lo que estaba ocurriendo y porqu\u00e9, se encontraron con dos grandes obst\u00e1culos: primero, la imposibilidad de acceder a nuestros data centers a trav\u00e9s de nuestros canales habituales porque sus redes estaban desconectadas; segundo, la p\u00e9rdida total de DNS inhabilit\u00f3 muchas de las herramientas internas que usamos normalmente para investigar y resolver interrupciones de servicio como el de ayer.\u00a0 Nuestro acceso principal a la red y nuestro acceso fuera de banda estaban deshabilitados, y por eso enviamos a nuestros ingenieros a los centros de datos para depurar y reiniciar los sistemas. Pero esto llev\u00f3 tiempo, porque estas instalaciones est\u00e1n dise\u00f1adas con altos niveles de seguridad f\u00edsica y de sistema. Son dif\u00edciles de acceder y, una vez que est\u00e1s adentro, el hardware y los routers est\u00e1n dise\u00f1ados para que sean dif\u00edciles de modificar a\u00fan cuando tienes acceso f\u00edsico a ellos. Por ello, tom\u00f3 un tiempo extra desactivar los protocolos de seguridad necesarios para acceder a las instalaciones y trabajar sobre los servidores. Solo entonces pudimos confirmar el problema y restablecer nuestra red troncal.\u00a0\u00a0 Una vez que nuestra red troncal fue restaurada en todos los centros de datos, todos los sistemas volvieron a funcionar. Pero el problema no termin\u00f3 all\u00ed, porque sab\u00edamos que volver a activar nuestros servicios al mismo tiempo ten\u00eda el potencial de causar nuevas interrupciones por el pico de tr\u00e1fico. Centros de datos individuales estaban reportando bajas de uso de corriente en rangos de decenas de megavatios, y revertir esa baja repentinamente pod\u00eda poner en riesgo desde nuestros sistemas el\u00e9ctricos hasta los cach\u00e9s.\u00a0 Afortunadamente, estamos preparados para este tipo de eventos gracias a los simulacros que llevamos a cabo desde hace tiempo. Durante estos ejercicios simulamos una falla grave de sistema al desconectar un servicio, centro de datos, o una regi\u00f3n entera, y as\u00ed probamos toda la infraestructura y el software comprometidos. La experiencia con estos ejercicios nos ha dado la confianza y la ductilidad para restablecer nuestros servicios y administrar cuidadosamente las crecientes cargas. Al final, nuestros servicios se restablecieron relativamente r\u00e1pido sin reportar fallas sist\u00e9micas a nivel global. Y si bien hemos hecho un simulacro de desconexi\u00f3n de nuestra red troncal, definitivamente analizaremos nuevas formas de simular episodios como el de ayer.\u00a0 Cada falla es una oportunidad para aprender y mejorar, y hay mucho que aprender de esta interrupci\u00f3n. Despu\u00e9s de cada situaci\u00f3n, grande o peque\u00f1a, hacemos un proceso de revisi\u00f3n exhaustivo para comprender c\u00f3mo podemos mejorar la resiliencia de nuestros sistemas. Este proceso ya est\u00e1 activo.\u00a0\u00a0\u00a0 Hemos hecho un trabajo extensivo para endurecer nuestros sistemas y dificultar el acceso no autorizado, y fue interesante ver c\u00f3mo ese trabajo dificult\u00f3 la recuperaci\u00f3n de nuestros sistemas tras un episodio que no fue causado por una actividad maliciosa, sino por un error propio. Creo que este intercambio vale la pena: m\u00e1s seguridad en el d\u00eda a d\u00eda vs. una recuperaci\u00f3n lenta de lo que, esperamos, fue un evento poco com\u00fan. De ahora en adelante, nuestro trabajo ser\u00e1 fortalecer nuestras pruebas y simulacros, y construir resiliencia para que eventos como el de ayer ocurran lo menos posible.\u00a0","og_url":"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/","og_site_name":"Acerca de Meta","article_published_time":"2021-10-05T20:39:24+00:00","og_image":[{"width":1024,"height":576,"url":"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2021\/10\/meta-social-16x9-1.jpg?resize=1024,576","type":"image\/jpeg"}],"author":"ceciliacartoceti","twitter_card":"summary_large_image","twitter_misc":{"Written by":"Meta","Est. reading time":"5 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/#article","isPartOf":{"@id":"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/"},"author":"Facebook company","headline":"M\u00e1s detalles sobre la interrupci\u00f3n de servicios del 4 de octubre","datePublished":"2021-10-05T20:39:24+00:00","mainEntityOfPage":{"@id":"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/"},"wordCount":1174,"publisher":{"@id":"https:\/\/about.fb.com\/ltam\/#organization"},"articleSection":["Noticias de la Empresa","Technologies"],"inLanguage":"es"},{"@type":"WebPage","@id":"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/","url":"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/","name":"M\u00e1s detalles sobre la interrupci\u00f3n de servicios del 4 de octubre | Acerca de Meta","isPartOf":{"@id":"https:\/\/about.fb.com\/ltam\/#website"},"datePublished":"2021-10-05T20:39:24+00:00","breadcrumb":{"@id":"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/"]}],"author":"Acerca de Meta"},{"@type":"BreadcrumbList","@id":"https:\/\/about.fb.com\/ltam\/news\/2021\/10\/mas-detalles-sobre-la-interrupcion-de-servicios-del-4-de-octubre\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/about.fb.com\/ltam\/"},{"@type":"ListItem","position":2,"name":"M\u00e1s detalles sobre la interrupci\u00f3n de servicios del 4 de octubre"}]},{"@type":"WebSite","@id":"https:\/\/about.fb.com\/ltam\/#website","url":"https:\/\/about.fb.com\/news\/","name":"Acerca de Meta","description":"","publisher":{"@id":"https:\/\/about.fb.com\/ltam\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/about.fb.com\/ltam\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"es","alternateName":["Meta Newsroom","Meta"]},{"@type":"Organization","@id":"https:\/\/about.fb.com\/ltam\/#organization","name":"Meta","url":"https:\/\/about.fb.com\/ltam\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/about.fb.com\/ltam\/#\/schema\/logo\/image\/","url":"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500","contentUrl":"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500","width":8000,"height":4500,"caption":"Meta"},"image":{"@id":"https:\/\/about.fb.com\/ltam\/#\/schema\/logo\/image\/"}}]}},"jetpack_featured_media_url":"","jetpack-related-posts":[],"jetpack_sharing_enabled":true,"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/posts\/23438","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/users\/155592861"}],"replies":[{"embeddable":true,"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/comments?post=23438"}],"version-history":[{"count":1,"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/posts\/23438\/revisions"}],"predecessor-version":[{"id":23439,"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/posts\/23438\/revisions\/23439"}],"wp:attachment":[{"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/media?parent=23438"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/categories?post=23438"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/tags?post=23438"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}