Caos global por una actualización rutinaria de software

Una actualización de rutina que salió mal provocó la reciente caída global de software, en un mundo que teme a los riesgos de la IA.

Foto: Jim Wilson/The New York Times

Una actualización de rutina de Windows inhibió computadoras y provocó la cancelación de miles de vuelos.

jue 1 de agosto de 2024

Por: David Streitfeld y Kate Conger/The New York Times

SAN FRANCISCO — Durante un par de años, la comunidad de la inteligencia artificial ha estado advirtiendo que existe la posibilidad de que su trabajo salga mal y la humanidad termine en un caos.

El 19 de julio nos recordó que es al menos igual de probable que el desastre se produzca sigilosamente, tal vez a partir de una pieza de tecnología tan ordinaria que casi nadie sabe que existe.

Nuestras vidas se basan en sistemas apilados sobre sistemas. Los damos por sentados.

Hasta que fallan.

La reciente caída global de software, proclamada como la más grande de la historia, no fue causada por terroristas, IA o hackers. Fue una actualización de rutina que salió mal.

“La pantalla azul de la muerte”

CrowdStrike, una compañía de Texas, se especializa en proteger a clientes corporativos de ciberamenazas. Ha tenido mucho éxito en ello. Sin embargo, esta vez, la amenaza vino del propio CrowdStrike.

El problema comenzó con una pequeña actualización de software de Windows que CrowdStrike envió a sus clientes. Esto inhibió todas las computadoras que tocó. “Parece que Windows no se cargó correctamente”, anunciaban los mensajes. El telón de fondo era del color de un cielo perfecto, también conocido como la “pantalla azul de la muerte”.

Cualquier sistema puede fallar. El Gran Apagón de 1965 dejó sin energía eléctrica a 30 millones de personas en el este de Estados Unidos. El culpable —un relé defectuoso en una central eléctrica canadiense que provocó una cascada de problemas— era igualmente rutinario.

Vivir en el mundo moderno es un acto de fe. La mayoría de las veces no pensamos en ello. Entonces el avión en el que viajamos se sacude con turbulencia. O leemos sobre cómo se desprendió una puerta. O —como sucedió en miles de vuelos el 19 de julio— ni siquiera podemos subir al avión. Fue un caos mundial.

Incluso quienes no estaban tratando de viajar estaban molestos. Las computadoras no podían repararse solas, y los humanos, al menos en un principio, no fueron mucho mejores.

Es probable que CrowdStrike no haya hecho su debida diligencia, señalaron programadores. Probar el parche en una variedad de máquinas con Windows antes de enviarlo a los clientes podría haber ayudado a detectar el problema.

CrowdStrike no es una startup diminuta. Fundada en el 2011, tiene 8 mil empleados y una valuación en bolsa que se encaminaba a los 100 mil millones de dólares, al menos antes de la interrupción.

Un mensaje de George Kurtz, el director ejecutivo de la compañía, pareció minimizar la falla, al calificarla de “un defecto encontrado en una única actualización de contenido para servidores de Windows”.

Los trabajadores de tecnología de la información de las compañías afectadas se enfrentaron a una decisión: ir hasta cada máquina fuera de línea y eliminar el fragmento de código defectuoso o no hacer nada y esperar a que CrowdStrike hallara una solución.

“El problema que esto plantea es que normalmente las grandes compañías, que son los clientes de CrowdStrike, dan mantenimiento a su flota” con controles centralizados, dijo Mikko Hypponen, director de investigación en WithSecure, una firma de ciberseguridad.

Hace sólo unos años, las actualizaciones de software eran más complicadas. No todos los sistemas informáticos estaban vinculados a todos los demás sistemas, lo que significaba que las fallas eran más contenidas.

“Cuando se trata de ciberseguridad, hablamos de defensa a profundidad —tener un foso y luego arqueros y una puerta alrededor del castillo. Hablamos de tenerlo instalado de manera que no haya un único punto de falla. Pero estamos creando una situación en la que hay un único punto de falla”, dijo Matt Mitchell, fundador de CryptoHarlem, una organización de educación y defensa de la ciberseguridad.

Algún día, alguna pieza de tecnología aburrida —sobrecargada, descuidada o mal instalada— provocará un auténtico desastre. Cuanto más interconectado esté el mundo, mayor será el peligro.

Unirme al canal de noticias