CrowdStrike explica cómo su actualización arruinó las computadoras del mundo
  • CrowdStrike explicó en una nota cómo una actualización defectuosa provocó una interrupción global del sistema informático de Microsoft el viernes.
  • CrowdStrike dijo el miércoles que su actualización de contenido de respuesta rápida contenía un error no detectado.
  • Fue la mayor interrupción de TI de la historia; algunas empresas, como Delta Air Lines, todavía se están recuperando.

Muchos de los del mundo Las aerolíneas, los bancos y los minoristas se paralizaron el viernes pasado Después de que una actualización defectuosa provocara una interrupción global del sistema informático de Microsoft, la empresa de ciberseguridad responsable de la actualización, CrowdStrike, explica qué sucedió.

en un Memorándum publicado el miércolesCrowdStrike dijo que una actualización de su Contenido de Respuesta Rápida, que está “diseñado para responder al cambiante panorama de amenazas a velocidad operativa”, contenía un “error no detectado”.

Ese error —explicado en el memorando completo de CrowdStrike, incluido a continuación— provocó Caos en todo el mundo. Miles de vuelos fueron cancelados, Los servicios de emergencia 911 dejaron de funcionar, Los minoristas cerraron tiendas o solo aceptaron pagos en efectivoy algo Las operaciones del hospital se retrasaron o interrumpieron.

CrowdStrike implementó rápidamente una solución, pero Tardó un tiempo en entrar en vigorcon algunos sistemas Requiere un reinicio manual.

Esto equivalía a La mayor interrupción de TI de la historiay algunas empresas, como Delta Air Linestodavía se están recuperando de las consecuencias.

Lea la nota de CrowdStrike a continuación:

Revisión preliminar posterior al incidente (PIR): actualización de la configuración de contenido que afecta al sensor Falcon y al sistema operativo Windows (BSOD)
Esta es la revisión preliminar posterior al incidente (PIR) de CrowdStrike. Detallaremos nuestra investigación completa en el próximo análisis de causa raíz que se publicará. A lo largo de esta PIR, hemos utilizado terminología generalizada para describir la plataforma Falcon para mejorar la legibilidad. La terminología en otra documentación puede ser más específica y técnica.
¿Qué pasó?
El viernes 19 de julio de 2024 a las 04:09 UTC, como parte de las operaciones regulares, CrowdStrike lanzó una actualización de configuración de contenido para el sensor de Windows para recopilar telemetría sobre posibles técnicas de amenaza novedosas.
Estas actualizaciones son una parte habitual de los mecanismos de protección dinámica de la plataforma Falcon. La actualización problemática de la configuración de Rapid Response Content provocó un bloqueo del sistema Windows.
Los sistemas afectados incluyen hosts de Windows que ejecutan la versión 7.11 del sensor y posteriores que estuvieron en línea entre el viernes 19 de julio de 2024 a las 04:09 UTC y el viernes 19 de julio de 2024 a las 05:27 UTC y recibieron la actualización. Los hosts de Mac y Linux no se vieron afectados.
El defecto en la actualización de contenido se revirtió el viernes 19 de julio de 2024 a las 05:27 UTC. Los sistemas que se conectaron después de este tiempo o que no se conectaron durante el período no se vieron afectados.
¿Qué salió mal y por qué?
CrowdStrike entrega actualizaciones de configuración de contenido de seguridad a nuestros sensores de dos maneras: Contenido del sensor que se envía directamente con nuestro sensor y Contenido de respuesta rápida que está diseñado para responder al cambiante panorama de amenazas a velocidad operativa.
El problema del viernes involucró una actualización de contenido de respuesta rápida con un error no detectado.
Contenido del sensor
Sensor Content ofrece una amplia gama de capacidades para ayudar en la respuesta ante el adversario. Siempre es parte de un lanzamiento de sensor y no se actualiza dinámicamente desde la nube. Sensor Content incluye modelos de aprendizaje automático e inteligencia artificial en el sensor, y comprende código escrito expresamente para brindar capacidades reutilizables a largo plazo para los ingenieros de detección de amenazas de CrowdStrike.
Estas capacidades incluyen tipos de plantillas, que tienen campos predefinidos para que los ingenieros de detección de amenazas los aprovechen en el contenido de respuesta rápida. Los tipos de plantillas se expresan en código. Todo el contenido del sensor, incluidos los tipos de plantillas, pasan por un extenso proceso de control de calidad, que incluye pruebas automatizadas, pruebas manuales, validación y pasos de implementación.
El proceso de lanzamiento de sensores comienza con pruebas automatizadas, tanto antes como después de la fusión con nuestra base de código. Esto incluye pruebas unitarias, pruebas de integración, pruebas de rendimiento y pruebas de estrés. Esto culmina en un proceso de implementación de sensores por etapas que comienza con la prueba interna en CrowdStrike, seguida por los primeros usuarios. Luego, se pone a disposición de los clientes en general. Luego, los clientes tienen la opción de seleccionar qué partes de su flota deben instalar la última versión del sensor ('N'), o una versión anterior ('N-1') o dos versiones anteriores ('N-2') a través de las Políticas de actualización de sensores.
El evento del viernes 19 de julio de 2024 no fue provocado por el contenido del sensor, que solo se entrega con el lanzamiento de un sensor Falcon actualizado. Los clientes tienen control total sobre la implementación del sensor, lo que incluye el contenido del sensor y los tipos de plantilla.
Contenido de respuesta rápida
El contenido de respuesta rápida se utiliza para realizar una variedad de operaciones de comparación de patrones de comportamiento en el sensor mediante un motor altamente optimizado. El contenido de respuesta rápida es una representación de campos y valores, con un filtrado asociado. Este contenido de respuesta rápida se almacena en un archivo binario propietario que contiene datos de configuración. No es un código ni un controlador de kernel.
El contenido de respuesta rápida se entrega como “instancias de plantilla”, que son instancias de un tipo de plantilla determinado. Cada instancia de plantilla se asigna a comportamientos específicos que el sensor debe observar, detectar o prevenir. Las instancias de plantilla tienen un conjunto de campos que se pueden configurar para que coincidan con el comportamiento deseado.
En otras palabras, los tipos de plantilla representan una capacidad del sensor que permite nueva telemetría y detección, y su comportamiento en tiempo de ejecución se configura dinámicamente por la instancia de plantilla (es decir, contenido de respuesta rápida).
El contenido de respuesta rápida proporciona visibilidad y detección en el sensor sin necesidad de cambiar el código del sensor. Los ingenieros de detección de amenazas utilizan esta capacidad para recopilar telemetría, identificar indicadores de comportamiento del adversario y realizar detecciones y prevenciones. El contenido de respuesta rápida es una heurística de comportamiento, independiente y distinta de las capacidades de prevención y detección de IA en el sensor de CrowdStrike.
Pruebas y despliegue de contenido de respuesta rápida
El contenido de respuesta rápida se entrega como actualizaciones de configuración de contenido al sensor Falcon. Hay tres sistemas principales: el sistema de configuración de contenido, el intérprete de contenido y el motor de detección de sensores.
El sistema de configuración de contenido es parte de la plataforma Falcon en la nube, mientras que el intérprete de contenido y el motor de detección de sensores son componentes del sensor Falcon. El sistema de configuración de contenido se utiliza para crear instancias de plantilla, que se validan y se implementan en el sensor a través de un mecanismo llamado archivos de canal. El sensor almacena y actualiza sus datos de configuración de contenido a través de archivos de canal, que se escriben en el disco del host.
El intérprete de contenido del sensor lee el archivo de canal e interpreta el contenido de respuesta rápida, lo que permite que el motor de detección de sensores observe, detecte o prevenga la actividad maliciosa, según la configuración de la política del cliente. El intérprete de contenido está diseñado para gestionar con elegancia las excepciones de contenido potencialmente problemático.
Los tipos de plantillas recién publicados se someten a pruebas de estrés en muchos aspectos, como la utilización de recursos, el impacto en el rendimiento del sistema y el volumen de eventos. Para cada tipo de plantilla, se utiliza una instancia de plantilla específica para realizar pruebas de estrés del tipo de plantilla comparándolo con cualquier valor posible de los campos de datos asociados para identificar interacciones adversas del sistema.
Las instancias de plantilla se crean y configuran mediante el uso del Sistema de configuración de contenido, que incluye el Validador de contenido que realiza comprobaciones de validación del contenido antes de publicarlo.
Cronología de eventos: Pruebas e implementación del tipo de plantilla InterProcessCommunication (IPC)
Lanzamiento de contenido de Sensor: el 28 de febrero de 2024, la versión 7.11 de Sensor se puso a disposición de los clientes en general, con la introducción de un nuevo tipo de plantilla de IPC para detectar nuevas técnicas de ataque que abusan de las canalizaciones con nombre. Este lanzamiento siguió todos los procedimientos de prueba de contenido de Sensor descritos anteriormente en la sección Contenido de Sensor.
Prueba de estrés del tipo de plantilla: el 5 de marzo de 2024, se ejecutó una prueba de estrés del tipo de plantilla IPC en nuestro entorno de prueba, que consta de una variedad de sistemas operativos y cargas de trabajo. El tipo de plantilla IPC pasó la prueba de estrés y se validó para su uso.
Liberación de instancia de plantilla mediante Archivo de canal 291:El 5 de marzo de 2024, tras la prueba de estrés exitosa, se lanzó una instancia de plantilla de IPC a producción como parte de una actualización de configuración de contenido. Posteriormente, se implementaron tres instancias de plantilla de IPC adicionales entre el 8 y el 24 de abril de 2024. Estas instancias de plantilla funcionaron como se esperaba en producción.
¿Qué pasó el 19 de julio de 2024?
El 19 de julio de 2024, se implementaron dos instancias de plantilla de IPC adicionales. Debido a un error en el validador de contenido, una de las dos instancias de plantilla pasó la validación a pesar de contener datos de contenido problemáticos.
En función de las pruebas realizadas antes de la implementación inicial del tipo de plantilla (el 5 de marzo de 2024), la confianza en las comprobaciones realizadas en el validador de contenido y las implementaciones anteriores exitosas de instancias de plantilla de IPC, estas instancias se implementaron en producción.
Cuando el sensor lo recibió y lo cargó en el intérprete de contenido, el contenido problemático en el archivo de canal 291 provocó una lectura de memoria fuera de los límites que activó una excepción. Esta excepción inesperada no se pudo manejar correctamente, lo que provocó un bloqueo del sistema operativo Windows (BSOD).
¿Cómo podemos evitar que esto vuelva a suceder?
Resiliencia y pruebas de software
  • Mejore las pruebas de contenido de respuesta rápida mediante el uso de tipos de pruebas como:
    • Pruebas de desarrolladores locales
    • Pruebas de actualización y reversión de contenido
    • Pruebas de estrés, fuzzing e inyección de fallas
    • Prueba de estabilidad
    • Prueba de interfaz de contenido
  • Agregue verificaciones de validación adicionales al Validador de contenido para contenido de respuesta rápida. Se está realizando una nueva verificación para evitar que este tipo de contenido problemático se implemente en el futuro.
  • Mejorar la gestión de errores existente en el Intérprete de Contenido.
Despliegue de contenido de respuesta rápida
  • Implementar una estrategia de implementación escalonada para contenido de respuesta rápida en la que las actualizaciones se implementan gradualmente en porciones más grandes de la base de sensores, comenzando con una implementación canaria.
  • Mejorar el monitoreo del rendimiento del sensor y del sistema, recopilando comentarios durante la implementación de contenido de respuesta rápida para guiar una implementación gradual.
  • Proporcione a los clientes un mayor control sobre la entrega de actualizaciones de contenido de respuesta rápida al permitir la selección granular de cuándo y dónde se implementan estas actualizaciones.
  • Proporcionar detalles de actualización de contenido a través de notas de la versión, a las que los clientes pueden suscribirse.
Además de esta revisión preliminar posterior al incidente, CrowdStrike se compromete a publicar el análisis de causa raíz completo una vez que se complete la investigación.



Fuente