Detección de botnets y ransomware en redes de datos mediante técnicas de aprendizaje automático

Fernández Maimó, Lorenzo

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10201/73765

RefMan EndNote BibTex RefWorks Excel CSV PDF Mendeley

Título:	Detección de botnets y ransomware en redes de datos mediante técnicas de aprendizaje automático
Fecha de publicación:	15-jul-2019
Fecha de defensa / creación:	12-jul-2019
Editorial:	Universidad de Murcia
Materias relacionadas:	CDU::0 - Generalidades.::00 - Ciencia y conocimiento. Investigación. Cultura. Humanidades.::004 - Ciencia y tecnología de los ordenadores. Informática.::004.2 - Arquitectura informática
Palabras clave:	Inteligencia artificial Redes de ordenadores
Resumen:	Los sistemas de ciberdefensa existentes basados en Sistemas de Detección de Intrusiones (IDS en inglés) incluyen enfoques proactivos para anticipar ataques que exploran vulnerabilidades en sistemas informáticos y así poder ejecutar acciones de mitigación. Sin embargo, existen entornos en los que los IDS tienen dificultades para alcanzar su objetivo. Por ejemplo, en el entorno de las redes de comunicaciones móviles, la próxima tecnología 5G impondrá velocidades de transmisión y volúmenes de datos tan altos que examinar todos los paquetes que circulen por la red será un reto inalcanzable para los IDS actuales. A esto hay que añadir que el volumen de datos que circulan cifrados por la red es cada día mayor, lo que impide el examen de la carga útil del paquete. Dos de los problemas de ciberserguridad más relevantes actualmente por su impacto y difusión son las botnets y el ransomware. Ambos tienen en común que generan tráfico de red siguiendo unos patrones característicos. Todos estos patrones pueden interpretarse como anomalías en el tráfico normal de la red, donde una anomalía puede definirse como un patrón que no se ajusta al comportamiento esperado o normal. El principal objetivo de esta tesis consiste en investigar la forma de aplicar métodos de aprendizaje automático a la detección de anomalías en redes de datos con restricciones motivadas, por ejemplo, por el volumen de tráfico circulante (redes 5G), tener que trabajar con tráfico cifrado (entornos clínicos), o la necesidad de una detección y mitigación automática y en tiempo real. Esta tesis plantea que un flujo por sí solo, sin acceso a la carga útil de los paquetes, no aporta suficiente información, y se propone estudiar si un contexto para ese flujo, formado por los flujos recibidos previamente durante un periodo de tiempo, permitiría una detección más precisa. Dada la pérdida de información, los patrones a detectar serán más complejos, siendo necesario emplear métodos de aprendizaje automático tanto clásicos como profundos. Esta tesis además defiende que la evaluación del tráfico podrá hacerse a la velocidad de las exigentes redes 5G, y que el tiempo de detección/mitigación permitirá impedir la propagación de ransomware. Todo esto de forma dinámica, inteligente, en tiempo real, e integrado dentro de una arquitectura adecuada. Para llevar a cabo estos objetivos se ha seguido la siguiente metodología: • Estudio de los sistemas de detección de anomalías basados en aprendizaje automático aplicados a redes de datos existentes en la literatura. • Identificación de escenarios donde la detección de anomalías suponga un reto, analizando la viabilidad del enfoque basado en flujos de red en estos contextos. • Estudio y selección de los algoritmos de aprendizaje automático más adecuados a cada escenario. • Planteamiento de una arquitectura basada en NFV/SDN para cada escenario que integre de forma dinámica y flexible detección y mitigación de anomalías en tiempo real. • Utilización de un conjunto de datos público existente adecuado para evaluar la propuesta o creación de uno para ponerlo a disposición de la comunidad científica. • Evaluación experimental de las arquitecturas propuestas en clasificación, consumo de recursos y velocidad de detección/mitigación. A continuación se enumeran los principales resultados obtenidos en el desarrollo de esta tesis doctoral. • Se presentó una forma novedosa de calcular un vector de características asociado a un flujo, incorporando información agregada de los flujos recibidos durante un tiempo antes para proporcionar a dicho flujo un contexto. • Se propuso un sistema adaptativo basado en NFV/SDN para la detección de anomalías en el contexto de las redes de datos sobre 5G. Integrado en este sistema se incluye un modelo de detección basado en aprendizaje profundo en dos niveles, donde el nivel inferior se ejecuta en el borde de la red detectando síntomas de anomalías que el nivel superior utiliza para identificar una posible anomalía global. • Se obtuvieron medidas del rendimiento en tiempo de ejecución al evaluar la implementación del modelo en el borde (una red neuronal profunda), con las bibliotecas de desarrollo para aprendizaje profundo más populares. Estos tiempos se emplearon para demostrar la adaptabilidad de la arquitectura propuesta para 5G. • Se determinó que dicha red neuronal profunda, usando el vector de características mencionado, es capaz de detectar tanto botnets conocidas como desconocidas. • Se presentó un segundo sistema basado en NFV/SDN, capaz de detectar, clasificar y mitigar ataques de ransomware en las habitaciones de hospital del futuro de forma automática, inteligente y en tiempo real. Este sistema se apoya en el vector de características diseñado e incorpora todo un ciclo de vida que incluye unas etapas fuera de línea para la adquisición de datos y entrenamiento junto con otras en tiempo real para la detección y mitigación. • Se ha mostrado la efectividad de esta propuesta para la detección y mitigación de ransomware conocido y desconocido, en tiempo suficientemente corto como para evitar su propagación, mediante experimentos realizados en un entorno virtualizado. Para ello se generó un conjunto de datos a partir de tráfico capturado en dicho entorno y se ha puesto a disposición de la comunidad científica The existing cyberdefense systems based on Intrusion Detection Systems (IDS) include (pro-)active approaches to anticipate and mitigate attacks that exploit vulnerabilities in computing systems. However, there exist environments in which IDS have difficulties in reaching their goal. For example, in the context of mobile communications, the high transmission rates and large data volumes expected in the future 5G technology will prevent actual IDS from examining every packet in the network. Additionally, the use of encrypted traffic is increasingly frequent, preventing payload examination. Two of the most relevant cybersecurity threats are botnets and ransomware. Both of them generate rather characteristic network traffic patterns which can be interpreted as anomalies in the normal network traffic. In general, an anomaly can be defined as a pattern that does not follow an expected behavior considered as normal. The main objective of this doctoral thesis is to research how to use machine learning techniques for anomaly detection in data networks with constraints. These constraints can be motivated, for example, by an enormous traffic volume (5G networks), encrypted traffic (clinical environments), or the requirement of automatic and real-time detection and mitigation, among others. This doctoral thesis argues that one only netflow, without accessing to the packet payload, does not provide sufficient information; therefore, it proposes adding a context to the netflow to allow a more accurate detection. This context will be obtained from the netflows received in a given period of time preceding the netflow in question. By using netflows, the detection must be done with less information; thus, the patterns to be detected will be more complex and it is necessary to utilize machine learning algorithms to identify them. Moreover, this work argues that this netflow evaluation can be done at the rate of the demanding 5G networks, and that the detection/mitigation time can prevent ransomware spread. All this is integrated into a suitable architecture, and it is done in real time, and in a dynamic and intelligent way. In order to achieve these goal, the following methodology has been applied: • Critical analysis of the machine learning-based anomaly detection systems applied to data networks in literature. • Identification of scenarios where anomaly detection is challenging by means of analyzing the feasibility of a netflow-based solution in these contexts. • Thorough study of a selected set of suitable machine learning algorithms for each scenario. • Design of an architecture based on NFV/SDN for each scenario, integrating anomaly detection and mitigation in a dynamic and flexible way, as well as in real time. • Use of an existing public data set appropriate to evaluate the proposal or creation of one to make it available to the scientific community. • Experimental evaluation of the proposed architectures in classification, resource consumption and detection/mitigation time. The main results obtained in the development of this doctoral thesis are listed below. • A novel way of calculating a feature vector associated to a netflow was presented. This feature vector incorporates aggregated information of the preceding netflows received in a time interval to provide a context to this netflow. • An adaptive system based on NFV/SDN was proposed for the detection of anomalies in the context of 5G data networks. Integrated into this system is a detection model based on deep learning at two levels. The lower level runs at the edge of the network, detecting symptoms of anomalies that the upper level uses to identify a potential global anomaly. • Runtime performance measures were obtained by evaluating the implementation of the model at the edge (a deep neural network), with the most popular deep learning development libraries. These measured times were used to demonstrate the adaptability of the proposed 5G architecture. • It was determined that this deep neural network, using the feature vector mentioned above, is capable of detecting both known and unknown botnets. • A second system based on NFV/SDN was introduced, capable of detecting, classifying and mitigating ransomware attacks in the hospital rooms of the future automatically, intelligently and in real time. This system builds on the designed feature vector and incorporates an entire life cycle that includes offline data acquisition and training, along with real-time detection and mitigation. • The effectiveness of this proposal has been shown for detection and mitigation of known and unknown ransomware, through extensive experiments carried out in a virtualized environment. To this end, a new dataset was generated from traffic captured in that environment and has been made available to the scientific community. Our experiments demonstrated that the proposed method is able to avoid the ransomware spread.
Autor/es principal/es:	Fernández Maimó, Lorenzo
Director/es:	García Clemente, Félix Jesús
Facultad/Servicios:	Escuela Internacional de Doctorado
Forma parte de:	Proyecto de investigación:
URI:	http://hdl.handle.net/10201/73765
Tipo de documento:	info:eu-repo/semantics/doctoralThesis
Número páginas / Extensión:	85
Derechos:	info:eu-repo/semantics/openAccess Attribution-NonCommercial-NoDerivatives 4.0 International
Aparece en las colecciones:	Ingeniería

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
Lorenzo Fernández Maimó Tesis Doctoral s Art.pdf		353,08 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem Mostrar el registro PREMIS del ítem Estadísticas

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons