Identificação de Posts Maliciosos na Dark Web Utilizando Aprendizado de Máquina Supervisionado

Dissertação de Mestrado
por Caroline Félix de Oliveira
Publicado: 08/01/2024 - 14:08
Última modificação: 08/01/2024 - 14:08

Linha de pesquisa: Sistemas de Computação

Resumo:  Diante do crescimento constante e da sofisticação dos ataques cibernéticos, a segurança cibernética não pode mais depender exclusivamente de técnicas e ferramentas tradicionais de defesa. A detecção proativa de ameaças cibernéticas torna-se uma necessidade nos dias atuais para que as equipes de segurança possam identificar potenciais ameaças e adotar medidas de mitigação eficazes. A área de Cyber Threat Intelligence (CTI), ou Inteligência de Ameaças Cibernéticas, desempenha um papel fundamental ao fornecer aos analistas de segurança conhecimento fundamentado em evidências sobre ameaças cibernéticas. A extração de informações de CTI pode ocorrer por meio de diversas técnicas e envolver diferentes fontes de dados; no entanto, o uso de aprendizado de máquina tem se mostrado uma abordagem promissora nessa área. Quanto à fonte de dados, as redes sociais e fóruns de discussão online têm sido comumente explorados. Nesta dissertação, aplicam-se técnicas de mineração de texto, Processamento de Linguagem Natural (PLN) e aprendizado de máquina em dados coletados de fóruns da Dark Web com o objetivo de identificar posts maliciosos. A base de dados para treinamento foi rotulada levando em consideração a ocorrência de Indicadores de Comprometimento (IoCs), palavras-chave contextuais, além de análise manual. Diferentes algoritmos de classificação foram testados utilizando diversas formas de representações de texto para encontrar o melhor modelo. Os resultados revelaram que o modelo com o algoritmo Light Gradient Boosting Machine (LightGBM) e Term Frequency (TF) - Inverse Document Frequency (IDF) - (TF-IDF - Unigram) como representação de texto alcançou as melhores métricas de acurácia, precisão, revocação e medida-F. Adicionalmente, novos posts não rotulados foram submetidos ao classificador, apresentando resultados promissores ao serem analisados com auxílio de um algoritmo de modelagem de tópicos - Latent Dirichlet Allocation (LDA).

Link para a defesa: https://teams.microsoft.com/l/meetup-join/19%3ameeting_OTMzMWIyZjMtYzAyNi00YmQ2LWJlMjUtNzgxN2IwOWM5MTFk%40thread.v2/0?context=%7b%22Tid%22%3a%22cd5e6d23-cb99-4189-88ab-1a9021a0c451%22%2c%22Oid%22%3a%222a3b5fce-57dd-49d6-b87c-06a057275356%22%7d

Banca Examinadora: 
Silvio Quincozes - Universidade Federal do Pampa, Campus alegrete.
Bruno Bogaz Zarpelão - Universidade Estadual de Londrina, Centro de Ciências Exatas, Departamento de Computação.
Data e Horário: 
29/01/2024 - 14:00
Virtual, 2121 1B
Uberlândia, Minas Gerais, Brasil
38400-902
Campus Santa Mônica - Bloco 1B - Sala 230
Complemento: 
1B