bioJ48: Adaptando o Método J48 para Classificação de Dados Biológicos Desbalanceados

Dissertação de Mestrado
por Caroline Félix de Oliveira
Publicado: 08/07/2025 - 11:39
Última modificação: 08/07/2025 - 11:39

Linha de pesquisa: Inteligência Artificial

Resumo: Modelos de classificação baseados em árvores de decisão são amplamente utilizados em Machine Learning (ML) devido à sua alta interpretabilidade e precisão. No entanto, algoritmos tradicionais de árvores de decisão, como o J48 (uma implementação do C4.5), enfrentam desafios quando aplicados a conjuntos de dados biológicos desbalanceados, nos quais a quantidade de registros por classe varia significativamente. Esse desbalanceamento pode levar a métricas de desempenho enganosas, pois os modelos tendem a favorecer a classe majoritária, negligenciando a classe minoritária, que muitas vezes é crucial em aplicações médicas e biológicas. Este estudo propõe modificações no algoritmo J48 para melhorar sua sensibilidade e especificidade na classificação de dados biológicos desbalanceados. A pesquisa explora ajustes no cálculo de ganho de informação, visando aprimorar o desempenho do algoritmo sem comprometer sua interpretabilidade. Diversas métricas de avaliação são analisadas para garantir uma abordagem de classificação mais equilibrada. A metodologia envolve a implementação e teste do J48 modificado, chamado bioJ48, em conjuntos de dados biológicos reais com diferentes graus de desbalanceamento. Experimentos comparativos entre o J48 tradicional e o bioJ48 são conduzidos, avaliando a eficácia preditiva com base em métricas como acurácia, precisão, recall e F1-score. Os resultados esperados incluem um modelo de classificação aprimorado, capaz de identificar melhor as classes minoritárias em dados biológicos, proporcionando uma avaliação de desempenho mais confiável por meio de métricas diversificadas. As modificações propostas visam contribuir para o campo de ML, oferecendo uma solução prática para o problema do desbalanceamento de classes na análise de dados biológicos.

Link para a defesa: https://teams.microsoft.com/l/meetup-join/19%3ameeting_OGUyNzgyNWQtMGM5M...

Banca Examinadora: 
Marcelo Tavares - Universidade Federal de Uberlândia, Faculdade de Matemática.
Leticia da Conceição Braga - Instituto Mário Penna, Núcleo de Ensino e Pesquisa.
Data e Horário: 
10/07/2025 - 14:00
Virtual, 2121 1B
Uberlândia, Minas Gerais, Brasil
38400-902
Campus Santa Mônica - Bloco 1B - Sala 230
Complemento: 
1B