Algoritmos e estruturas de dados compactas para dados não relacionais

por Marcelo Zanchetta do Nascimento
Publicado: 18/09/2023 - 15:19
Última modificação: 18/09/2023 - 15:19

O processamento de grandes volumes de dados tornou-se um grande desafio para a Ciência da Computação. Em muitas situações, no entanto, o problema não está apenas na quantidade de dados, mas também no tamanho das estruturas de dados utilizadas para acessar e consultar eficientemente esses dados. Estruturas de dados compactas (EDC) têm desempenhado um papel fundamental no desenvolvimento de novas soluções para dados não relacionais. Nesses dados, o mapeamento chave-valor não é natural e o uso de estruturas convencionais, como índices invertidos e árvores B, impede soluções para indexação e busca satisfatórias. Neste projeto, pretendemos investigar algoritmos e EDCs para dados biológicos (sequências de DNA), redes dinâmicas (grafos temporais) e dados métricos (banco de dados de imagens). Em particular, investigaremos variações do vetor de sufixos (suffix array), uma estrutura de dados fundamental em processamento de dados textuais, que devido ao seu sucesso tem sido aplicada em problemas que envolvem grandes volumes de dados, como sequências de DNA (Compressed Suffix Arrays - CSA), grafos temporais (Temporal Graphs CSA - TGCSA) e dados métricos (Metric Suffix Array - MSA). Pretendemos desenvolver soluções para: encontrar repetições em sequências de DNA utilizando o CSA; propor funcionalidades adicionais ao TGCSA para responder consultas por alcançabilidade em grafos temporais; e projetar uma versão compacta para o MSA com o objetivo de trazer mais dados para a memória RAM e acelerar o desempenho de consultas que têm perfil de acesso aleatório.

Financiadores: 
Linhas de Pesquisa: