Compressão gramatical com extração eficiente
Publicado: 24/04/2024 - 11:04
Última modificação: 24/04/2024 - 11:12
Link para a defesa: Ciência de Dados
Resumo: Apresentamos um compressor, denominado GCX (Grammar Compression modulo X),baseado na técnica de compressão gramatical por indução, introduzida no GCIS (NUNESet al,2022). Nosso método incorpora a fatoração de textos utilizada pelo algoritmo de ordenação de sufixos DC3 (KaRKKaINEN; SANDERS; BURKHARDT,2006), para criar uma gramática livre de contexto capaz de produzir o texto de entrada. Nós avaliamos
o desempenho do nosso algoritmo utilizando diferentes valores de cobertura x, e introduzimos uma heurística baseada na média do prefixo comum mais longo entre as regras
da gramática para definir o valor dessa cobertura. GCX suporta operações de extração rápidas sobre o texto codificado sem a necessidade de descompressão. Nossos experimentos foram realizados com conjuntos de dados reais e artificiais e os resultados mostraram que o GCX, em comparação com o GCIS, é mais lento para comprimir, mais rápido para descomprimir, tem uma taxa de compressão pior na maioria das vezes; por outro lado,possuí velocidade de extração aproximadamente 100 vezes mais rápida.
A defesa será realizada no bloco 1B sala 132