Optimizing CleanUNet Architecture for Speech Denoising
Publicado: 23/08/2024 - 16:39
Última modificação: 23/08/2024 - 16:39
Linha de pesquisa: Ciência de Dados
Resumo: As técnicas de melhoramento de fala são cruciais para recuperar uma fala limpa a partir de sinais degradados por ruído e condições acústicas subótimas, como ruído de fundo e eco. Esses desafios exigem métodos eficazes de redução de ruído para melhorar a clareza da fala. Este trabalho apresenta uma versão otimizada da arquitetura CleanUNet, uma rede neural convolucional baseada na arquitetura U-Net, projetada explicitamente para tarefas de redução de ruído em fala causal. Nossa abordagem introduz a arquitetura Mamba como uma nova alternativa ao gargalo do modelo que utiliza Transformer, permitindo um processamento mais eficiente das saídas do codificador com complexidade linear. Além disso, integramos a normalização por lote (batch normalization) nas camadas convolucionais, estabilizando e acelerando o processo de treinamento. Também experimentamos várias funções de ativação para identificar a configuração mais eficaz para o nosso modelo. Ao reduzir o número de canais ocultos nas camadas convolucionais, reduzimos significativamente a quantidade de parâmetros do modelo, aumentando assim a velocidade de treinamento e inferência em uma única GPU, com uma ligeira degradação no desempenho. Essas melhorias tornam o modelo particularmente adequado para aplicações em tempo real. Nosso melhor modelo, 52.53% menor que o modelo base, alcançou 2,745, 3,288 e 0,911 pelas métricas PESQ (WB), PESQ (NB) e STOI, respectivamente. Também otimizamos um menor modelo usando apenas 1,36% dos parâmetros originais, atingindo resultados competitivos. Até onde sabemos, este trabalho é o primeiro a integrar a arquitetura Mamba como substituta do transformer padrão na CleanUNet e, em combinação com otimizações arquiteturais, oferece uma solução simplificada e mais eficiente computacionalmente para o melhoramento de fala.
Link para a defesa: https://meet.google.com/sva-yfbi-dkv