Instrumental de Kernel para Coleta de Dados de Eventos de Falha no Linux
Publicado: 25/11/2024 - 09:51
Última modificação: 25/11/2024 - 09:51
Linha de pesquisa: Sistemas de Computação
Resumo: Sistemas computacionais exigem alta confiabilidade, pois estão intrinsecamente envolvidos em uma variedade de contextos que impactam diretamente as atividades humanas. Falhas, seja em aplicações de usuário, em serviços ou no sistema operacional, podem resultar desde pequenos inconvenientes até em desastres envolvendo vidas. A confiabilidade é uma métrica fundamental para quantificar, de forma estatística, o nível de confiança que se pode depositar em um software. Com base na importância observada de mecanismos específicos para a coleta e análise de falhas em sistemas como o Windows, por meio do Reliability Analysis Component (RAC), identificou-se a necessidade de se realizar análises similares para o Linux. Este trabalho foca na investigação dos mecanismos de falhas General Protection Fault (GPF) e Page Fault (PF), e como elas podem ser identificadas metodologicamente pelo Linux Reliability Analysis Component (LRAC). As condições de violação para processadores x86, que originam tais falhas, foram analisadas e aplicadas na criação de uma nova taxonomia, com o objetivo de tornar a classificação dessas falhas mais precisas e menos generalistas. Foi incorporado ao LRAC um novo protocolo de coleta de dados para refletir essas especificidades. Posteriormente, testes controlados foram conduzidos para reproduzir eventos de falhas, com o objetivo de testar e avaliar as novas funcionalidades propostas para o LRAC. Os resultados demonstraram que características distintas de falhas frequentemente são diagnosticadas de maneira genérica pelos mecanismos tradicionais do Linux, e que as novas funcionalidades propostas para o LRAC foram eficazes em distinguir e classificar essas diferenças.
Link para a defesa: https://teams.microsoft.com/l/meetup-join/19%3a1ECjd6Huefxs6hBLGTiSMlvsJ...