Melhoria da quantidade e qualidade de predições do Genppi via uso do Random Forest em Common Lisp para identificar similaridade proteica
Publicado: 20/01/2025 - 16:00
Última modificação: 20/01/2025 - 16:00
Linha de pesquisa: Inteligência Artificial
Resumo: Este trabalho apresenta o aprimoramento do software Genppi por meio da integração do algoritmo de Random Forest, de modo a potencializar a predição de redes de interação proteína-proteína (PPI) em genomas bacterianos. A implementação, realizada em Common Lisp, teve como objetivo ampliar a precisão e a abrangência na análise de interações entre proteínas, especialmente em casos de baixa similaridade. A abordagem de aprendizado de máquina possibilitou a classificação de similaridade proteica de maneira eficiente, permitindo a análise de um grande volume de pares proteicos em um tempo aceitável, mesmo para dados de alta complexidade e densidade.Neste contexto, o uso de características biofísicas do genoma, combinadas ao algoritmo de Random Forest, demonstrou resultados significativos. Aplicado aos dados do genoma da bactéria Buchnera aphidicola, o modelo alcançou uma sobreposição de até 100% com interações documentadas no banco de dados STRING, comprovando a precisão e completude das predições de interações. Estes resultados quantitativos reforçam o potencial do Genppi como ferramenta de pesquisa para biomedicina e outras áreas científicas, oferecendo uma abordagem flexível que equilibra precisão, completude e menor densidade em redes de interação.Dessa forma, esta dissertação contribui para o avanço da bioinformática e o entendimento dos processos moleculares em organismos bacterianos, propondo uma solução robusta e escalável para a predição de interações proteína-proteína baseada em aprendizado de máquina e características biofísicas dos genomas.
Link para a defesa: https://teams.microsoft.com/l/team/19%3AkydmwI7lKioOPD-pc5TwgI7suLKNGu9q...