Geração de dados sintéticos longitudinais a partir de estruturas causais

Dissertação de Mestrado
por Caroline Félix de Oliveira
Publicado: 23/12/2025 - 15:21
Última modificação: 07/01/2026 - 14:46

Linha de pesquisa: Ciência de Dados

Resumo: A inferência causal busca identificar relações de causa e efeito, indo além da correlação ao estimar como os resultados mudariam sob diferentes condições. Essa capacidade de
prever desfechos contrafactuais é fundamental em aplicações reais — como medicina, finanças e ciências sociais — onde decisões confiáveis dependem de uma compreensão
causal dos fenômenos. A avaliação sistemática de modelos de inferência causal ainda é limitada pela escassez de conjuntos de dados de referência cujos mecanismos subjacentes sejam completamente
conhecidos. Nesse cenário, esta dissertação apresenta o Causal Synthetic Data Generator (CSDG), uma ferramenta de código aberto capaz de gerar dados longitudinais sintéticos governados por estruturais causais, com dinâmicas autorregressivas explícitas. O CSDG permite controle detalhado sobre a intensidade dos efeitos das variáveis, das intervenções no tratamento e dos níveis de ruído, oferecendo uma plataforma flexível e
independente de domínio para experimentação e avaliação de algoritmos de aprendizado causal. A formalização proposta baseia-se em equações estruturais causais autorregressivas,
que integram relações de causa e efeito com dependências temporais, possibilitando a geração de cenários factuais e contrafactuais sob diferentes estruturas causais.
Com o objetivo de validar a consistência dos dados gerados, este trabalho inclui uma etapa de análise quantitativa e testes em uma tarefa de previsão de resultados. As avaliações
realizadas demonstram que os dados sintéticos preservam propriedades esperadas de correlação e resposta às intervenções e os resultados obtidos evidenciam a coerência
causal e o realismo estatístico dos dados gerados, confirmando a adequação do CSDG como ferramenta de benchmarking e validação de modelos causais.
O código fonte do CSDG encontra-se disponível no repositório <https://github.com/angeruzzi/causal-synthetic-data-gen>.

Link para a defesa: https://teams.microsoft.com/l/meetup-join/19%3ameeting_NzBiMTM2ZWEtMzhiZ...

Banca Examinadora: 
Bruno Augusto Nassif Travençolo - Universidade Federal de Uberlândia, Centro de Ciências Exatas e Tecnologia, Faculdade de Ciências da Computação.
Luís Alvaro de Lima Silva - Universidade Federal de Santa Maria, Centro de Tecnologia - CT, UFSM.
Data e Horário: 
19/01/2026 - 14:00
Virtual, 2121 1B
Uberlândia, Minas Gerais, Brasil
38400-902
Campus Santa Mônica - Bloco 1B - Sala 230
Complemento: 
1B