A crescente adoção de Grandes Modelos de Linguagem (LLMs) promete reduzir o custo da escrita de testes unitários, mas ainda carecem de evidências sistemáticas sobre sua eficácia prática. Este trabalho investiga empiricamente a qualidade dos testes gerados por GPT-4, DeepSeek e Gemini ao longo de oito classes do projeto Apache Commons CLI 1.10.0. Utilizamos um template único de prompt aplicado manualmente, coletando métricas estruturais via JaCoCo (linhas, instruções, ramos e métodos), taxas de compilação/execução e evidências qualitativas sobre valores-limite e assertivas. Os resultados mostram diferenças marcantes entre os modelos: DeepSeek obtém a maior cobertura média (93% de instruções e 87% de ramos), porém apresenta baixa viabilidade (25% dos artefatos compilam sem intervenção). GPT-4 mostra o melhor equilíbrio entre cobertura moderada (87%/80%) e viabilidade (75% de compilação), enquanto Gemini ocupa posição intermediária. Nenhum modelo superou a suíte manual em cobertura e estabilidade simultaneamente, o que levou à confirmação da hipótese de que há desempenho distinto entre os LLMs, mas não de que alcançam a qualidade dos testes escritos por especialistas. Concluímos que LLMs são úteis como assistentes para geração inicial de testes, desde que acompanhados de revisão humana criteriosa e pipelines de validação. Como perspectivas futuras, propomos replicar o estudo em outros domínios, explorar prompts iterativos, integrar técnicas híbridas (como EvoSuite e ASTER) e avaliar capacidade real de detecção de defeitos.
O documento completo da monografia está disponível no formato PDF:
Baixar Monografia (PDF)
Materiais adicionais gerados durante o desenvolvimento do trabalho: