Aluno
Luan Tavares de Andrade - 12542904
Orientador
Marcelo Finger
Motivação
O projeto SPIRA (Detecting respiratory insufficiency by voice analysis: the SPIRA project, 2021) demonstrou possível o estudo da voz humana para detecção de insuficiência respiratória, especialmente durante o período da pandemia de Covid-19. Durante a fase inicial do projeto, visando melhorar a qualidade dos dados, foi utilizada a inserção de ruídos hospitalares nos áudios coletados. Essa abordagem previa padronizar as condições (ambiente) de gravação dos grupos analisados (pacientes e grupo de controle) e reduzir o viés do modelo utilizado. Apesar dos resultados obtidos ao final do projeto serem satisfatórios, surgiu o questionamento sobre a eficiência dos métodos de tratamento inicial dos dados, principalmente quando comparado a outras abordagens.
Resumo
Este trabalho investigou a eficácia da filtragem de ruído como estratégia de pré-processamento para mitigar o viés ambiental no dataset SPIRA. Foram avaliadas duas arquiteturas de redes neurais: a CNN10 (Convolucional) e o AudioMAE (Transformer).
A metodologia consistiu em estabilizar o filtro de forma a evitar que os modelos aprendessem artefatos decorrentes da filtragem; e um teste de viés, onde ruído hospitalar foi inserido em todo o dataset antes da filtragem para verificar ou não a persistência de viés ambiental.
Os resultados demonstraram queambos os modelos falharam em remover o viés. No teste com inserção de ruído, observou-se um colapso das métricas avaliadas, comprovando que os modelos aprenderam a associar o ruído residual ou os fragmentos da filtragem à classe positiva. Conclui-se que a filtragem é insuficiente para corrigir vieses ambientais, sugerindo o uso de outras abordagens.
Referências
CASANOVA, Edresson et al. Deep learning against COVID-19: respiratory insufficiency detection in Brazilian Portuguese speech. In: Proceedings. 2021.
KONG, Qiuqiang et al. Panns: Large-scale pretrained audio neural networks for audio pattern recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, v. 28, p. 2880-2894, 2020.