Este trabalho investiga o desenvolvimento e a aplicação de um sistema de recuperação densa em buscas de literatura acadêmica, inspirado por trabalhos recentes que demonstram a eficácia desses sistemas em contextos de perguntas e respostas. A hipótese deste trabalho é que um sistema de recuperação baseado em representações vetoriais densas (embeddings) de passagens dos títulos, resumos e palavras-chave de trabalhos acadêmicos pode ser usada para aprimorar a recuperação desse tipo de literatura. Para testar essa hipótese, foram realizados experimentos com três sistemas distintos: dois implementados por mim, um baseado em vetores esparsos e outro baseado em vetores densos, e o sistema utilizado pelo repositório de teses da Universidade de São Paulo. A análise de desempenho foi realizada com 1800 avaliações de usuários em 45 consultas. Os resultados preliminares mostram que o sistema implementado com vetores densos (a) superou o desempenho do sistema utilizado pelo repositório de teses da Universidade de São Paulo em aproximadamente 12 pontos; e (b) superou o sistema baseado em vetores esparsos em 36 pontos. Estes resultados indicam um potencial avanço na eficácia de recuperação de informações usando modelos de linguagem.
Daniel Macêdo Batista