Recuperação de Informação Baseada em Embeddings: Desenvolvendo um Recuperador Denso para o Repositório de Teses da Usp

Resumo

Este trabalho investiga o desenvolvimento e a aplicação de um sistema de recuperação densa em buscas de literatura acadêmica, inspirado por trabalhos recentes que demonstram a eficácia desses sistemas em contextos de perguntas e respostas. A hipótese deste trabalho é que um sistema de recuperação baseado em representações vetoriais densas (embeddings) de passagens dos títulos, resumos e palavras-chave de trabalhos acadêmicos pode ser usada para aprimorar a recuperação desse tipo de literatura. Para testar essa hipótese, foram realizados experimentos com três sistemas distintos: dois implementados por mim, um baseado em vetores esparsos e outro baseado em vetores densos, e o sistema utilizado pelo repositório de teses da Universidade de São Paulo. A análise de desempenho foi realizada com 1800 avaliações de usuários em 45 consultas. Os resultados preliminares mostram que o sistema implementado com vetores densos (a) superou o desempenho do sistema utilizado pelo repositório de teses da Universidade de São Paulo em aproximadamente 12 pontos; e (b) superou o sistema baseado em vetores esparsos em 36 pontos. Estes resultados indicam um potencial avanço na eficácia de recuperação de informações usando modelos de linguagem.

Autor

Henrique Araújo de Carvalho

Orientador

Daniel Macêdo Batista

Monografia (atualizada em 11/Mar)

Download