Aplicação da técnica de Aprendizado por Reforço em Lote(ARL) para um sistema de cobranças.
Aprendizado por Reforço (AR) consiste em um agente interagindo com um ambiente a fim de alcançar um objetivo, sem ter informações prévias do ambiente e sem informações se a cada tentativa ele está perto ou não de cumprir o seu objetivo. Durante suas experiências de interação com o ambiente, o agente recebe um reforço (feedback) e utiliza essa informação para de fato conseguir "aprender" sobre o ambiente e decidir quais são as melhores ações a seguir. ARL se diferencia por conhecer a priori a quantidade total de experiências usadas para aprender, o que permite realizar um processo de aprendizado por reforço off-line, em contrapartida a um processo on-line, como no AR tradicional.
Algumas técnicas de Inteligência Artificial(IA) estão sendo utilizadas no mundo real [1], sendo assim, algumas empresas começam a ver a necessidade de inserir essas técnicas em suas tecnologias. Por exemplo, num sistema de cobrança de produtos, este deve ser capaz de buscar no banco de dados o preço de um produto, a disponibilidade e a localização do mesmo, bem como concluir a compra de um cliente, calculando o valor a ser pago, receber o pagamento e devolver o troco(se existir).
Sendo assim, surge a ideia de montar um sistema de cobranças utilizando as técnicas de ARL. O lote de experiências de interação com o ambiente será extraído de um sistema real de cobrança que faz parte de um projeto PIP submetido à FAPESP, com a participação da Professora Leliane e do professor Marcelo Finger.
Este problema é um problema antigo e já muito difundido, portanto, existem diversos sistemas muito bem implementados e com uma utilização fácil, então o nosso foco aqui não vai ser montar o sistema mais utilizável por um estabelecimento, mas sim estudar as técnicas de ARL em si. Até o momento foram realizadas duas reuniões físicas com a professora Leliane, além do agendamento de uma outra com ela e pessoas envolvidas no projeto PIP descrito acima. Pude conhecer como máquinas conseguem aprender observando um ambiente na disciplina MAC0318 - Introdução à Programação de Robôs Móveis, estudei técnicas de AR na disciplina MAC0425 - Inteligência Artificial, bem como implementei funções de um Exercício-Programa(EP) com este tema, EP que utilizarei como base para um primeiro sistema de AR e li a dissertação de Mestrado do aluno Dênis Antonio Lacerda, orientado pela Leliane [2]. 1. Introdução
2. Processos Markovianos de Decisão
3. Aprendizado por Reforço
4. Aprendizado por Reforço em Lote
5. Sistema de Cobrança
6. Resultados
a. Parte subjetiva
[1] Wikipédia - Aplicações Práticas de Técnicas de IA
[2] Lacerda, Dênis Antonio(2014). "Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda":Artigo
3. Objetivos
4. Atividades já realizadas
5. Cronograma
Atividade
Março
Abril
Maio
Junho
Julho
Agosto
Setembro
Outubro
Novembro
Levantamento de referências
X
X
X
Entendimento do sistema de cobrança e requisitos
X
X
X
Estudos teóricos(AR/ARL)
X
X
X
X
X
X
Implementação AR
X
X
Implementação Sistema
X
X
X
X
X
X
Monografia
X
X
X
X
Pôster
X
X
Apresentação
X
6. Estrutura esperada monografia
7. Referências