|
||||||||||
IntroduçãoCom o uso cada vez maior da Internet, a troca de mensagens eletrônicas, os e-mails, tornou-se uma ação muito frequente entre seus usuários, inclusive para discutir assuntos profissionais. Atualmente, segundo [6], aproximadamente um bilhão de mensagens eletrônicas são enviadas pela Web diariamente em todo o mundo. Entretanto, o número de mensagens indesejadas recebidas, os spams (Stupid Pointless Annoying Messages), também é muito grande. Apenas o CERT (Centro de Estudos, Resposta e Tratamento de Incidentes no Brasil), de janeiro até o final de maio de 2005, foi notificado sobre mais de um bilhão de spams. E o site SpamCop.net detectou aproximadamente 10,7 bilhoões de spams apenas no último mês. Esta situação gera vários problemas, tanto para empresas provedoras de acesso à Internet, que têm uma carga maior de uso de seus servidores, quanto para os usuários, que gastam tempo lendo spams para depois descartá-los, e podem ainda serem prejudicados através de vírus e spywares. Segundo a empresa americana de consultoria Ferris Research, as perdas com spams chegarão a US$50 bilhões em 2005, principalmente devido à queda de produtividade dos funcionarios. Assim, para evitar tais problemas, atualmente tem-se pesquisado bastante novas formas de detectar e bloquear mensagens consideradas spams automaticamente. Entre elas, está o uso de máquinas de suporte vetorial. Máquinas de suporte vetorial, em inglês Support Vector Machines (SVM),
são um novo conceito na área de sistemas de aprendizado computacional,
baseadas na teoria de aprendizado estatístico, desenvolvida principalmente por
Vladimir Vapnik. SVMs têm apresentado bom desempenho em várias aplicações, como,
por exemplo, classificação de sequências de DNA e reconhecimento de imagens, e
possuem um grande potencial para serem aplicadas em outras áreas.
|
||||||||||
ObjetivosO objetivo do projeto será, principalmente, estudar máquinas de suporte vetorial, e como elas podem ser aplicadas na detecção de spams. Inicialmente, estudaremos os principais conceitos envolvidos na teoria das
SVMs, como por exemplo, representações primal e dual, kernel e espaços de
características. Em seguida, veremos detalhes envolvidos com a implementação
do algoritmo e analisaremos algumas aplicações já conhecidas de SVMs.
Finalmente, estudaremos a aplicação dos conceitos vistos na detecção de spams,
realizando alguns experimentos.
|
||||||||||
Atividades já realizadasAté o momento já foram realizadas as seguintes atividades:
|
||||||||||
Cronogramas das atividades a serem realizadas no segundo semestreDurante todo o segundo semestre, a monografia estará sendo escrita e, além disso, as seguintes atividades estão planejadas:
|
||||||||||
Estrutura esperada da monografiaA parte técnica da monografia seguirá a estrutura proposta pelas agências de fomento para relatórios. Assim, a monografia possuirá os seguintes itens:
A segunda parte da monografia será sobre a experiência obtida na iniciação científica e no bacharelado de Ciência da Computação (BCC). Conterá os seguintes itens:
|
||||||||||
Bibliografia[1] N. Cristianini and J. Shawe-Taylor. An Introduction to Support Vector Machines and other kernel-based methods. Cambridge University Press, 2002. [2] C. J. C. Burges. A tutorial on support vector machines for pattern recognition.Data mining and Knowledge Discovery, 1998. [3] J. W. Eaton. Octave Manual. Network Theory Ltd., 2002. [4] D. S. Watkins. Fundamentals of Matrix Computations. John Wiley & Sons, 1991. |