Resumo
Papéis semânticos representam as relações lógicas entre um evento e seus participantes. Anotação de papéis semânticos (APS) é o processo de extrair automaticamente estruturas de papéis semânticos que permitem a análise do significado das sentenças e provêm informações úteis na resolução de muitas tarefas do processamento de línguas naturais (PLN), como extração da informação, categorização e classificação de documentos, tradução de máquina, entre outras. Um problema em APS é que a maioria dos modelos são desenvolvidos para a língua inglesa, uma vez que existem poucas fontes de anotação para outras línguas, o que torna a exploração de APS para elas um grande desafio do PLN. Todavia, para a língua portuguesa, foi desenvolvido recentemente o PropBank.br cujo objetivo é preencher essa lacuna e diminuir a grande dificuldade na construção destes modelos. Contudo, os métodos da literatura para APS têm apresentado uma série de limitações relacionadas à baixa capacidade de generalização, baixa portabilidade entre fontes de anotação distintas, além do custo computacional cada vez mais elevado. Algoritmos Evolutivos (AEs) são métodos computacionais estocásticos de busca e otimização guiados pela simulação dos mecanismos de seleção natural e herança genética que manipulam uma população de possíveis soluções para um problema. Entre outras qualidades, eles são capazes de usufruir de arquiteturas paralelas, trabalhar em problemas com poucas informações e têm obtido bons resultados em várias aplicações. Dessa forma, este plano de pesquisa contempla a investigação e o desenvolvimento de métodos baseados em algoritmos evolutivos, como por exemplo, evolução diferencial, para a tarefa de anotação automática de papéis semânticos. Algumas aplicações de AEs em outras tarefas do PLN fornecem evidências de que este é um caminho promissor, uma vez que, a princípio, eles podem contribuir para a tarefa de APS tanto em termos de resultados quanto de desempenho computacional e podem obter, devido às características adaptativas que apresentam, generalização e portabilidade mais eficazes do que os métodos existentes. Neste contexto, para avaliar efetivamente o desempenho dos novos modelos serão realizados testes bastante conhecidos na literatura tais como precisão, cobertura e F1, considerando, principalmente, o corpus PropBank.br e também analisando o desempenho dos métodos criados em diferentes aplicações. Como resultado final, espera-se que a tese desenvolvida auxilie o estudo computacional dos papéis semânticos para a língua portuguesa e que os modelos elaborados possam ser utilizados em vários sistemas do PLN.
|