Busca avançada
Ano de início
Entree

Anotação automática semissupervisionada de papéis semânticos para o português do Brasil

Processo: 10/04647-0
Linha de fomento:Bolsas no Brasil - Mestrado
Vigência (Início): 01 de agosto de 2011
Vigência (Término): 31 de dezembro de 2012
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:João Luís Garcia Rosa
Beneficiário:Fernando Emilio Alva Manchego
Instituição-sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Bolsa(s) vinculada(s):11/22500-0 - Adaptação de métodos não supervisionados de anotação de papéis semânticos para o Português do Brasil, BE.EP.MS
Assunto(s):Processamento de linguagem natural

Resumo

A anotação de papéis semânticos (APS) é uma área do processamento de língua natural (PLN) que, nos últimos anos, vem sendo muito investigada porque permite uma análise do significado das sentenças através da detecção dos eventos que estão sendo descritos nelas, assim como dos participantes envolvidos, o que é essencial para que os computadores possam usar efetivamente a informação codificada no texto. No entanto, a maior parte das pesquisas desenvolvidas tem sido feita para textos em inglês, considerando as particularidades gramaticais e semânticas dessa língua, o que impede que esses produtos e resultados sejam diretamente transportáveis para outras como o português. Métodos de aprendizado supervisionado são usados atualmente para APS automática, mas para um aprendizado bem sucedido, são necessários grandes corpora de sentenças anotadas. Para o português do Brasil está em desenvolvimento o PropBank.Br, que fornece um corpus anotado pequeno mas útil para a tarefa. Assim, será empregado um método capaz de extrair informação relevante desses "poucos" dados rotulados e também de abundantes dados não rotulados disponíveis (aprendizado semissupervisionado). Com este objetivo, um classificador será treinado usando as etiquetas do PropBank.Br para anotar o corpus Bosque (seção CETENFolha) da Floresta Sintá(c)tica, empregando o algoritmo self-training e os modelos de máxima entropia como classificador base. As medidas de precisão, cobertura e F1 serão calculadas para avaliar o desempenho do anotador. Ao final da pesquisa, espera-se disponibilizar uma ferramenta para APS automática para português do Brasil, que possa beneficiar as diferentes áreas do PLN para o português. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Matéria(s) publicada(s) em Outras Mídias (0 total):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)