Busca avançada
Ano de início
Entree

Anotação automática semissupervisionada de papéis semânticos para o português do Brasil

Processo: 10/04647-0
Modalidade de apoio:Bolsas no Brasil - Mestrado
Vigência (Início): 01 de agosto de 2011
Vigência (Término): 31 de dezembro de 2012
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:João Luís Garcia Rosa
Beneficiário:Fernando Emilio Alva Manchego
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Bolsa(s) vinculada(s):11/22500-0 - Adaptação de métodos não supervisionados de anotação de papéis semânticos para o Português do Brasil, BE.EP.MS
Assunto(s):Processamento de linguagem natural
Palavra(s)-Chave do Pesquisador:Anotação de Papéis Semânticos | Aprendizado Semissupervisionado | Processamento de Línguas Naturais

Resumo

A anotação de papéis semânticos (APS) é uma área do processamento de língua natural (PLN) que, nos últimos anos, vem sendo muito investigada porque permite uma análise do significado das sentenças através da detecção dos eventos que estão sendo descritos nelas, assim como dos participantes envolvidos, o que é essencial para que os computadores possam usar efetivamente a informação codificada no texto. No entanto, a maior parte das pesquisas desenvolvidas tem sido feita para textos em inglês, considerando as particularidades gramaticais e semânticas dessa língua, o que impede que esses produtos e resultados sejam diretamente transportáveis para outras como o português. Métodos de aprendizado supervisionado são usados atualmente para APS automática, mas para um aprendizado bem sucedido, são necessários grandes corpora de sentenças anotadas. Para o português do Brasil está em desenvolvimento o PropBank.Br, que fornece um corpus anotado pequeno mas útil para a tarefa. Assim, será empregado um método capaz de extrair informação relevante desses "poucos" dados rotulados e também de abundantes dados não rotulados disponíveis (aprendizado semissupervisionado). Com este objetivo, um classificador será treinado usando as etiquetas do PropBank.Br para anotar o corpus Bosque (seção CETENFolha) da Floresta Sintá(c)tica, empregando o algoritmo self-training e os modelos de máxima entropia como classificador base. As medidas de precisão, cobertura e F1 serão calculadas para avaliar o desempenho do anotador. Ao final da pesquisa, espera-se disponibilizar uma ferramenta para APS automática para português do Brasil, que possa beneficiar as diferentes áreas do PLN para o português. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
MANCHEGO, Fernando Emilio Alva. Anotação automática semissupervisionada de papéis semânticos para o português do Brasil. 2013. Dissertação de Mestrado - Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB) São Carlos.

Por favor, reporte erros na lista de publicações científicas utilizando este formulário.