Busca avançada
Ano de início
Entree

Extração automática de relações semânticas a partir de textos em português do Brasil

Processo: 11/04482-4
Linha de fomento:Bolsas no Brasil - Mestrado
Vigência (Início): 01 de setembro de 2011
Vigência (Término): 28 de fevereiro de 2013
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Helena de Medeiros Caseli
Beneficiário:Leonardo Sameshima Taba
Instituição-sede: Centro de Ciências Exatas e de Tecnologia (CCET). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Processamento de linguagem natural

Resumo

Este documento apresenta uma proposta de projeto a ser desenvolvido no Laboratório de Linguística Computacional (LaLiC) da Universidade Federal de São Carlos (UFSCar) no âmbito do Processamento das Línguas Naturais (PLN), mais especificamente na Extração de Informação (EI), e, em particular, a extração de relações semânticas a partir de textos. A extração de informação é uma dentre muitas das aplicações do PLN; seu foco é o processamento de textos com o objetivo de recuperar informações específicas sobre uma determinada entidade ou conceito. Nesta proposta, especificamente, pretende-se investigar como relações semânticas binárias podem ser extraídas automaticamente de textos escritos no português do Brasil. Tais relações se baseiam na teoria de Minsky (1986) e são usadas para representar conhecimento de senso comum no projeto Open Mind Common Sense no Brasil (OMCS-Br) desenvolvido no LIA (Laboratório de Interação Avançada) da UFSCar. A construção e melhoramento de ontologias são alguns dos principais usos da extração de relações semânticas. As primeiras estratégias para essa tarefa se basearam na busca de padrões léxico-sintáticos em textos, onde uma determinada expressão textual indicava que havia uma relação específica entre dois termos em uma sentença. A alta precisão mas baixa cobertura dessa abordagem levou ao estudo de modelos que utilizam aprendizado de máquina como método principal, englobando o uso de técnicas como classificadores probabilísticos e estatísticos, além de métodos de kernel, que atualmente figuram no estado da arte. Assim, esta proposta busca investigar, implementar e avaliar algumas dessas técnicas, com o objetivo de avançar o estado da arte em extração de informação com foco no idioma português do Brasil, que ainda carece de recursos na área semântica, além de avançar o cenário de PLN brasileiro como um todo. (AU)