Busca avançada
Ano de início
Entree

Investigação de Métodos de Identificação de Redundância para Sumarização Multidocumento

Processo: 11/07637-9
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de agosto de 2011
Data de Término da vigência: 31 de julho de 2012
Área de conhecimento:Linguística, Letras e Artes - Linguística - Teoria e Análise Lingüística
Pesquisador responsável:Ariani Di Felippo
Beneficiário:Jackson Wilke da Cruz Souza
Instituição Sede: Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Linguística textual   Sumarização automática
Palavra(s)-Chave do Pesquisador:fenômenos linguísticos multidocumento | Linguística Textual | redundância | seleção de conteúdo | sumário multidocumento | Sumarização Automática | Processamento Automático de Língua Natural

Resumo

Dada a grande quantidade de informação disponível em várias línguas, sobretudo na web, pesquisas que visam à automatização da tarefa de sumarização multidocumento (SAM) fazem-se relevantes na medida em que podem facilitar e agilizar o acesso a informação. Tais pesquisas são realizadas na subárea do Processamento Automático das Línguas Naturais denominada Sumarização Automática. Na tarefa de SAM, o tratamento da redundância é um dos principais tópicos de pesquisa, pois um sumário multidocumento deve conter o conjunto de sentenças que melhor representa o tópico ou assunto da coleção sem que haja informação repetida entre elas. Tendo em vista a escassez de trabalhos sobre SAM que envolvem o português do Brasil (PB), o objetivo deste trabalho é investigar algumas medidas/formas de se calcular a redundância entre sentenças de textos jornalísticos em PB. Além disso, pretende-se considerar a correspondência dessas medias/formas com as relações semânticas de redundância do modelo CST (do inglês, Cross-document Structure Theory) (RADEV, 2000).

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)