Busca avançada
Ano de início
Entree

Análise linguística de aspectos textuais para a sumarização automática multidocumento

Processo: 13/13107-8
Linha de fomento:Bolsas no Brasil - Iniciação Científica
Vigência (Início): 01 de setembro de 2013
Vigência (Término): 31 de agosto de 2014
Área do conhecimento:Linguística, Letras e Artes - Linguística - Teoria e Análise Lingüística
Pesquisador responsável:Ariani Di Felippo
Beneficiário:Vinícius Felix dos Santos
Instituição-sede: Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Sumarização automática multidocumento   Texto

Resumo

Alguns trabalhos demonstraram que sumários humanos produzidos a partir de coleções de textos jornalísticos de diferentes fontes que versam sobre um mesmo assunto (isto é, sumários multidocumento) apresentam conjuntos específicos de aspectos em função de sua categoria. Os "aspectos" são entendidos como unidades básicas de informação. Por exemplo, um sumário de textos da categoria "acidentes naturais" apresentam os aspectos: what, when, where, why, who_affected, damages e countermeasures. Diante disso, alguns métodos de Sumarização Automática Multidocumento (SAM) selecionam, para compor o sumário, as sentenças dos textos-fonte que veiculam os aspectos encontrados nos sumários humanos. Esses métodos visam à produção de sumários direcionados ao gênero e ao domínio dos textos-fonte. Neste projeto, realizar-se-ão 2 tarefas: (i) revisar a anotação dos aspectos nos 50 sumários humanos multidocumento do corpus em português CSTNews e (ii) anotar os aspectos presentes nos 140 textos-fonte do CSTNews. A tarefa (i) justifica-se pelo fato de que, por não haver uma teoria clara e bem definida sobre os aspectos, os critérios de identificação e de definição dos mesmos precisam ser refinados. A tarefa (ii) é essencial para o desenvolvimento de métodos de SAM baseados em aspectos para o português, os quais necessitarão de um corpus de textos-fonte anotados. Assim, este trabalho, que se insere no cenário do projeto SUSTENTO (FAPESP 2012/13246-5/ CNPq 483231/2012-6), cujo objetivo geral é o de gerar subsídios linguísticos para a SAM em português, objetiva contribuir especificamente para refinar o conhecimento teórico sobre os aspectos textuais e caracterizar os sumários humanos multidocumento do CSTNews.