Busca avançada
Ano de início
Entree

Análise linguística da operação de especificação na sumarização humana multidocumento

Processo: 13/12511-0
Linha de fomento:Bolsas no Brasil - Iniciação Científica
Vigência (Início): 01 de setembro de 2013
Vigência (Término): 31 de agosto de 2014
Área do conhecimento:Linguística, Letras e Artes - Linguística - Teoria e Análise Lingüística
Pesquisador responsável:Ariani Di Felippo
Beneficiário:Carla Chuman
Instituição-sede: Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Sumarização automática multidocumento   Especialização

Resumo

Na produção de um sumário a partir de uma coleção de textos provenientes de diferentes que tratam de um mesmo assunto, os humanos reduzem o conteúdo dos textos-fonte com base em operações de fusão, como eliminação, união, intersecção, generalização, etc. O conteúdo condensado por essa operações de fusão pode ser linguisticamente expresso com base em operações de cut-and-paste ou reescrita (de palavras, expressões, etc.) dos próprios textos-fonte, como (i) redução sentencial, (ii) combinação sentencial, (iii) transformação sintática, (iv) paráfrase lexical e (v) reordenação. Neste projeto, investigar-se-á a especificação na sumarização humana multidocumento (SHM), na qual um único sumário é produzido a partir de uma coleção de textos provenientes de fontes distintas que abordam um mesmo assunto. Para tanto, partir-se-á do corpus CSTNews, composto por 50 coleções de textos jornalísticos e seus sumários humanos multidocumento. Nesse corpus, as sentenças do sumário de dada coleção C foram manualmente alinhadas, com base na sobreposição de conteúdo, às sentenças dos textos-fonte de C que lhe deram origem. Do total de 1007 alinhamentos, identificaram-se 48 (4.7%) em que o conteúdo da sentença do sumário foi especificado a partir de sua(s) sentença(s) de origem. Inserindo-se no projeto SUSTENTO (FAPESP 2012/13246-5/ CNPq 483231/2012-6), cujo objetivo é o de gerar subsídios linguísticos para a Sumarização Automática Multidocumento (SAM) em português, pretende-se descrever as operações de reescrita envolvidas nos alinhamentos com especificação do referido corpus e verificar se há operações recorrentes. Se sim, buscar-se-á sistematizá-las para subsidiar a SAM.