Bolsa 13/12629-0 - Sumarização automática multidocumento, Processamento de linguagem natu - BV FAPESP
Busca avançada
Ano de início
Entree

Análise linguística da operação de generalização na sumarização Humana multidocumento

Processo: 13/12629-0
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de setembro de 2013
Data de Término da vigência: 31 de agosto de 2014
Área de conhecimento:Linguística, Letras e Artes - Linguística - Teoria e Análise Lingüística
Pesquisador responsável:Ariani Di Felippo
Beneficiário:Marina Delege
Instituição Sede: Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Sumarização automática multidocumento   Processamento de linguagem natural   Análise linguística   Análise de conteúdo
Palavra(s)-Chave do Pesquisador:análise textual | corpus jornalístico | generalização | operação de sumarização | sumário multidocumento | Sumarização automática multidocumento | Processamento Automático de Língua Natural

Resumo

Na produção de um sumário a partir de uma coleção de textos provenientes de diferentes que tratam de um mesmo assunto, os humanos reduzem o conteúdo dos textos-fonte com base em operações de fusão, como eliminação, união, intersecção, generalização, etc. O conteúdo condensado por essa operações de fusão pode ser linguisticamente expresso com base em operações de cut-and-paste ou reescrita (de palavras, expressões, etc.) dos próprios textos-fonte, como (I) redução sentencial, (II) combinação sentencial, (III) transformação sintática, (IV) paráfrase lexical e (V) reordenação. Neste projeto, investigar-se-á a generalização na sumarização humana multidocumento (SHM), na qual um único sumário é produzido a partir de uma coleção de textos provenientes de fontes distintas que abordam um mesmo assunto. Para tanto, partir-se-á do corpus CSTNews, composto por 50 coleções de textos jornalísticos e seus sumários humanos multidocumento. Nesse corpus, as sentenças do sumário de dada coleção C foram manualmente alinhadas, com base na sobreposição de conteúdo, às sentenças dos textos-fonte de C que lhe deram origem. Do total de 1007 alinhamentos, identificaram-se 82 (8.1%) em que o conteúdo da sentença do sumário foi generalizado a partir de sua(s) sentença(s) de origem. Inserindo-se no projeto SUSTENTO (FAPESP 2012/13246-5/ CNPq 483231/2012-6), cujo objetivo é o de gerar subsídios linguísticos para a Sumarização Automática Multidocumento (SAM) em português, pretende-se descrever as operações de reescrita envolvidas nos alinhamentos do referido corpus e verificar se há operações recorrentes. Se sim, buscar-se-á sistematizá-las para subsidiar a SAM.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)