| Processo: | 13/12629-0 |
| Modalidade de apoio: | Bolsas no Brasil - Iniciação Científica |
| Data de Início da vigência: | 01 de setembro de 2013 |
| Data de Término da vigência: | 31 de agosto de 2014 |
| Área de conhecimento: | Linguística, Letras e Artes - Linguística - Teoria e Análise Lingüística |
| Pesquisador responsável: | Ariani Di Felippo |
| Beneficiário: | Marina Delege |
| Instituição Sede: | Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil |
| Assunto(s): | Sumarização automática multidocumento Processamento de linguagem natural Análise linguística Análise de conteúdo |
| Palavra(s)-Chave do Pesquisador: | análise textual | corpus jornalístico | generalização | operação de sumarização | sumário multidocumento | Sumarização automática multidocumento | Processamento Automático de Língua Natural |
Resumo Na produção de um sumário a partir de uma coleção de textos provenientes de diferentes que tratam de um mesmo assunto, os humanos reduzem o conteúdo dos textos-fonte com base em operações de fusão, como eliminação, união, intersecção, generalização, etc. O conteúdo condensado por essa operações de fusão pode ser linguisticamente expresso com base em operações de cut-and-paste ou reescrita (de palavras, expressões, etc.) dos próprios textos-fonte, como (I) redução sentencial, (II) combinação sentencial, (III) transformação sintática, (IV) paráfrase lexical e (V) reordenação. Neste projeto, investigar-se-á a generalização na sumarização humana multidocumento (SHM), na qual um único sumário é produzido a partir de uma coleção de textos provenientes de fontes distintas que abordam um mesmo assunto. Para tanto, partir-se-á do corpus CSTNews, composto por 50 coleções de textos jornalísticos e seus sumários humanos multidocumento. Nesse corpus, as sentenças do sumário de dada coleção C foram manualmente alinhadas, com base na sobreposição de conteúdo, às sentenças dos textos-fonte de C que lhe deram origem. Do total de 1007 alinhamentos, identificaram-se 82 (8.1%) em que o conteúdo da sentença do sumário foi generalizado a partir de sua(s) sentença(s) de origem. Inserindo-se no projeto SUSTENTO (FAPESP 2012/13246-5/ CNPq 483231/2012-6), cujo objetivo é o de gerar subsídios linguísticos para a Sumarização Automática Multidocumento (SAM) em português, pretende-se descrever as operações de reescrita envolvidas nos alinhamentos do referido corpus e verificar se há operações recorrentes. Se sim, buscar-se-á sistematizá-las para subsidiar a SAM. | |
| Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa: | |
| Mais itensMenos itens | |
| TITULO | |
| Matéria(s) publicada(s) em Outras Mídias ( ): | |
| Mais itensMenos itens | |
| VEICULO: TITULO (DATA) | |
| VEICULO: TITULO (DATA) | |