Bolsa 13/13107-8 - Sumarização automática multidocumento, Coerência textual - BV FAPESP
Busca avançada
Ano de início
Entree

Análise linguística de aspectos textuais para a sumarização automática multidocumento

Processo: 13/13107-8
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de setembro de 2013
Data de Término da vigência: 31 de agosto de 2014
Área de conhecimento:Linguística, Letras e Artes - Linguística - Teoria e Análise Lingüística
Pesquisador responsável:Ariani Di Felippo
Beneficiário:Vinícius Felix dos Santos
Instituição Sede: Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Sumarização automática multidocumento   Coerência textual   Texto   Análise linguística   Análise de conteúdo
Palavra(s)-Chave do Pesquisador:aspecto | corpus multidocumento | descrição e análise textual | Sumarização automática multidocumento | texto | unidade de informação | Processamento Automático de Língua Natural

Resumo

Alguns trabalhos demonstraram que sumários humanos produzidos a partir de coleções de textos jornalísticos de diferentes fontes que versam sobre um mesmo assunto (isto é, sumários multidocumento) apresentam conjuntos específicos de aspectos em função de sua categoria. Os "aspectos" são entendidos como unidades básicas de informação. Por exemplo, um sumário de textos da categoria "acidentes naturais" apresentam os aspectos: what, when, where, why, who_affected, damages e countermeasures. Diante disso, alguns métodos de Sumarização Automática Multidocumento (SAM) selecionam, para compor o sumário, as sentenças dos textos-fonte que veiculam os aspectos encontrados nos sumários humanos. Esses métodos visam à produção de sumários direcionados ao gênero e ao domínio dos textos-fonte. Neste projeto, realizar-se-ão 2 tarefas: (I) revisar a anotação dos aspectos nos 50 sumários humanos multidocumento do corpus em português CSTNews e (II) anotar os aspectos presentes nos 140 textos-fonte do CSTNews. A tarefa (I) justifica-se pelo fato de que, por não haver uma teoria clara e bem definida sobre os aspectos, os critérios de identificação e de definição dos mesmos precisam ser refinados. A tarefa (II) é essencial para o desenvolvimento de métodos de SAM baseados em aspectos para o português, os quais necessitarão de um corpus de textos-fonte anotados. Assim, este trabalho, que se insere no cenário do projeto SUSTENTO (FAPESP 2012/13246-5/ CNPq 483231/2012-6), cujo objetivo geral é o de gerar subsídios linguísticos para a SAM em português, objetiva contribuir especificamente para refinar o conhecimento teórico sobre os aspectos textuais e caracterizar os sumários humanos multidocumento do CSTNews. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)