Busca avançada
Ano de início
Entree

Caracterização linguística de sumários humanos multidocumento: explorando o nível lexical

Processo: 13/12524-4
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de setembro de 2013
Data de Término da vigência: 31 de agosto de 2014
Área de conhecimento:Linguística, Letras e Artes - Linguística - Teoria e Análise Lingüística
Pesquisador responsável:Ariani Di Felippo
Beneficiário:Vanessa Marcasso
Instituição Sede: Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Teorias linguísticas   Acesso lexical   Processamento de linguagem natural   Sumarização automática multidocumento   Análise linguística
Palavra(s)-Chave do Pesquisador:Caracterização | corpus jornalístico | Descrição lexical | descrição linguística | sumário multidocumento | Sumarização automática multidocumento | Processamento Automático de Língua Natural

Resumo

Aplicações computacionais capazes de tratar adequadamente a incrível quantidade de informação disponível atualmente, principalmente on-line, têm se tornado cada vez mais necessárias. A sumarização automática multidocumento (SAM) é uma dessas aplicações, na qual, a partir de um conjunto de documentos que tratam de um mesmo assunto, produz-se um único sumário. Tendo como propósito a coesão e a coerência do sumário, são diversos os desafios desse tipo de aplicação, pois há que se lidar com questões como o nível de informatividade do sumário, o tratamento de informações redundantes, complementares, etc. Apesar do interesse pela SAM ser recente, alguns sistemas já foram desenvolvidos, inclusive para o português do Brasil. Diante da relevância da SAM, a caracterização linguística dos sumários humanos multidocumento se faz cada vez mais necessária na medida em que gera subsídios para a produção automática de sumários mais linguisticamente motivados. Assim, propõe-se, com base em análise de corpus, caracterizar sumários humanos multidocumento em nível lexical. Inserindo-se no projeto SUSTENTO (FAPESP 2012/13246-5/ CNPq 483231/2012-6), cujo objetivo é o de gerar subsídios linguísticos para a SAM em português, este projeto visa (I) especificar a densidade das unidades da categoria dos nomes, adjetivos, verbos e advérbios nos sumários em relação aos seus textos-fonte e (II) descrever as operações linguísticas por meio das quais as unidades lexicais foram transpostas dos textos-fonte para o sumário. Assim, ao final, obter-se-á um conjunto de características linguísticas que podem ser tomadas como requisitos para a produção de sumários automáticos mais linguisticamente motivados.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)