Busca avançada
Ano de início
Entree

Sumarização Automática Multidocumento para o Português do Brasil com Base na Teoria de Estruturação Multidocumento CST (Cross-document Structure Theory)

Processo: 09/05603-0
Modalidade de apoio:Auxílio à Pesquisa - Regular
Data de Início da vigência: 01 de agosto de 2009
Data de Término da vigência: 31 de julho de 2011
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Thiago Alexandre Salgueiro Pardo
Beneficiário:Thiago Alexandre Salgueiro Pardo
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Assunto(s):Sumarização automática multidocumento  Processamento de linguagem natural  Inteligência artificial  Linguística computacional 
Palavra(s)-Chave do Pesquisador:Inteligência Artificial | Linguística Computacional | Modelagem discursiva | Processamento de Línguas Naturais | Sumarização automática multidocumento | Processamento de Línguas Naturais

Resumo

Aplicações computacionais capazes de tratar adequadamente a incrível quantidade de informação disponível atualmente, principalmente na web, têm se tornado cada vez mais necessárias. A sumarização automática multidocumento é uma destas aplicações, na qual, a partir de um conjunto de documentos que versam sobre um mesmo assunto, produz-se um único sumário, ou resumo, como mais comumente conhecido. Tendo como propósito a coesão e a coerência do sumário produzido, são diversos os desafios deste tipo de aplicação, pois há que se lidar com questões como o nível de informatividade do sumário, o tratamento de informações redundantes, complementares e contraditórias provenientes de diferentes fontes e produzidas com estilos diversos, o reconhecimento e a adequação de expressões co-referenciais e a ordenação das sentenças no sumário, dentre outros fenômenos. Neste plano de pesquisa, propõe-se a investigação da sumarização automática multidocumento para o português do Brasil com base na teoria de estruturação multidocumento CST (Cross-document Structure Theory), que é um modelo lingüístico-computacional de representação do relacionamento multidocumento, o qual fornece o ferramental necessário para se lidar automaticamente com vários dos desafios do processamento multidocumento. Para o português do Brasil, em particular, não existem pesquisas em andamento sobre sumarização multidocumento. Para a área maior de sumarização multidocumento, há poucos trabalhos que investem nos ditos modelos profundos, que modelam explicitamente o conhecimento lingüístico-computacional do problema e domínio tratados. Neste sentido, essa proposta não apenas avança o estado da arte na área para a língua portuguesa, mas contribui para o cenário de sumarização multidocumento como um todo, podendo produzir resultados inovadores e contribuições importantes para a área. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)