Sumarização Automática Multidocumento para o Português do Brasil com Base na Teoria de Estruturação Multidocumento CST (Cross-document Structure Theory)

Processo:	09/05603-0
Modalidade de apoio:	Auxílio à Pesquisa - Regular
Data de Início da vigência:	01 de agosto de 2009
Data de Término da vigência:	31 de julho de 2011
Área do conhecimento:	Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação

Pesquisador responsável:	Thiago Alexandre Salgueiro Pardo
Beneficiário:	Thiago Alexandre Salgueiro Pardo

Instituição Sede:	Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Município da Instituição Sede:	São Carlos

Assunto(s):	Sumarização automática multidocumento Processamento de linguagem natural Inteligência artificial Linguística computacional
Palavra(s)-Chave do Pesquisador:	Inteligência Artificial \| Linguística Computacional \| Modelagem discursiva \| Processamento de Línguas Naturais \| Sumarização automática multidocumento \| Processamento de Línguas Naturais

Resumo

Aplicações computacionais capazes de tratar adequadamente a incrível quantidade de informação disponível atualmente, principalmente na web, têm se tornado cada vez mais necessárias. A sumarização automática multidocumento é uma destas aplicações, na qual, a partir de um conjunto de documentos que versam sobre um mesmo assunto, produz-se um único sumário, ou resumo, como mais comumente conhecido. Tendo como propósito a coesão e a coerência do sumário produzido, são diversos os desafios deste tipo de aplicação, pois há que se lidar com questões como o nível de informatividade do sumário, o tratamento de informações redundantes, complementares e contraditórias provenientes de diferentes fontes e produzidas com estilos diversos, o reconhecimento e a adequação de expressões co-referenciais e a ordenação das sentenças no sumário, dentre outros fenômenos. Neste plano de pesquisa, propõe-se a investigação da sumarização automática multidocumento para o português do Brasil com base na teoria de estruturação multidocumento CST (Cross-document Structure Theory), que é um modelo lingüístico-computacional de representação do relacionamento multidocumento, o qual fornece o ferramental necessário para se lidar automaticamente com vários dos desafios do processamento multidocumento. Para o português do Brasil, em particular, não existem pesquisas em andamento sobre sumarização multidocumento. Para a área maior de sumarização multidocumento, há poucos trabalhos que investem nos ditos modelos profundos, que modelam explicitamente o conhecimento lingüístico-computacional do problema e domínio tratados. Neste sentido, essa proposta não apenas avança o estado da arte na área para a língua portuguesa, mas contribui para o cenário de sumarização multidocumento como um todo, podendo produzir resultados inovadores e contribuições importantes para a área. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:

Mais itens Menos itens

TITULO

Matéria(s) publicada(s) em Outras Mídias ( ):

Mais itens Menos itens

VEICULO: TITULO (DATA)

URL curto