Bolsa 14/12817-4 - Sumarização automática multidocumento, Léxico - BV FAPESP
Busca avançada
Ano de início
Entree

Investigação de métodos de sumarização automática multidocumento baseados em hierarquias conceituais

Processo: 14/12817-4
Modalidade de apoio:Bolsas no Brasil - Mestrado
Data de Início da vigência: 01 de setembro de 2014
Data de Término da vigência: 31 de janeiro de 2016
Área de conhecimento:Linguística, Letras e Artes - Linguística - Teoria e Análise Lingüística
Acordo de Cooperação: Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Pesquisador responsável:Gladis Maria de Barcellos Almeida
Beneficiário:Andressa Caroline Inácio Zacarias
Instituição Sede: Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Sumarização automática multidocumento   Léxico
Palavra(s)-Chave do Pesquisador:conceito lexicalizado | hierarquia léxico-conceitual | interpretação textual em nível léxico-conceitual | seleção de conteúdo | sumário informativo | Sumarização automática multidocumento | Processamento Automático de Línguas Naturais

Resumo

A Sumarização Automática Multidocumento (SAM) é uma das aplicações computacionais com potencial de tratar a incrível quantidade de informação textual disponível na web. Nela, busca-se gerar automaticamente um único sumário coerente, coeso e informativo a partir de uma coleção de textos, de diferentes fontes, que tratam de um mesmo assunto. A geração de tais sumários requer a seleção da informação mais importante da coleção de textos-fonte. Para tanto, pode-se empregar métodos de seleção de conteúdo que se baseia em conhecimento linguístico simples ou superficial ou em conhecimento mais abstrato ou profundo. Quanto aos métodos profundos, destacam-se aqueles que se baseiam em conhecimento semântico-discursivo e em conhecimento léxico-conceitual. Tendo em vista que, para o Português, não se tem conhecimento de métodos baseados em conhecimento de nível léxico-conceitual, propõe-se investigar métodos em que a seleção de conteúdo se baseia na (i) a representação dos conceitos lexicais dos textos-fonte em uma hierarquia conceitual e (ii) na aplicação de propriedades dessa hierarquia conceitual capazes de apontar os conceitos mais importantes dos texto-fonte, ou seja, os tópicos da coleção. Dessa forma, a identificação dos conceitos lexicais mais relevantes pode guiar a seleção do conteúdo dos textos-fonte que devem compor um sumário automático informativo. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)