Auxílio à pesquisa 12/13246-5 - Linguística computacional, Linguística descritiva - BV FAPESP
Busca avançada
Ano de início
Entree

Geração de conhecimento linguístico para a sumarização automática multidocumento

Processo: 12/13246-5
Modalidade de apoio:Auxílio à Pesquisa - Regular
Data de Início da vigência: 01 de outubro de 2012
Data de Término da vigência: 30 de setembro de 2014
Área do conhecimento:Linguística, Letras e Artes - Linguística
Pesquisador responsável:Ariani Di Felippo
Beneficiário:Ariani Di Felippo
Instituição Sede: Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Linguística computacional  Linguística descritiva  Ontologia (ciência da computação)  Corpus  Processamento de linguagem natural  Sumarização automática multidocumento 
Palavra(s)-Chave do Pesquisador:análise | corpus | descrição semântica | Linguística Computacional | ontologia | Sumarização Automática | sumarização textual | Linguística Computacional

Resumo

Dada a grande quantidade de informação disponível em várias línguas, sobretudo na web, a Sumarização Automática Multidocumento (SAM) tem ocupado lugar de centralidade no Processamento Automático das Línguas Naturais (PLN) na medida em que facilita o acesso à informação. Originada em meados de 1990, a SAM objetiva produzir automaticamente um único sumário (resumo) a partir de uma coleção de textos sobre um mesmo tópico. Para o português do Brasil (PB), as pesquisas começaram somente nos últimos anos. Apesar de incipientes, os sistemas/métodos que envolvem o PB igualam-se ao estado da arte e, em alguns casos, superam os resultados obtidos para outras línguas. Mesmo diante de cenário tão promissor, a SAM, de um modo geral, carece de subsídios linguísticos que permitam aproximar a tarefa automática à humana. Assim, neste projeto, objetiva-se gerar subsídios linguísticos para avançar o estado da arte em SAM, principalmente que envolve o PB. Para tanto, investigar-se-ão 3 frentes de pesquisa correlatas: (i) caracterização linguística de sumários multidocumento produzidos por humanos, (ii) investigação aprofundada dos fenômenos multidocumento (p.ex.: redundância), e (iii) descrição e formalização de conhecimento semântico-conceitual. As frentes (i) e (ii) justificam-se pelo fato de que a SAM, ao contrário da monodocumento, pauta-se apenas em indícios sobre a sumarização humana (multidocumento) e em estudos superficiais de seus fenômenos. A frente (iii) justifica-se pelo fato de que os métodos de SAM para o PB poderão ser enriquecidos ou totalmente baseados nesse tipo de conhecimento. Tendo em vista a geração de descrições e formalizações linguísticas nas três frentes, acredita-se que este projeto tem potencial para contribuir com a SAM e a Linguística Descritiva. Ademais, salienta-se a formação de recursos humanos no PLN, área ainda pequena no Brasil. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)