Busca avançada
Ano de início
Entree

Um modelo de redes complexas para análise de informações textuais

Processo: 10/04917-8
Linha de fomento:Bolsas no Brasil - Mestrado
Vigência (Início): 01 de setembro de 2010
Vigência (Término): 31 de dezembro de 2011
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Paulo Sergio Silva Rodrigues
Beneficiário:Guilherme Alberto Wachs Lopes
Instituição-sede: Campus de São Bernardo do Campo. Centro Universitário da FEI (UNIFEI). Fundação Educacional Inaciana Padre Sabóia de Medeiros (FEI). São Bernardo do Campo , SP, Brasil
Assunto(s):Sistemas complexos   Redes complexas

Resumo

Análise de textos é uma tarefa inerentemente humana, que envolve processos cognitivos complexos e difíceis de modelar em sistemas computacionais atuais. Esses processos, geralmente paralelos, levam em conta usualmente tanto informações léxicas quanto sintáticas, com o objetivo de situar o texto em um nível hierárquico e semântico adequado. Informações no nível léxico estão mais relacionadas com as regras de uma linguagem para geração de palavras, enquanto o nível sintático está geralmente relacionado ao posicionamento das palavras no texto. O conjunto dessas informações (léxica e sintática) leva à geração das informações semânticas. Diversas áreas de aplicações que envolvem análise automática de textos devem considerar essas informações a fim de atingir uma gama crescente de objetivos, tais como: recuperação de documentos, comparação de textos, geração automática de diálogos, geração de rótulos, indexação de textos, entre outras. Embora as regras de interpretação de textos sejam conhecidas há bastante tempo, devido a fatores que envolvem principalmente tempo computacional e alta dimensionalidade dos modelos, muitas dessas regras não são levadas em conta em sistemas práticos atuais. Por exemplo, a maioria dos sistemas de recuperação de informações textuais geralmente considera somente a frequência com que as palavras aparecem em um texto, ou o número de links que apontam para uma mesma página de internet, com o objetivo de ordenar documentos por relevância, quando de uma requisição do usuário. Sabe-se, no entanto, que informações léxicas contidas nas stop-words, palavras com erros e pontuação, bem como informações sintáticas, como a ordem que as palavras aparecem em um texto, não são geralmente consideradas nesses modelos, motivo que pode levar ao chamado gap-semântico entre a requisição do usuário e as informações realmente fornecidas pelo modelo de recuperação. Por outro lado, desde o início da década de 90, estudos em redes complexas vêm ganhando mais e mais atenção dos pesquisadores, sobretudo para a modelagem de informações não somente de textos, mas de dados multimídia. Assim, o presente trabalho apresenta um modelo de Redes Complexas que leva em conta não somente as informações de frequência, mas também a ordem das palavras, co-ocorrência das mesmas, stop-words e palavras erradas. O preço a pagar para este modelo é a utilização do espaço de armazenamento da ordem de Giga-Bytes, o que o torna inviável para ser tratado em computadores comuns. Modelos dessa grandeza ainda não foram completamente estudados e apresentam comportamentos ainda difíceis de se prever e discutir. As características das redes complexas estudadas há mais de uma década na literatura (por exemplo: tipo de rede, coeficiente de clusterização, distribuição de graus, distribuição de pesos, matriz de distâncias, raio, diâmetro, coeficiente espectral, entre outros) permitem o estudo desses modelos para grandes bases de dados. Assim, neste trabalho, propomos o estudo de informações textuais modeladas como uma rede complexa de palavras, tanto para bases específicas quanto genéricas. Estudos preliminares mostram que palavras retiradas de um contexto específico, considerando as características léxicas e sintáticas citadas acima, apresentam um comportamento de rede livre de escala. Também apresentamos heurísticas para o cálculo de grandezas físicas computacionalmente intratáveis, como o coeficiente de clusterização (CC) da rede. Resultados sugerem que é possível o cálculo do CC com erro em torno de 5% para redes densas ou esparsas de até 10.000 palavras.