| Processo: | 11/12823-6 |
| Modalidade de apoio: | Bolsas no Brasil - Doutorado |
| Data de Início da vigência: | 01 de outubro de 2011 |
| Data de Término da vigência: | 30 de setembro de 2015 |
| Área de conhecimento: | Ciências Exatas e da Terra - Ciência da Computação |
| Pesquisador responsável: | Solange Oliveira Rezende |
| Beneficiário: | Rafael Geraldeli Rossi |
| Instituição Sede: | Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil |
| Assunto(s): | Mineração de texto Representação temática Agrupamento de dados Extração de conhecimento Classificação |
| Palavra(s)-Chave do Pesquisador: | Agrupamento em Redes Hetegogêneas | Classificação em Redes Heterogêneas | Mineração de Textos | Redes Heterogêneas | Representação de Coleções de Documentos Textuais | Inteligência Computacional |
Resumo Devido a grande quantidade de coleções de documentos textuais disponibilizadas nos diasatuais, cada vez mais surge a necessidade de desenvolver técnicas automáticas para a organização e extração de conhecimento dessas coleções. Normalmente, os documentos são representados em um modelo espaço vetorial, no qual cada documento é representado por um vetor, e cada posição desse vetor corresponde a uma característica do documento, por exemplo, a frequência de uma palavra. Os métodos para extração de padrões que utilizam esta forma de representação assumem que os documentos de uma coleção bem como suas características são independentes. Entretanto, esse tipo decaracterística por parte dos algoritmos podem levar a resultados errôneos. Ao tentar evitar este tipo de erro, surgiram representações que modelam documentos textuais por meio de redes. Porém, neste tipo de representação, os algoritmos tradicionais consideram que os objetos da rede são de um mesmo tipo, bem como como suas relações, ou seja, as redes são do tipo homogênea. Essa limitação pode ser superada. Para isso, os textos podem ser representados por redes heterogêneas, ou seja, os documentos podem ser representados considerando diferentes tipos de objetos, como o próprio documento, termos ou autores. Diferentes tipos de relações entre estes objetos também podem ser representadas. Entretanto, na literatura é incomum o uso de relações entre objetos de mesmo tipo em uma rede heterogênea de documentos textuais. Nossa hipótese é que esse tipo de relação também pode ajudar a extração de padrões de melhor qualidade. Visando provar tal hipótese, neste projeto de doutorado é proposta uma representação de coleções de documentos textuais utilizando redes heterogêneas, na qual serão estudadas quais são as maneiras de relacionar objetos de mesmo tipo em uma rede heterogênea que podem produzir melhores resultados para as tarefas de classificação e agrupamento de documentos textuais. Também serão adaptados algoritmos existentes ou serão desenvolvidos novos algoritmos para extração de padrões de acordo com a necessidade imposta pela representação. (AU) | |
| Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa: | |
| Mais itensMenos itens | |
| TITULO | |
| Matéria(s) publicada(s) em Outras Mídias ( ): | |
| Mais itensMenos itens | |
| VEICULO: TITULO (DATA) | |
| VEICULO: TITULO (DATA) | |