Busca avançada
Ano de início
Entree

Extraindo padrões de coleções de documentos textuais utilizando redes heterogêneas

Processo: 11/12823-6
Modalidade de apoio:Bolsas no Brasil - Doutorado
Vigência (Início): 01 de outubro de 2011
Vigência (Término): 30 de setembro de 2015
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Solange Oliveira Rezende
Beneficiário:Rafael Geraldeli Rossi
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Assunto(s):Mineração de texto   Representação temática   Agrupamento de dados   Extração de conhecimento   Classificação
Palavra(s)-Chave do Pesquisador:Agrupamento em Redes Hetegogêneas | Classificação em Redes Heterogêneas | Mineração de Textos | Redes Heterogêneas | Representação de Coleções de Documentos Textuais | Inteligência Computacional

Resumo

Devido a grande quantidade de coleções de documentos textuais disponibilizadas nos diasatuais, cada vez mais surge a necessidade de desenvolver técnicas automáticas para a organização e extração de conhecimento dessas coleções. Normalmente, os documentos são representados em um modelo espaço vetorial, no qual cada documento é representado por um vetor, e cada posição desse vetor corresponde a uma característica do documento, por exemplo, a frequência de uma palavra. Os métodos para extração de padrões que utilizam esta forma de representação assumem que os documentos de uma coleção bem como suas características são independentes. Entretanto, esse tipo decaracterística por parte dos algoritmos podem levar a resultados errôneos. Ao tentar evitar este tipo de erro, surgiram representações que modelam documentos textuais por meio de redes. Porém, neste tipo de representação, os algoritmos tradicionais consideram que os objetos da rede são de um mesmo tipo, bem como como suas relações, ou seja, as redes são do tipo homogênea. Essa limitação pode ser superada. Para isso, os textos podem ser representados por redes heterogêneas, ou seja, os documentos podem ser representados considerando diferentes tipos de objetos, como o próprio documento, termos ou autores. Diferentes tipos de relações entre estes objetos também podem ser representadas. Entretanto, na literatura é incomum o uso de relações entre objetos de mesmo tipo em uma rede heterogênea de documentos textuais. Nossa hipótese é que esse tipo de relação também pode ajudar a extração de padrões de melhor qualidade. Visando provar tal hipótese, neste projeto de doutorado é proposta uma representação de coleções de documentos textuais utilizando redes heterogêneas, na qual serão estudadas quais são as maneiras de relacionar objetos de mesmo tipo em uma rede heterogênea que podem produzir melhores resultados para as tarefas de classificação e agrupamento de documentos textuais. Também serão adaptados algoritmos existentes ou serão desenvolvidos novos algoritmos para extração de padrões de acordo com a necessidade imposta pela representação. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas (7)
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
FALEIROS, THIAGO DE PAULO; ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE. Optimizing the class information divergence for transductive classification of texts using propagation in bipartite graphs. PATTERN RECOGNITION LETTERS, v. 87, n. SI, p. 127-138, . (11/12823-6, 11/22749-8, 15/14228-9)
ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE; FALEIROS, THIAGO DE PAULO; REZENDE, SOLANGE OLIVEIRA. Inductive Model Generation for Text Classification Using a Bipartite Heterogeneous Network. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, v. 29, n. 3, p. 361-375, . (11/12823-6, 11/23689-9, 11/19850-9)
SOUZA, VINICIUS M. A.; ROSSI, RAFAEL G.; BATISTA, GUSTAVO E. A. P. A.; REZENDE, SOLANGE O.. Unsupervised active learning techniques for labeling training sets: An experimental evaluation on sequential data. Intelligent Data Analysis, v. 21, n. 5, p. 1061+, . (14/08996-0, 11/12823-6, 11/17698-5)
ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE; REZENDE, SOLANGE OLIVEIRA. Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts. INFORMATION PROCESSING & MANAGEMENT, v. 52, n. 2, p. 217-257, . (11/12823-6, 11/22749-8, 14/08996-0)
FALEIROS, THIAGO DE PAULO; ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE. Optimizing the class information divergence for transductive classification of texts using propagation in bipartite graphs. PATTERN RECOGNITION LETTERS, v. 87, p. 12-pg., . (15/14228-9, 11/12823-6, 11/22749-8)
SINOARA, ROBERTA A.; ROSSI, RAFAEL G.; REZENDE, SOLANGE O.; IEEE. Semantic Role-based Representations in Text Classification. 2016 23RD INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR), v. N/A, p. 6-pg., . (16/07620-2, 14/08996-0, 11/12823-6, 13/14757-6)
ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE; REZENDE, SOLANGE OLIVEIRA. Using bipartite heterogeneous networks to speed up inductive semi-supervised learning and improve automatic text categorization. KNOWLEDGE-BASED SYSTEMS, v. 132, p. 94-118, . (11/12823-6, 14/08996-0, 15/14228-9)
Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
ROSSI, Rafael Geraldeli. Classificação automática de textos por meio de aprendizado de máquina baseado em redes. 2015. Tese de Doutorado - Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB) São Carlos.

Por favor, reporte erros na lista de publicações científicas utilizando este formulário.