Busca avançada
Ano de início
Entree

Extraindo padrões de coleções de documentos textuais utilizando redes heterogêneas

Processo: 11/12823-6
Modalidade de apoio:Bolsas no Brasil - Doutorado
Data de Início da vigência: 01 de outubro de 2011
Data de Término da vigência: 30 de setembro de 2015
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Solange Oliveira Rezende
Beneficiário:Rafael Geraldeli Rossi
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Assunto(s):Mineração de texto   Representação temática   Agrupamento de dados   Extração de conhecimento   Classificação
Palavra(s)-Chave do Pesquisador:Agrupamento em Redes Hetegogêneas | Classificação em Redes Heterogêneas | Mineração de Textos | Redes Heterogêneas | Representação de Coleções de Documentos Textuais | Inteligência Computacional

Resumo

Devido a grande quantidade de coleções de documentos textuais disponibilizadas nos diasatuais, cada vez mais surge a necessidade de desenvolver técnicas automáticas para a organização e extração de conhecimento dessas coleções. Normalmente, os documentos são representados em um modelo espaço vetorial, no qual cada documento é representado por um vetor, e cada posição desse vetor corresponde a uma característica do documento, por exemplo, a frequência de uma palavra. Os métodos para extração de padrões que utilizam esta forma de representação assumem que os documentos de uma coleção bem como suas características são independentes. Entretanto, esse tipo decaracterística por parte dos algoritmos podem levar a resultados errôneos. Ao tentar evitar este tipo de erro, surgiram representações que modelam documentos textuais por meio de redes. Porém, neste tipo de representação, os algoritmos tradicionais consideram que os objetos da rede são de um mesmo tipo, bem como como suas relações, ou seja, as redes são do tipo homogênea. Essa limitação pode ser superada. Para isso, os textos podem ser representados por redes heterogêneas, ou seja, os documentos podem ser representados considerando diferentes tipos de objetos, como o próprio documento, termos ou autores. Diferentes tipos de relações entre estes objetos também podem ser representadas. Entretanto, na literatura é incomum o uso de relações entre objetos de mesmo tipo em uma rede heterogênea de documentos textuais. Nossa hipótese é que esse tipo de relação também pode ajudar a extração de padrões de melhor qualidade. Visando provar tal hipótese, neste projeto de doutorado é proposta uma representação de coleções de documentos textuais utilizando redes heterogêneas, na qual serão estudadas quais são as maneiras de relacionar objetos de mesmo tipo em uma rede heterogênea que podem produzir melhores resultados para as tarefas de classificação e agrupamento de documentos textuais. Também serão adaptados algoritmos existentes ou serão desenvolvidos novos algoritmos para extração de padrões de acordo com a necessidade imposta pela representação. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas (7)
(As publicações científicas contidas nesta página são originárias da Web of Science ou da SciELO, cujos autores mencionaram números dos processos FAPESP concedidos a Pesquisadores Responsáveis e Beneficiários, sejam ou não autores das publicações. Sua coleta é automática e realizada diretamente naquelas bases bibliométricas)
ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE; REZENDE, SOLANGE OLIVEIRA. . KNOWLEDGE-BASED SYSTEMS, v. 132, p. 94-118, . (11/12823-6, 14/08996-0, 15/14228-9)
FALEIROS, THIAGO DE PAULO; ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE. Optimizing the class information divergence for transductive classification of texts using propagation in bipartite graphs. PATTERN RECOGNITION LETTERS, v. 87, n. SI, p. 127-138, . (11/12823-6, 11/22749-8, 15/14228-9)
FALEIROS, THIAGO DE PAULO; ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE. . PATTERN RECOGNITION LETTERS, v. 87, p. 12-pg., . (15/14228-9, 11/12823-6, 11/22749-8)
SINOARA, ROBERTA A.; ROSSI, RAFAEL G.; REZENDE, SOLANGE O.; IEEE. . 2016 23RD INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR), v. N/A, p. 6-pg., . (16/07620-2, 14/08996-0, 11/12823-6, 13/14757-6)
ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE; FALEIROS, THIAGO DE PAULO; REZENDE, SOLANGE OLIVEIRA. . JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, v. 29, n. 3, p. 361-375, . (11/12823-6, 11/23689-9, 11/19850-9)
SOUZA, VINICIUS M. A.; ROSSI, RAFAEL G.; BATISTA, GUSTAVO E. A. P. A.; REZENDE, SOLANGE O.. . Intelligent Data Analysis, v. 21, n. 5, p. 1061+, . (14/08996-0, 11/12823-6, 11/17698-5)
ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE; REZENDE, SOLANGE OLIVEIRA. . INFORMATION PROCESSING & MANAGEMENT, v. 52, n. 2, p. 217-257, . (11/12823-6, 11/22749-8, 14/08996-0)
Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
ROSSI, Rafael Geraldeli. Classificação automática de textos por meio de aprendizado de máquina baseado em redes. 2015. Tese de Doutorado - Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB) São Carlos.