Busca avançada
Ano de início
Entree

Extraindo padrões de coleções de documentos textuais utilizando redes heterogêneas

Processo: 11/12823-6
Linha de fomento:Bolsas no Brasil - Doutorado
Vigência (Início): 01 de outubro de 2011
Vigência (Término): 30 de setembro de 2015
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Solange Oliveira Rezende
Beneficiário:Rafael Geraldeli Rossi
Instituição-sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Assunto(s):Mineração de texto   Representação temática   Agrupamento de dados   Extração de conhecimento   Classificação

Resumo

Devido a grande quantidade de coleções de documentos textuais disponibilizadas nos diasatuais, cada vez mais surge a necessidade de desenvolver técnicas automáticas para a organização e extração de conhecimento dessas coleções. Normalmente, os documentos são representados em um modelo espaço vetorial, no qual cada documento é representado por um vetor, e cada posição desse vetor corresponde a uma característica do documento, por exemplo, a frequência de uma palavra. Os métodos para extração de padrões que utilizam esta forma de representação assumem que os documentos de uma coleção bem como suas características são independentes. Entretanto, esse tipo decaracterística por parte dos algoritmos podem levar a resultados errôneos. Ao tentar evitar este tipo de erro, surgiram representações que modelam documentos textuais por meio de redes. Porém, neste tipo de representação, os algoritmos tradicionais consideram que os objetos da rede são de um mesmo tipo, bem como como suas relações, ou seja, as redes são do tipo homogênea. Essa limitação pode ser superada. Para isso, os textos podem ser representados por redes heterogêneas, ou seja, os documentos podem ser representados considerando diferentes tipos de objetos, como o próprio documento, termos ou autores. Diferentes tipos de relações entre estes objetos também podem ser representadas. Entretanto, na literatura é incomum o uso de relações entre objetos de mesmo tipo em uma rede heterogênea de documentos textuais. Nossa hipótese é que esse tipo de relação também pode ajudar a extração de padrões de melhor qualidade. Visando provar tal hipótese, neste projeto de doutorado é proposta uma representação de coleções de documentos textuais utilizando redes heterogêneas, na qual serão estudadas quais são as maneiras de relacionar objetos de mesmo tipo em uma rede heterogênea que podem produzir melhores resultados para as tarefas de classificação e agrupamento de documentos textuais. Também serão adaptados algoritmos existentes ou serão desenvolvidos novos algoritmos para extração de padrões de acordo com a necessidade imposta pela representação. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Inteligencia artificial rastrea noticias sobre COVID-19 
Inteligência artificial rastreia notícias sobre COVID-19 
Algoritmos facilitan la clasificación automatizada de textos en internet 
Algoritmos facilitam classificação automatizada de textos da internet 
Matéria(s) publicada(s) em Outras Mídias (14 total):
Mais itensMenos itens
Radar do Futuro: Inteligência artificial rastreia notícias sobre a pandemia (23/Abr/2020)
Portal Banda B: Inteligência artificial rastreia notícias sobre curvas de contágio do Covid-19 no Brasil (13/Abr/2020)
Aroldo Murá: INTELIGÊNCIA ARTIFICIAL RASTREIA NOTÍCIAS CURVAS DE CONTÁGIO DO COVID-19 NO BRASIL (09/Abr/2020)
Mundo e Meio: Inteligência artificial rastreia notícias do covid-19 no mundo (08/Abr/2020)
TN Petróleo online: Inteligência artificial rastreia notícias sobre COVID-19 (07/Abr/2020)
JC Notícias (São Paulo, SP): Inteligência artificial rastreia notícias sobre covid-19 (07/Abr/2020)
Biblioteca FMUSP: Websensors, está sendo utilizada na análise da evolução da pandemia de COVID-19 (07/Abr/2020)
Tá Sabendo?: Inteligência artificial rastreia notícias sobre COVID-19 (07/Abr/2020)
Portal Neo Mondo: Inteligência artificial rastreia notícias sobre COVID-19 (07/Abr/2020)
ABIPTI - Associação Brasileira das Instituições de Pesquisa Tecnológica e Inovação: Inteligência artificial rastreia notícias sobre COVID-19 (07/Abr/2020)
Digital Rádio e TV: Inteligência artificial rastreia notícias sobre COVID-19 (07/Abr/2020)
Programa InfoSalud (Argentina): Inteligencia artificial rastrea noticias sobre Covid-19 (07/Abr/2020)
Blog A Crítica: Inteligência artificial rastreia notícias sobre COVID-19 (07/Abr/2020)
Na Cuia da Cris: Inteligência artificial rastreia notícias sobre COVID-19 (07/Abr/2020)

Publicações científicas (5)
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE; REZENDE, SOLANGE OLIVEIRA. Using bipartite heterogeneous networks to speed up inductive semi-supervised learning and improve automatic text categorization. KNOWLEDGE-BASED SYSTEMS, v. 132, p. 94-118, SEP 15 2017. Citações Web of Science: 1.
FALEIROS, THIAGO DE PAULO; ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE. Optimizing the class information divergence for transductive classification of texts using propagation in bipartite graphs. PATTERN RECOGNITION LETTERS, v. 87, n. SI, p. 127-138, FEB 1 2017. Citações Web of Science: 1.
SOUZA, VINICIUS M. A.; ROSSI, RAFAEL G.; BATISTA, GUSTAVO E. A. P. A.; REZENDE, SOLANGE O. Unsupervised active learning techniques for labeling training sets: An experimental evaluation on sequential data. Intelligent Data Analysis, v. 21, n. 5, p. 1061+, 2017. Citações Web of Science: 0.
ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE; REZENDE, SOLANGE OLIVEIRA. Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts. INFORMATION PROCESSING & MANAGEMENT, v. 52, n. 2, p. 217-257, MAR 2016. Citações Web of Science: 16.
ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE; FALEIROS, THIAGO DE PAULO; REZENDE, SOLANGE OLIVEIRA. Inductive Model Generation for Text Classification Using a Bipartite Heterogeneous Network. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, v. 29, n. 3, p. 361-375, MAY 2014. Citações Web of Science: 10.
Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
ROSSI, Rafael Geraldeli. Classificação automática de textos por meio de aprendizado de máquina baseado em redes. 2015. Tese de Doutorado - Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação São Carlos.

Por favor, reporte erros na lista de publicações científicas escrevendo para: cdi@fapesp.br.