Advanced search
Start date
Betweenand

Unsupervised multi-view learning in incremental hierarchical clustering of text documents

Grant number: 10/20564-8
Support Opportunities:Scholarships in Brazil - Doctorate
Start date: June 01, 2011
End date: February 28, 2013
Field of knowledge:Physical Sciences and Mathematics - Computer Science - Computer Systems
Principal Investigator:Solange Oliveira Rezende
Grantee:Ricardo Marcondes Marcacini
Host Institution: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brazil

Abstract

Métodos de agrupamento hieráquico e incremental de textos são úteis para organização não supervisionada de coleções textuais dinâmicas em grupos, sumarizando o conhecimento implícito nos textos. Nestes métodos, o agrupamento resultante é disposto de maneira hierárquica, em que grupos e subgrupos representam um tópico de conhecimento da coleção, provendo um meio intuitivo para explorar o conhecimento. Ainda, eles possiblitam a incorporação de novo conhecimento sem reprocessamento redundante, uma vez que apenas informações inseridas, removidas ou atualizadas são consideradas, ou seja, o agrupamento é realizado de maneira incremental. No entanto, as abordagens existentes para agrupamento hierárquico e incremental possuem limitações que afetam a qualidade dos resultados. Entre as limitações, um problema relevante ocorre durante a tarefa incremental: quando novos documentos apresentados ao agrupamento são alocados em grupos errados, este erro é propagado para as próximas iterações e faz com que o modelo final tenha seu desempenho degradado. Esse problema é típico em agrupamento incremental e explorar formas de solucioná-lo é útil e necessário para diversas aplicações relacionadas à organização de informação. Ainda, as coleções de textos podem ser representadas por diferentes meios, no qual conjuntos de informações diferentes se referem ao mesmo documento, e cada conjunto de informação é capaz de descrever de maneira independente o documento de interesse. Assim, uma direção importante de pesquisa, denominada aprendizado multidescrição, foca em usar as diferentes descrições dos textos para aumentar a confiança de uma tarefa de aprendizado, porém, é uma tema em aberto e não explorado em agrupamento incremental. Desta forma, o presente projeto de doutorado visa investigar o uso de aprendizado multidescricão em tarefas de agrupamento hierárquico e incremental, com foco em coleções de textos dinâmicas e, assim, explorar de maneira efetiva as várias descrições dos textos para aumentar a qualidade do agrupamento hierárquico incremental. A ideia se baseia no princípio de maximização do consenso entre múltiplas hipóteses, que considera que o aprendizado é melhorado utilizando o consenso de todas descrições do conjunto de dados. Com isto, espera-se oferecer uma nova abordagem para agrupamento hierárquico e incremental de textos capaz de manter a representação do conhecimento sempre válida e atualizada e permitindo a descoberta de conhecimento nos cenários atuais, caracterizados pela alta frequência de publicação e atualização das informações (AU)

News published in Agência FAPESP Newsletter about the scholarship:
More itemsLess items
Articles published in other media outlets ( ):
More itemsLess items
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Scientific publications
(The scientific publications listed on this page originate from the Web of Science or SciELO databases. Their authors have cited FAPESP grant or fellowship project numbers awarded to Principal Investigators or Fellowship Recipients, whether or not they are among the authors. This information is collected automatically and retrieved directly from those bibliometric databases.)
SINOARA, ROBERTA A.; SUNDERMANN, CAMILA V.; MARCACINI, RICARDO M.; DOMINGUES, MARCOS A.; REZENDE, SOLANGE O.; ALMEIDA, A; BERNARDINO, J; GOMES, EF. Named Entities as Privileged Information for Hierarchical Text Clustering. PROCEEDINGS OF THE 18TH INTERNATIONAL DATABASE ENGINEERING AND APPLICATIONS SYMPOSIUM (IDEAS14), v. N/A, p. 10-pg., . (13/16039-3, 13/14757-6, 10/20564-8, 12/13830-9)
Academic Publications
(References retrieved automatically from State of São Paulo Research Institutions)
MARCACINI, Ricardo Marcondes. Machine learning with privileged information: approaches for hierarchical text clustering. 2014. Doctoral Thesis - Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB) São Carlos.