Advanced search
Start date
Betweenand

Error propagation analysis in complex network based on semi-supervised learning

Grant number: 09/12329-1
Support Opportunities:Scholarships in Brazil - Doctorate (Direct)
Start date: March 01, 2010
End date: November 30, 2011
Field of knowledge:Physical Sciences and Mathematics - Computer Science - Computing Methodologies and Techniques
Principal Investigator:Zhao Liang
Grantee:Thiago Christiano Silva
Host Institution: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brazil

Abstract

Aprendizado de máquina é uma área de pesquisa que visa a desenvolver métodos computacionais capazes de "aprender" com a experiência. As técnicas tradicionais de aprendizado de máquina, na construção de classificadores, necessitam de uma grande quantidade de dados rotulados. Estes dados são geralmente difíceis de serem obtidos, principalmente quando envolvem a rotulação manual por parte de um especialista. Recentemente, uma nova vertente da área de aprendizado de máquina, denominada aprendizado semi-supervisionado, tem atraído a atenção de muitos pesquisadores. Esta forma de aprendizado possui como objetivo a propagação de rótulos para todos os dados não-rotulados preservando a distribuição original. Diversos métodos de aprendizado semi-supervisionado têm sido propostos na literatura. Entretanto, nos últimos anos, existe um crescente interesse nas técnicas que utilizam redes para representar os dados. Este fato deve-se ao surgimento das redes complexas como um tópico unificador de sistemas complexos e como uma poderosa ferramenta de representação e abstração de dados, sendo capazes de capturar suas relações espaciais, topológicas e funcionais. Este projeto tem como objetivo desenvolver técnicas de aprendizado de máquina para análise de dados utilizando redes complexas. Especificamente, serão desenvolvidas técnicas de aprendizado semi-supervisionado baseadas em competição de partículas em redes complexas. Neste caso, alguns vértices da rede são rotulados, ou seja, suas classes são previamente definidas e os modelos a serem desenvolvidos deverão ser capazes de propagar os rótulos para os outros vértices da rede. Outro objetivo deste projeto é tratamento de assunto de segurança no aprendizado semi-supervisionado. Especificamente, serão desenvolvidas três técnicas para analisar e impedir propagação de erros: 1) a técnica de aprendizado semi-supervisionado a ser desenvolvida será capaz de oferecer nível de pertinência de cada item de dado a cada classe (soft-label em inglês), ao invés de só oferecer rótulo de classe (hard-label); 2) a técnica a ser desenvolvida será capaz de detectar outliers e, consequentemente, impedirá sua propagação; 3) serão conduzidos estudos e análises de propagação de erros (dados erroneamente rotulados) em conjunto com a propagação de rótulos em redes, ou seja, já como estado inicial da rede, haverá uma certa porcentagem de erro introduzida antes do processo de propagação de rótulos. Pretende-se, com isso, identificar o ponto crítico da percentagem de erros introduzida, o que leva a uma precisão de classificação drasticamente decaída. Esse tipo de estudo é muito importante não só para obter uma classificação segura, mas também para um melhor entendimento do conjunto de dados em processamento. Por fim, com o objetivo de validar as técnicas desenvolvidas em problemas reais, estas serão aplicadas para análise de dados na base UCI. Redes complexas são ferramentas poderosas de representação de dados e ainda existe um grande espaço para exploração. Portanto, acredita-se que este estudo possa gerar contribuições para área de aprendizado de máquinas. (AU)

News published in Agência FAPESP Newsletter about the scholarship:
More itemsLess items
Articles published in other media outlets ( ):
More itemsLess items
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Scientific publications
(References retrieved automatically from Web of Science and SciELO through information on FAPESP grants and their corresponding numbers as mentioned in the publications by the authors)
SILVA, THIAGO C.; AMANCIO, DIEGO R.. Word sense disambiguation via high order of learning in complex networks. EPL, v. 98, n. 5, . (10/00927-9, 09/12329-1)
SILVA, THIAGO C.; AMANCIO, DIEGO R.. Discriminating word senses with tourist walks in complex networks. European Physical Journal B, v. 86, n. 7, . (10/00927-9, 09/12329-1)
SILVA, THIAGO CHRISTIANO; AMANCIO, DIEGO RAPHAEL. Network-based stochastic competitive learning approach to disambiguation in collaborative networks. Chaos, v. 23, n. 1, . (10/00927-9, 09/12329-1)
Academic Publications
(References retrieved automatically from State of São Paulo Research Institutions)
SILVA, Thiago Christiano. Machine learning in complex networks: modeling, analysis, and applications. 2012. Doctoral Thesis - Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB) São Carlos.