Busca avançada
Ano de início
Entree

Active learning para classificação hierárquica de elementos transponíveis

Processo: 17/19264-9
Linha de fomento:Bolsas no Exterior - Estágio de Pesquisa - Mestrado
Vigência (Início): 01 de novembro de 2017
Vigência (Término): 30 de abril de 2018
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Ricardo Cerri
Beneficiário:Felipe Kenji Nakano
Supervisor no Exterior: Celine Vens
Instituição-sede: Centro de Ciências Exatas e de Tecnologia (CCET). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Local de pesquisa : University of Leuven, Kulak Kortrijk (KU Leuven), Bélgica  
Vinculado à bolsa:16/12489-2 - Deep learning para classificação hierárquica de elementos Transponníveis, BP.MS
Assunto(s):Aprendizado computacional   Classificação hierárquica   Aprendizagem profunda

Resumo

Elementos Transponíveis (TEs) são sequências de DNA capazes de mover dentro do genome de uma celula. Tal movimentação proporciona variabilidade genética, e mudanças nas funcionalidades de genes. Normalmente, a classificação de TEs é realizada usando ferramentas de homologia. A homologia busca encontrar sequências semelhantes atráves do alinhamento de sequências, entretanto, tal metodo ignora várias propriedades químicas e hierárquicas. Todavia, recentemente, TEs foram propostos como um problema de classificação usando Aprendizado de Máquina (ML). Mais precisamente, TEs são classificados utilizando métodos de Classificação Hierárquica (HC). Diferentemente da classificação tradicional, HC estuda problemas cujas classes são estruturadas por uma hierarquia. Tais métodos provaram ser mais eficientes e aplicáveis que a homologia, no entanto métodos de ML requerem dados rotulados. A rotulação de TEs não é uma tarefa fácil. Repbase, o repositório mais aceito academicamente, utiliza uma validação massiva e múltipla ferramentas para a classificação de TEs. Este processo é computacional e financeiramente custoso, resultando em muitas sequências não rotuladas. Como possível solução, o campo do Aprendizado Ativo (AL) oferece metodos para a utilização de dados não rotulados. Basicamente, um algoritmo de AL usa estratégias para selecionar os dados mais valiosos para rotulação. Desta maneira, o custo de rotulação dos dados é reduzido, e os classificadores são construídos com base nas instâncias mais representativas. Nesta pesquisa, planeja-se investigar algoritmos de AL para HC, especificamente, utilizando algoritmos de AL com o método estado-da-arte Clus-HMC.