Busca avançada
Ano de início
Entree

Tratamento de dados desbalanceados para classificação de lncRNA

Processo: 18/03853-8
Linha de fomento:Bolsas no Brasil - Iniciação Científica
Vigência (Início): 01 de março de 2018
Vigência (Término): 31 de dezembro de 2018
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:André Carlos Ponce de Leon Ferreira de Carvalho
Beneficiário:Jonas Coelho Kasmanas
Instituição-sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Vinculado ao auxílio:13/07375-0 - CeMEAI - Centro de Ciências Matemáticas Aplicadas à Indústria, AP.CEPID
Assunto(s):Biologia molecular   Biologia computacional   Aprendizado computacional   Classificação de dados   RNAs não codificadores   Regulação da expressão gênica

Resumo

Os últimos anos contribuíram para o aumento do interesse nos estudos dos longos RNAs não codificante (long non coding RNAs - lncRNA). Com grande constância, os lncRNA demonstram serem importantes para diversos tipos de regulação genômica, e, portanto, estão correlacionados com o desenvolvimento de diversos processos biológicos e doenças - dentre elas o câncer. Com o objetivo de melhor compreender suas funções e mecanismos, diversos estudos tem aplicado algoritmos de classificação dos diferentes tipos de lncRNAs baseado em sua localização genômica e modo de atuação. Há, no entanto, algumas limitações que podem prejudicar a eficiência dos métodos automatizados de classificação, dentre elas está o desbalanceamento de classes no conjunto de dados original. Os algoritmos tradicionais podem apresentar grande dificuldade de classificar corretamente exemplos da classe minoritária, favorecendo a classificação da classe com maior número de exemplos, a classe majoritária. Com isso, algumas técnicas para o tratamento de dados desbalanceados foram propostas, dentre elas técnicas que envolvem o balanceamento artificial dos dados, a modificação de algoritmos tradicionais, entre outras abordagens. O objetivo desse trabalho é tratar conjuntos de dados desbalanceados de lncRNA a fim de classificá-los corretamente considerando principalmente a classe minoritária. Para tanto, serão utilizadas as mais recentes abordagens para o tratamento de dados desbalanceados, de modo a identificar o melhor tratamento para a classificação dos dados de biologia molecular. (AU)