Busca avançada
Ano de início
Entree

Aprendizado ativo para localização subcelular de proteínas

Processo: 17/24807-1
Linha de fomento:Bolsas no Exterior - Estágio de Pesquisa - Iniciação Científica
Vigência (Início): 01 de março de 2018
Vigência (Término): 30 de junho de 2018
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Ricardo Cerri
Beneficiário:Leonardo Utida Alcântara
Supervisor no Exterior: Isaac Triguero Velazquez
Instituição-sede: Centro de Ciências Exatas e de Tecnologia (CCET). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Local de pesquisa : University of Nottingham, University Park, Inglaterra  
Vinculado à bolsa:16/25220-1 - Aprendizado de máquina multirrótulo para localização subcelular de proteínas, BP.IC
Assunto(s):Aprendizado computacional   Biologia computacional   Inteligência artificial

Resumo

A localização subcelular de proteínas é uma tarefa de classificação de extrema importância, visto que a localização das proteínas dentro de uma célula está diretamente relacionada com as funções dessas proteínas. Como existe uma gama de proteínas que residem em dois ou mais locais ao mesmo tempo ou que se deslocam entre vários locais dentro da célula, normalmente métodos de classificação multirrótulo (CM) são projetados para atacar esse tipo de problema. Essa abordagem já é bem estabelecida na literatura, porém ela apresenta algumas desvantagens, como por exemplo: (i) a necessidade de um grande número de proteínas com localização subcelular anotada para treinar o classificador; (ii) essa abordagem ignora o fato de que as instâncias não rotuladas podem fornecer informações valiosas para a classificação; e (iii) existem diversas áreas de estudo em que instâncias não rotuladas existem em abundância e o processo para rotular uma instância é custoso e consome muito tempo. Aprendizado ativo (AA) é uma subárea do aprendizado de máquina semi-supervisionado que tem como objetivo construir modelos de classificação com um número menor de instâncias rotuladas, que são complementadas com as instâncias não rotuladas mais representativas. Para realizar esta tarefa o algoritmo de AA seleciona as instâncias mais representativas para serem rotuladas por um oráculo, que pode ser um especialista, por exemplo uma pessoa ou outro algoritmo. Então essas novas proteínas selecionadas são usadas para complementar o conjunto de proteínas rotuladas. O principal objetivo deste projeto é investigar o uso de AA, juntamente com CM, para o problema de predição de localização subcelular de proteínas (PLSP). O algoritmo de AA será construído, testado e analisado e seus resultados serão comparados com os do nosso método proposto no projeto de Iniciação Científica (IC) em andamento no Brasil. Os testes irão usar as mesmas bases de dados propostas no projeto atual de IC. Esse projeto é uma extensão substancial do atual projeto sendo desenvolvido com a bolsa de estudos da FAPESP e como não foram encontrados muito trabalhos envolvendo as áreas de estudo de AA e CM para o problema de PLSP, o projeto tem um grande potencial de impactar a literatura.