Busca avançada
Ano de início
Entree


Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática

Texto completo
Autor(es):
Diego Henrique Negretto
Número total de Autores: 1
Tipo de documento: Dissertação de Mestrado
Imprenta: São José do Rio Preto. 2016-04-28.
Instituição: Universidade Estadual Paulista (Unesp). Instituto de Biociências Letras e Ciências Exatas. São José do Rio Preto
Data de defesa:
Orientador: Fabrício Aparecido Breve
Resumo

As pesquisas realizadas para o Sequenciamento de Genomas, Proteômica, Sistemas Biológicos, Diagnósticos Médicos, entre outros, geram uma grande quantidade de dados, fazendo necessário o apoio de soluções computacionais para a análise e interpretação desses dados. A utilização de técnicas de Aprendizado de Máquina, para a extração de conhecimentos úteis dessas grandes quantidades de dados, tem sido amplamente discutida entre pesquisadores da Biologia e da Computação. O processo para se rotular todos os dados gerados pelas pesquisas biológicas, assim como em outras áreas, é difícil, caro e/ou demorado. Assim, buscar maneiras de se atingir uma grande acurácia com poucos dados rotulados torna-se uma tarefa importante e desafiadora. Nesse sentido, o Aprendizado Semi-Supervisionado mostra-se como uma opção importante uma vez que utiliza dados rotulados e não rotulados para o treinamento, sendo uma categoria intermediária entre o Aprendizado Supervisionado e o Não Supervisionado. Diversas abordagens para algoritmos de Aprendizado Semi-Supervisionado são encontradas na literatura. Dentre elas, destacam-se os métodos baseados em grafos, que representam os dados de entrada como nós de um grafo cuja estrutura é utilizada para propagar informações de rótulos dos nós rotulados para os demais nós. Destaca-se ainda que a abordagem baseada em grafos possui uma grande fundamentação matemática e computacional. Nesse contexto, este trabalho apresenta uma análise comparativa de alguns algoritmos semi-supervisionados, baseados em grafos, quando aplicados a dados biológicos relacionados aos campos de estudos da Proteômica e Transcriptômica. Adicionalmente, o trabalho propõe um novo dataset com dados reais oriundos de pesquisas biológicas com o transcriptoma de formigas da espécie Mycocepurus goeldii. Alguns experimentos realizados com os algoritmos semi-supervisionados são apresentados, levando em consideração sua eficácia quando comparados com alguns métodos supervisionados. (AU)

Processo FAPESP: 15/06780-3 - Aplicando Algoritmos Inspirados pela Natureza para Classificação de Enzimas Despolimerases Utilizadas na Produção de Biocombustível
Beneficiário:Diego Henrique Negretto
Modalidade de apoio: Bolsas no Brasil - Mestrado