Seleção de moléculas representativas via aprendizado de máquina
Uma Abordagem Baseada em Técnicas de Visualização de Informações para Avaliação de...
![]() | |
Autor(es): |
Thiago Ferreira Covões
Número total de Autores: 1
|
Tipo de documento: | Dissertação de Mestrado |
Imprenta: | São Carlos. |
Instituição: | Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB) |
Data de defesa: | 2010-02-22 |
Membros da banca: |
Eduardo Raul Hruschka;
Nelson Francisco Favilla Ebecken;
Maria Carolina Monard
|
Orientador: | Eduardo Raul Hruschka |
Resumo | |
O avanço tecnológico teve como consequência a geração e o armazenamento de quantidades abundantes de dados. Para conseguir extrair o máximo de informação possível dos dados tornou-se necessária a formulação de novas ferramentas de análise de dados. Foi então introduzido o Processo de Descoberta de Conhecimento em Bancos de Dados, que tem como objetivo a identificação de padrôes válidos, novos, potencialmente úteis e compreensíveis em grandes bancos de dados. Nesse processo, a etapa responsável por encontrar padrões nos dados é denominada de Mineração de Dados. A acurácia e eficiência de algoritmos de mineração de dados dependem diretamente da quantidade e da qualidade dos dados que serão analisados. Nesse sentido, atributos redundantes e/ou não-informativos podem tornar o processo de mineração de dados ineficiente. Métodos de Seleção de Atributos podem remover tais atributos. Nesse trabalho é proposto um algoritmo para seleção de atributos e algumas de suas variantes. Tais algoritmos procuram identificar redundância por meio do agrupamento de atributos. A identificação de atributos redundantes pode auxiliar não apenas no processo de identificação de padrões, mas também pode favorecer a compreensibilidade do modelo obtido. O algoritmo proposto e suas variantes são comparados com dois algoritmos do mesmo gênero descritos na literatura. Tais algoritmos foram avaliados em problemas típicos de mineração de dados: classificação e agrupamento de dados. Os resultados das avaliações mostram que o algoritmo proposto, e suas variantes, fornecem bons resultados tanto do ponto de vista de acurácia como de eficiência computacional, sem a necessidade de definição de parâmetros críticos pelo usuário (AU) | |
Processo FAPESP: | 09/03580-2 - Seleção de Atributos via Agrupamento |
Beneficiário: | Thiago Ferreira Covões |
Modalidade de apoio: | Bolsas no Brasil - Mestrado |