Busca avançada
Ano de início
Entree


Classificadores baseados em vetores de suporte gerados a partir de dados rotulados e não-rotulados.

Texto completo
Autor(es):
Clayton Silva Oliveira
Número total de Autores: 1
Tipo de documento: Dissertação de Mestrado
Imprenta: São Paulo.
Instituição: Universidade de São Paulo (USP). Escola Politécnica
Data de defesa:
Membros da banca:
Fabio Gagliardi Cozman; Leliane Nunes de Barros; Emilio Del Moral Hernandez
Orientador: Fabio Gagliardi Cozman
Resumo

Treinamento semi-supervisionado é uma metodologia de aprendizado de máquina que conjuga características de treinamento supervisionado e não-supervisionado. Ela se baseia no uso de bases semi-rotuladas (bases contendo dados rotulados e não-rotulados) para o treinamento de classificadores. A adição de dados não-rotulados, mais baratos e geralmente disponíveis em maior quantidade do que os dados rotulados, pode aumentar o desempenho e/ou baratear o custo de treinamento desses classificadores (a partir da diminuição da quantidade de dados rotulados necessários). Esta dissertação analisa duas estratégias para se executar treinamento semi-supervisionado, especificamente em Support Vector Machines (SVMs): formas direta e indireta. A estratégia direta é atualmente mais conhecida e estudada, e permite o uso de dados rotulados e não-rotulados, ao mesmo tempo, em tarefas de aprendizagem de classificadores. Entretanto, a inclusão de muitos dados não-rotulados pode tornar o treinamento demasiadamente lento. Já a estratégia indireta é mais recente, sendo capaz de agregar os benefícios do treinamento semi-supervisionado direto com tempos menores para o aprendizado de classificadores. Esta opção utiliza os dados não-rotulados para pré-processar a base de dados previamente à tarefa de aprendizagem do classificador, permitindo, por exemplo, a filtragem de eventuais ruídos e a reescrita da base em espaços de variáveis mais convenientes. Dentro do escopo da forma indireta, está a principal contribuição dessa dissertação: idealização, implementação e análise do algoritmo split learning. Foram obtidos ótimos resultados com esse algoritmo, que se mostrou eficiente em treinar SVMs de melhor desempenho e em períodos menores a partir de bases semi-rotuladas. (AU)

Processo FAPESP: 03/09653-5 - Classificadores baseados em Vetores de Suporte, gerados a partir de dados rotulados e não-rotulados
Beneficiário:Clayton Silva Oliveira
Linha de fomento: Bolsas no Brasil - Mestrado