Resumo
Os métodos de gradiente estocástico mais bem sucedidos em aprendizado profundo possuem uma característica incremental e são executados, no caso de grandes conjuntos de dados de treino, em múltiplas Unidades de Processamento Gráfico (GPUs). É comum a divisão do grande conjunto de dados de treino em mini-batches, cada qual contendo um subconjunto desses dados de modo a manter computacionalm…